英文

Never Ending Language Learning (NELL) 数据集卡

数据集摘要

该数据集提供了 CMU 的 Never Ending Language Learner (NELL) 的版本 1115 的信念,以及 NELL 的版本 1110 的候选信念。请参见 http://rtw.ml.cmu.edu/rtw/overview 。NELL 是一个开放的信息提取系统,试图从 Clueweb09 的 5 亿个网页( http://boston.lti.cs.cmu.edu/Data/clueweb09/ )和常规网络搜索中提取信息。

该数据集有四个配置:nell_belief, nell_candidate, nell_belief_sentences 和 nell_candidate_sentences. nell_belief 表示置信度较低的信念。两个 sentences 配置提取了 CPL(Commonsense Pattern Language)句式,其中包含将实体填入句式的“最佳”文本串,以及使用包含实体和关系的网页搜索找到的句子。

nell_belief_sentences 中大约有 2100 万个条目,nell_candidate_sentences 中有 1 亿个句子。

来自 NELL 网站的介绍:

  • 研究目标:构建一个永不停止的机器学习系统,从非结构化的网页中提取结构化信息的能力。如果成功,这将产生一个与 Web 内容相对应的结构化信息的知识库(即关系数据库)。我们称之为 NELL(Never-Ending Language Learner)。

  • 方法:NELL 的输入包括(1)定义了数百个类别(如人员、体育团队、水果、情感)和关系(如 playsOnTeam(athlete,sportsTeam)、playsInstrument(musician,instrument))的初始本体,NELL 预计能够从中提取信息,以及(2)每个类别和关系的 10 到 15 个种子示例。

在拥有这些输入、五亿个网页的收藏以及通过搜索引擎 API 访问其他 Web 内容的基础上,NELL 每天 24 小时持续运行,执行两项持续的任务:

提取类别和关系的新实例。换句话说,找到代表输入类别的新示例的名词短语(例如,“Barack Obama”是一个人和政治家),以及找到对应于输入关系的名词短语对(例如,“Jason Giambi”和“Yankees”是 playsOnTeam 关系的实例)。这些新实例被添加到不断增长的结构化信念知识库中。学习变得比昨天更好。NELL 使用各种方法从网络上提取信念。它们通过使用不断增长的知识库作为自我监督的训练样本集来进行重新训练。结果是一种半监督学习方法,将许多不同的提取方法的训练耦合为广泛的类别和关系范围。NELL 目前的成功很大程度上要归功于它耦合了许多提取方法的同时训练的算法。

有关更多信息,请参见: http://rtw.ml.cmu.edu/rtw/resources

支持的任务和排行榜

[需要更多信息]

语言

en,可能还有其他语言

数据集结构

数据实例

该数据集有四个配置:nell_belief、nell_candidate、nell_belief_sentences 和 nell_candidate_sentences。

nell_belief 和 nell_candidate 的定义为:

{'best_entity_literal_string': 'Aspect Medical Systems', 'best_value_literal_string': '', 'candidate_source': '%5BSEAL-Iter%3A215-2011%2F02%2F26-04%3A27%3A09-%3Ctoken%3Daspect_medical_systems%2Cbiotechcompany%3E-From%3ACategory%3Abiotechcompany-using-KB+http%3A%2F%2Fwww.unionegroup.com%2Fhealthcare%2Fmfg_info.htm+http%3A%2F%2Fwww.conventionspc.com%2Fcompanies.html%2CCPL-Iter%3A1103-2018%2F03%2F08-15%3A32%3A34-%3Ctoken%3Daspect_medical_systems%2Cbiotechcompany%3E-grant+support+from+_%092%09research+support+from+_%094%09unrestricted+educational+grant+from+_%092%09educational+grant+from+_%092%09research+grant+support+from+_%091%09various+financial+management+positions+at+_%091%5D', 'categories_for_entity': 'concept:biotechcompany', 'categories_for_value': 'concept:company', 'entity': 'concept:biotechcompany:aspect_medical_systems', 'entity_literal_strings': '"Aspect Medical Systems" "aspect medical systems"', 'iteration_of_promotion': '1103', 'relation': 'generalizations', 'score': '0.9244426550775064', 'source': 'MBL-Iter%3A1103-2018%2F03%2F18-01%3A35%3A42-From+ErrorBasedIntegrator+%28SEAL%28aspect_medical_systems%2Cbiotechcompany%29%2C+CPL%28aspect_medical_systems%2Cbiotechcompany%29%29', 'value': 'concept:biotechcompany', 'value_literal_strings': ''}

nell_belief_sentences 和 nell_candidate_sentences 的定义为:

{'count': 4, 'entity': 'biotechcompany:aspect_medical_systems', 'relation': 'generalizations', 'score': '0.9244426550775064', 'sentence': 'research support from [[ Aspect Medical Systems ]]', 'sentence_type': 'CPL', 'url': '', 'value': 'biotechcompany'}

数据字段

对于nell_belief 和 nell_candidate 配置。来源于 http://rtw.ml.cmu.edu/rtw/faq :

  • 实体:(实体,关系,值) 三元组的实体部分。请注意,这将是一个概念的名称,而不是 NELL 在某个文本源中看到的字符的字面字符串,也不表示该概念的类别成员资格
  • 关系:(实体,关系,值) 三元组的关系部分。对于类别实例,这将是“generalizations”。对于关系实例,这将是关系的名称。
  • 值:(实体,关系,值) 三元组的值部分。对于类别实例,这将是类别的名称。对于关系实例,这将是另一个概念(如实体)。
  • iteration_of_promotion:NELL 认为此类别或关系实例为真的时刻点。这是一个非负整数,表示 NELL 迭代的次数。
  • 分数:置信度得分。请注意,NELL 当前的分数实际上并非概率性的。
  • source:有关该信念的权威来源的摘要,指示提交此信念作为潜在真实信念的学习子组件集合(CPL、SEAL 等)。
  • entity_literal_strings:NELL 读取的实际文本字符串集,NELL 认为这些字符串可以引用实体列中指示的概念。
  • value_literal_strings:对于关系,NELL 读取的实际文本字符串集,NELL 认为这些字符串可以引用值列中指示的概念。对于类别,此处应为空,但可能包含一些错误信息。
  • best_entity_literal_string:在实体 literalStrings 列中的字符串集中,哪个字符串最适合用于描述该概念。
  • best_value_literal_string:相同的情况,但对于值 literalStrings。
  • categories_for_entity:NELL 认为实体列中指定的概念属于的所有类别集合(可能为空)。
  • categories_for_value:对于关系,NELL 认为值列中指定的概念属于的所有类别集合(可能为空)。对于类别,此处应为空,但可能包含一些错误信息。
  • candidate_source:对与 NELL 可能认为此类别或关系实例为真的证明的更具体来源信息的自由式汇编。

对于 nell_belief_sentences 和 nell_candidate_sentences,我们提取了底层句子、句子计数和 URLs,并通过去除字符串 “concept:” 和 “candidate:” 的方式提供了 entity、relation 和 value 字段的简化版本。有两种类型的句子:“CPL” 和 “OE”,分别由 NELL 的两个模块生成:模式匹配和网络开放搜索。可能存在重复。配置如下:

  • 实体:(实体,关系,值) 三元组的实体部分。请注意,这将是一个概念的名称,而不是 NELL 在某个文本源中看到的字符的字面字符串,也不表示该概念的类别成员资格
  • 关系:(实体,关系,值) 三元组的关系部分。对于类别实例,这将是“generalizations”。对于关系实例,这将是关系的名称。
  • 值:(实体,关系,值) 三元组的值部分。对于类别实例,这将是类别的名称。对于关系实例,这将是另一个概念(如实体)。
  • 分数:置信度得分。请注意,NELL 当前的分数实际上并非概率性的。
  • 句子:原始句子。对于 'CPL' 类型的句子,实体和值周围有 "[[" 和 "]]"。对于 'OE' 类型的句子,没有 "[[" 和 "]]"。
  • url:如果有的话,句子提取自哪个 url
  • 计数:该句子的计数
  • sentence_type:'CPL' 或 'OE'

数据拆分

没有拆分。

数据集创建

策划理由

这个数据集是在运行 NELL 系统对网络数据进行多年的过程中收集和创建的。

数据源

初始数据收集和规范化

请参见有关 NELL 的研究论文。NELL 使用各种开放信息提取算法(包括模式匹配)在 Clueweb09 和开放网络上搜索。

谁是源语言的生产者?

卡内基梅隆大学的 NELL 作者以及来自 Cluebweb09 和开放网络的数据。

注释

注释过程

NELL 的各种开放信息提取模块。

谁是注释员?

机器注释。

个人和敏感信息

未知,但可能包含一些著名个人的姓名。

使用数据的注意事项

数据集的社会影响

这项工作的目标是帮助机器学习阅读和理解网络。

偏差讨论

由于数据是从网络上收集的,可能存在偏见的文本和关系。

[需要更多信息]

其他已知限制

从 NELL 收集的关系和概念并不百分之百准确,可能存在错误(错误率可能高达 30%)。请参见 https://en.wikipedia.org/wiki/Never-Ending_Language_Learning

我们没有在 'OE' 句子中标记实体和值,这可能是将来的扩展。

其他信息

数据集策划者

卡内基梅隆大学的 NELL 作者

许可信息

http://rtw.ml.cmu.edu/rtw/resources 上似乎没有许可证。该数据集由 CMU 在网上提供。

引用信息

@inproceedings{mitchell2015, added-at = {2015-01-27T15:35:24.000+0100}, author = {Mitchell, T. and Cohen, W. and Hruscha, E. and Talukdar, P. and Betteridge, J. and Carlson, A. and Dalvi, B. and Gardner, M. and Kisiel, B. and Krishnamurthy, J. and Lao, N. and Mazaitis, K. and Mohammad, T. and Nakashole, N. and Platanios, E. and Ritter, A. and Samadi, M. and Settles, B. and Wang, R. and Wijaya, D. and Gupta, A. and Chen, X. and Saparov, A. and Greaves, M. and Welling, J.}, biburl = { https://www.bibsonomy.org/bibtex/263070703e6bb812852cca56574aed093/hotho} }, booktitle = {AAAI}, description = {Papers by William W. Cohen}, interhash = {52d0d71f6f5b332dabc1412f18e3a93d}, intrahash = {63070703e6bb812852cca56574aed093}, keywords = {learning nell ontology semantic toread}, note = {:Never-Ending Learning in AAAI-2015}, timestamp = {2015-01-27T15:35:24.000+0100}, title = {Never-Ending Learning}, url = { http://www.cs.cmu.edu/~wcohen/pubs.html} }, year = 2015}

贡献

感谢 @ontocord 添加了这个数据集。