数据集:
nell
许可:
license:unknown源数据集:
original批注创建人:
machine-generated语言创建人:
crowdsourced计算机处理:
monolingual语言:
en任务:
文本检索该数据集提供了 CMU 的 Never Ending Language Learner (NELL) 的版本 1115 的信念,以及 NELL 的版本 1110 的候选信念。请参见 http://rtw.ml.cmu.edu/rtw/overview 。NELL 是一个开放的信息提取系统,试图从 Clueweb09 的 5 亿个网页( http://boston.lti.cs.cmu.edu/Data/clueweb09/ )和常规网络搜索中提取信息。
该数据集有四个配置:nell_belief, nell_candidate, nell_belief_sentences 和 nell_candidate_sentences. nell_belief 表示置信度较低的信念。两个 sentences 配置提取了 CPL(Commonsense Pattern Language)句式,其中包含将实体填入句式的“最佳”文本串,以及使用包含实体和关系的网页搜索找到的句子。
nell_belief_sentences 中大约有 2100 万个条目,nell_candidate_sentences 中有 1 亿个句子。
来自 NELL 网站的介绍:
研究目标:构建一个永不停止的机器学习系统,从非结构化的网页中提取结构化信息的能力。如果成功,这将产生一个与 Web 内容相对应的结构化信息的知识库(即关系数据库)。我们称之为 NELL(Never-Ending Language Learner)。
方法:NELL 的输入包括(1)定义了数百个类别(如人员、体育团队、水果、情感)和关系(如 playsOnTeam(athlete,sportsTeam)、playsInstrument(musician,instrument))的初始本体,NELL 预计能够从中提取信息,以及(2)每个类别和关系的 10 到 15 个种子示例。
在拥有这些输入、五亿个网页的收藏以及通过搜索引擎 API 访问其他 Web 内容的基础上,NELL 每天 24 小时持续运行,执行两项持续的任务:
提取类别和关系的新实例。换句话说,找到代表输入类别的新示例的名词短语(例如,“Barack Obama”是一个人和政治家),以及找到对应于输入关系的名词短语对(例如,“Jason Giambi”和“Yankees”是 playsOnTeam 关系的实例)。这些新实例被添加到不断增长的结构化信念知识库中。学习变得比昨天更好。NELL 使用各种方法从网络上提取信念。它们通过使用不断增长的知识库作为自我监督的训练样本集来进行重新训练。结果是一种半监督学习方法,将许多不同的提取方法的训练耦合为广泛的类别和关系范围。NELL 目前的成功很大程度上要归功于它耦合了许多提取方法的同时训练的算法。
有关更多信息,请参见: http://rtw.ml.cmu.edu/rtw/resources
[需要更多信息]
en,可能还有其他语言
该数据集有四个配置:nell_belief、nell_candidate、nell_belief_sentences 和 nell_candidate_sentences。
nell_belief 和 nell_candidate 的定义为:
{'best_entity_literal_string': 'Aspect Medical Systems', 'best_value_literal_string': '', 'candidate_source': '%5BSEAL-Iter%3A215-2011%2F02%2F26-04%3A27%3A09-%3Ctoken%3Daspect_medical_systems%2Cbiotechcompany%3E-From%3ACategory%3Abiotechcompany-using-KB+http%3A%2F%2Fwww.unionegroup.com%2Fhealthcare%2Fmfg_info.htm+http%3A%2F%2Fwww.conventionspc.com%2Fcompanies.html%2CCPL-Iter%3A1103-2018%2F03%2F08-15%3A32%3A34-%3Ctoken%3Daspect_medical_systems%2Cbiotechcompany%3E-grant+support+from+_%092%09research+support+from+_%094%09unrestricted+educational+grant+from+_%092%09educational+grant+from+_%092%09research+grant+support+from+_%091%09various+financial+management+positions+at+_%091%5D', 'categories_for_entity': 'concept:biotechcompany', 'categories_for_value': 'concept:company', 'entity': 'concept:biotechcompany:aspect_medical_systems', 'entity_literal_strings': '"Aspect Medical Systems" "aspect medical systems"', 'iteration_of_promotion': '1103', 'relation': 'generalizations', 'score': '0.9244426550775064', 'source': 'MBL-Iter%3A1103-2018%2F03%2F18-01%3A35%3A42-From+ErrorBasedIntegrator+%28SEAL%28aspect_medical_systems%2Cbiotechcompany%29%2C+CPL%28aspect_medical_systems%2Cbiotechcompany%29%29', 'value': 'concept:biotechcompany', 'value_literal_strings': ''}
nell_belief_sentences 和 nell_candidate_sentences 的定义为:
{'count': 4, 'entity': 'biotechcompany:aspect_medical_systems', 'relation': 'generalizations', 'score': '0.9244426550775064', 'sentence': 'research support from [[ Aspect Medical Systems ]]', 'sentence_type': 'CPL', 'url': '', 'value': 'biotechcompany'}
对于nell_belief 和 nell_candidate 配置。来源于 http://rtw.ml.cmu.edu/rtw/faq :
对于 nell_belief_sentences 和 nell_candidate_sentences,我们提取了底层句子、句子计数和 URLs,并通过去除字符串 “concept:” 和 “candidate:” 的方式提供了 entity、relation 和 value 字段的简化版本。有两种类型的句子:“CPL” 和 “OE”,分别由 NELL 的两个模块生成:模式匹配和网络开放搜索。可能存在重复。配置如下:
没有拆分。
这个数据集是在运行 NELL 系统对网络数据进行多年的过程中收集和创建的。
请参见有关 NELL 的研究论文。NELL 使用各种开放信息提取算法(包括模式匹配)在 Clueweb09 和开放网络上搜索。
谁是源语言的生产者?卡内基梅隆大学的 NELL 作者以及来自 Cluebweb09 和开放网络的数据。
NELL 的各种开放信息提取模块。
谁是注释员?机器注释。
未知,但可能包含一些著名个人的姓名。
这项工作的目标是帮助机器学习阅读和理解网络。
由于数据是从网络上收集的,可能存在偏见的文本和关系。
[需要更多信息]
从 NELL 收集的关系和概念并不百分之百准确,可能存在错误(错误率可能高达 30%)。请参见 https://en.wikipedia.org/wiki/Never-Ending_Language_Learning 。
我们没有在 'OE' 句子中标记实体和值,这可能是将来的扩展。
卡内基梅隆大学的 NELL 作者
在 http://rtw.ml.cmu.edu/rtw/resources 上似乎没有许可证。该数据集由 CMU 在网上提供。
@inproceedings{mitchell2015, added-at = {2015-01-27T15:35:24.000+0100}, author = {Mitchell, T. and Cohen, W. and Hruscha, E. and Talukdar, P. and Betteridge, J. and Carlson, A. and Dalvi, B. and Gardner, M. and Kisiel, B. and Krishnamurthy, J. and Lao, N. and Mazaitis, K. and Mohammad, T. and Nakashole, N. and Platanios, E. and Ritter, A. and Samadi, M. and Settles, B. and Wang, R. and Wijaya, D. and Gupta, A. and Chen, X. and Saparov, A. and Greaves, M. and Welling, J.}, biburl = { https://www.bibsonomy.org/bibtex/263070703e6bb812852cca56574aed093/hotho} }, booktitle = {AAAI}, description = {Papers by William W. Cohen}, interhash = {52d0d71f6f5b332dabc1412f18e3a93d}, intrahash = {63070703e6bb812852cca56574aed093}, keywords = {learning nell ontology semantic toread}, note = {:Never-Ending Learning in AAAI-2015}, timestamp = {2015-01-27T15:35:24.000+0100}, title = {Never-Ending Learning}, url = { http://www.cs.cmu.edu/~wcohen/pubs.html} }, year = 2015}
感谢 @ontocord 添加了这个数据集。