"wiki_qa" 数据集卡片
数据集摘要
来自Microsoft的维基问答语料库。
WikiQA语料库是一组公开可用的问题和句子对,为开放领域问答的研究收集和标注。
支持的任务和排行榜
More Information Needed
语言
More Information Needed
数据集结构
数据实例
默认值
- 下载的数据集文件大小:7.10 MB
- 生成的数据集大小:6.40 MB
- 总使用磁盘空间:13.50 MB
"train"的一个示例如下所示。
{
"answer": "Glacier caves are often called ice caves , but this term is properly used to describe bedrock caves that contain year-round ice.",
"document_title": "Glacier cave",
"label": 0,
"question": "how are glacier caves formed?",
"question_id": "Q1"
}
数据字段
所有拆分的数据字段是相同的。
默认值
- question_id:字符串特征。
- question:字符串特征。
- document_title:字符串特征。
- answer:字符串特征。
- label:分类标签,可能的值包括0(0),1(1)。
数据拆分
name
|
train
|
validation
|
test
|
default
|
20360
|
2733
|
6165
|
数据集创建
策划理由
More Information Needed
源数据
初始数据收集和规范化
More Information Needed
谁是源语言的生产者?
More Information Needed
注释
注释过程
More Information Needed
谁是注释者?
More Information Needed
个人和敏感信息
More Information Needed
使用数据的注意事项
数据的社会影响
More Information Needed
偏见讨论
More Information Needed
其他已知限制
More Information Needed
其他信息
数据集策划者
More Information Needed
许可信息
MICROSOFT RESEARCH DATA LICENSE AGREEMENTFORMICROSOFT RESEARCH WIKIQA CORPUS
这些许可条款是Microsoft Corporation(或根据您所在地的实际情况,其附属公司之一)与您之间的协议。请阅读它们。它们适用于上述许可的数据,包括您收到的媒体(如果有)。这些条款还适用于任何Microsoft的:
- 更新,
- 补充,
- 基于Internet的服务,和
- 为此数据提供的支持服务,除非这些项目附带其他条款。如果是这样,那些条款适用。如果您遵守这些许可条款,则您具有以下权利。
LICENSE的范围。您可以使用,复制,修改,创建衍生作品并分发数据集:i. 仅用于研究和技术开发目的。研究和技术开发用途的示例包括教学,学术研究,公共演示和实验;ii. 发布有关使用此类数据集得到的结果的文章(或展示论文或文章)。b. 数据是经许可而不是出售的。本协议仅授予您一些使用数据的权利。Microsoft保留所有其他权利。除非适用法律授予您其他权利而不受此限制,否则您只能按照本协议明确允许的方式使用数据。在此过程中,您必须遵守数据中的任何技术限制,这些限制仅允许您以某些方式使用数据。您不得 : - 绕过数据中的任何技术限制;
- 反向工程,反编译或反汇编数据,除非适用法明确允许,尽管有此限制;
- 出租,租赁或出借数据;
- 将数据或本协议转让给任何第三方;或
- 在未经Microsoft许可的情况下直接将数据用于商业产品中。
DISTRIBUTION要求:a. 如果您分发数据集或数据集的任何衍生作品,您必须按照本协议的相同条款和条件分发它们,并且不会授予数据集或衍生作品不同于本协议提供的其他权利。b. 如果您创建了数据集的衍生作品,并分发这些衍生作品,您将导致修改后的文件带有醒目通知,以便接收者知道他们未收到原始数据集。这些通知必须说明:(i)您对数据集进行了更改;和(ii)任何更改的日期。 DISTRIBUTION限制。您不得:(a)更改数据集中的任何版权,商标或专利通知;(b)以暗示您的衍生作品或修改来自或得到Microsoft认可的方式使用Microsoft的商标;(c)将数据集包含在恶意,欺骗或非法的程序中。 所有权。Microsoft保留对根据本协议提供给您的任何数据集的所有权、所有权和利益。您对根据本协议收到的数据集不享有任何权益。 授予Microsoft的许可。Microsoft获得不受任何限制或限制的非排他性,永久性,不可撤销的,免版税的,可转让的和可转许可的许可,以复制,公开执行或显示,使用,修改,发布,分发,制作和使用数据集的修改或衍生作品,无论用于任何目的。 反馈。如果您向Microsoft提供有关数据集的反馈意见,则您免费授予Microsoft使用,共享和商业化您的反馈意见的权利,无论以何种方式和任何目的。您还向第三方免费授予他们为其产品,技术和服务使用或与包含反馈的任何Microsoft数据集或服务进行接口所需的专利权。您不会提供受许可证约束的反馈意见,该许可证要求Microsoft向第三方许可其数据集或文档,因为我们在其中包括了您的反馈。这些权利将在本协议终止后继续存在。 EXPORT RESTRICTIONS。数据集受制于美国出口法律和法规。您必须遵守适用于数据集的所有国内和国际出口法律和法规。这些法律包括对目的地,最终用户和最终用途的限制。有关更多信息,请参见
www.microsoft.com/exporting
。 整个协议。本协议以及您使用的支持服务的补充,更新,基于互联网的服务和支持服务的条款是数据集的完整协议。 支持服务。由于数据是“按原样提供的”,因此我们可能不会为其提供支持服务。 适用法律。a. 美国。如果您在美国获得了软件,则华盛顿州法律适用于对本协议的解释,并适用于对其违约的主张,而不考虑法律冲突原则。您居住的州的法律适用于所有其他主张,包括根据州消费者保护法,不正当竞争法和侵权法的主张。b. 美国以外。如果您在其他任何国家获得了软件,则适用该国的法律。 法律效力。本协议描述了某些法律权利。根据您所在国家的法律,您可能拥有其他权利。您还可能对您获取数据集的当事方拥有权益。如果您所在国家的法律不允许本协议对其产生的效力,则本协议不会更改您在您所在国家法律下的权利。 免责声明。该数据集根据“原样”许可。您使用它的风险自负。Microsoft不提供明示的保证,担保或条件。根据您所在地的法律,您可能拥有其他消费者权利或法定保证,本协议无法更改。在法律允许的范围内,Microsoft排除对适销性,特定用途适用性和非侵权性的隐含保证的排除。 对救济措施和损害的限制和排除。您只能从Microsoft及其供应商获得直接的损害赔偿,最高为美国5.00美元。您无法获得其他损害赔偿,包括间接,失去的利润,特别,间接或附带性的损害赔偿。 该限制适用于 :
- 与软件,服务,第三方互联网站上的内容(包括代码)或第三方程序有关的任何事项;
- 因合同违约,保证,担保或条件,严格责任,疏忽或其他侵权行为而提出的索赔,在适用法律允许的范围内。
即使Microsoft知道或应该知道可能存在损害的可能性,上述限制或排除也适用。上述限制或排除可能不适用于您,因为您所在的国家/地区可能不允许排除或限制附带,间接或其他损害赔偿。
引用信息
@inproceedings{yang-etal-2015-wikiqa,
title = "{W}iki{QA}: A Challenge Dataset for Open-Domain Question Answering",
author = "Yang, Yi and
Yih, Wen-tau and
Meek, Christopher",
booktitle = "Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing",
month = sep,
year = "2015",
address = "Lisbon, Portugal",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D15-1237",
doi = "10.18653/v1/D15-1237",
pages = "2013--2018",
}
Contributions
感谢
@patrickvonplaten
,
@mariamabarham
,
@lewtun
,
@thomwolf
添加了该数据集。