数据集:
eli5
任务:
文生文语言:
en计算机处理:
monolingual大小:
100K<n<1M语言创建人:
found批注创建人:
no-annotation源数据集:
original许可:
license:unknownELI5数据集是一个英文语言数据集,包含了从三个子reddit中收集到的问题和答案,这些问题需要以段落长度或更长的答案来回答。该数据集是为了支持开放领域的长篇摘要问答任务而创建的,其中的三个子数据集分别涵盖了有关一般主题的问题、科学主题以及历史主题。
数据集中的文本为英文,即Reddit用户在 r/explainlikeimfive 、 r/askscience 和 r/AskHistorians 子reddit上使用的英文。相关的BCP-47代码为en。
一个典型的数据点包含一个问题,其中包含主问题的标题和有时对其的进一步解释的selftext,并包含一个按照得到的赞数排序的答案列表。另外,每个文本字段中的URL已提取到相应的列表中,并通过文本中的通用标记进行替换。
ELI5测试集中的一个示例如下:
{'q_id': '8houtx', 'title': 'Why does water heated to room temperature feel colder than the air around it?', 'selftext': '', 'document': '', 'subreddit': 'explainlikeimfive', 'answers': {'a_id': ['dylcnfk', 'dylcj49'], 'text': ["Water transfers heat more efficiently than air. When something feels cold it's because heat is being transferred from your skin to whatever you're touching. Since water absorbs the heat more readily than air, it feels colder.", "Air isn't as good at transferring heat compared to something like water or steel (sit on a room temperature steel bench vs. a room temperature wooden bench, and the steel one will feel more cold).\n\nWhen you feel cold, what you're feeling is heat being transferred out of you. If there is no breeze, you feel a certain way. If there's a breeze, you will get colder faster (because the moving air is pulling the heat away from you), and if you get into water, its quite good at pulling heat from you. Get out of the water and have a breeze blow on you while you're wet, all of the water starts evaporating, pulling even more heat from you."], 'score': [5, 2]}, 'title_urls': {'url': []}, 'selftext_urls': {'url': []}, 'answers_urls': {'url': []}}
该数据根据每个子reddit的培训、验证和测试集进行了拆分。为了避免在不同数据集中存在重复的问题,每个问题的标题都按照其与最近邻问题的tf-idf匹配值进行排名,并使用最小值在测试和验证集中选择标题最小的问题。最终的拆分大小如下:
Train | Valid | Test | |
---|---|---|---|
r/explainlikeimfive examples | 272634 | 9812 | 24512 |
r/askscience examples | 131778 | 2281 | 4462 |
r/AskHistorians examples | 98525 | 4901 | 9764 |
ELI5的构建目的是为机器提供一个学习如何回答更复杂问题的测试平台,这要求它们能够以一种连贯的方式找到并结合信息。该数据集通过收集社区成员在三个子reddit上提出的问题以及其他用户提供的答案来构建。 r/explainlikeimfive 是为训练抽象化问题回答模型而创建的数据,因为这些问题需要寻求关于已树立的事实的客观解释,并且提供的答案需要能够让不具备任何特定领域知识的普通人理解。
该数据是通过从托管在 Pushshift.io 上的 Reddit forum 的XML转储中筛选出感兴趣的子reddit的提交和评论获得的。
为了进一步提高所选示例的质量,仅选择了得分至少为2且至少有一个答案得分至少为2的问题加入数据集。数据集问题和答案的时间跨度从2012年8月到2019年8月。
谁是源语言的制作者?源语言的制作者是2012年至2019年间 r/explainlikeimfive 、 r/askscience 和 r/AskHistorians Reddit的用户。数据源没有提供更多的人口统计信息。
数据集不包含任何其他注释。
注释过程[N/A]
谁是注释者?[N/A]
作者从 Pushshift.io 的转储中删除了发言者的ID,但没有对数据进行其他匿名化处理。其中一些问题和答案涉及当代公众人物或在新闻中曾出现过的个人。
该数据集的目的是帮助开发更好的问答系统。
成功完成支持的任务的系统将能够提供一个连贯的答案,甚至对于需要多步解释的复杂问题也可以如此,这超出了现有模型的能力。该任务也被认为是检索模型的测试平台,它可以向用户显示生成答案时使用的源文本,并允许他们确认提供给他们的信息。然而,应该注意的是,所提供的答案是由Reddit用户撰写的,如果在部署基于该数据集训练的模型时将其呈现给用户时缺乏上下文,这些信息可能会丢失。这可能会引入特定的偏见,这些偏见在下一节中进行了讨论。
虽然Reddit上有很多繁荣的社区进行高质量的讨论,但广为人知的是,在某些角落,性别歧视、仇恨和骚扰是重要问题。例如, recent post from Reddit founder u/spez 中概述了他认为该网站历史政策导致这个问题的一些方式, Adrienne Massanari's 2015 article on GamerGate 和后续的研究,或者 2019 Wired article on misogyny on Reddit 。
虽然最近自然语言处理领域在解决模型去偏见问题上进行了一些工作(例如专门在Reddit数据上进行训练的词嵌入的 Black is to Criminal as Caucasian is to Police: Detecting and Removing Multiclass Bias in Word Embeddings ),但这个问题远未解决,训练模型可能学到数据中存在的偏见的可能性仍然是一个重要的问题。
我们仍然注意到对于所有这些社区都存在一些令人鼓舞的迹象: r/explainlikeimfive 和 r/askscience 具有类似的结构和目的,2015年发现 r/askscience 相比其他子reddit显示出中等支持性和非常低的毒性(参见 hackerfall post , thecut.com write-up 和支持 data )。同时, r/AskHistorians rules 提到管理员不会容忍“种族主义、性别歧视或任何其他形式的偏见”。然而,仍然需要进一步分析这些规则是否在多大程度上减少了毒性问题。
我们还注意到,鉴于Reddit网站的受众,在美国和欧洲更广泛地使用,答案很可能会呈现西方的观点,这在处理历史话题时特别重要。
数据集中提供的答案代表Reddit用户的观点。虽然这些社区努力提供帮助,但不能被认为代表真相。
该数据集最初由Angela Fan,Ethan Perez,Yacine Jernite,Jason Weston,Michael Auli和David Grangier在Facebook AI Research (FAIR)完成的工作中创建。
数据集的许可状态取决于 Pushshift.io 数据的法律状态,目前尚不清楚。
@inproceedings{eli5_lfqa, author = {Angela Fan and Yacine Jernite and Ethan Perez and David Grangier and Jason Weston and Michael Auli}, editor = {Anna Korhonen and David R. Traum and Llu{\'{\i}}s M{\`{a}}rquez}, title = {{ELI5:} Long Form Question Answering}, booktitle = {Proceedings of the 57th Conference of the Association for Computational Linguistics, {ACL} 2019, Florence, Italy, July 28- August 2, 2019, Volume 1: Long Papers}, pages = {3558--3567}, publisher = {Association for Computational Linguistics}, year = {2019}, url = {https://doi.org/10.18653/v1/p19-1346}, doi = {10.18653/v1/p19-1346} }
感谢 @lewtun 、 @lhoestq 、 @mariamabarham 、 @thomwolf 和 @yjernite 添加了该数据集。