数据集:

eli5

英文

⚠️ Reddit最近对其API进行了更改,使得该数据集的源数据不可用。

ELI5 数据集卡片

数据集摘要

ELI5数据集是一个英文语言数据集,包含了从三个子reddit中收集到的问题和答案,这些问题需要以段落长度或更长的答案来回答。该数据集是为了支持开放领域的长篇摘要问答任务而创建的,其中的三个子数据集分别涵盖了有关一般主题的问题、科学主题以及历史主题。

支持的任务和排行榜

  • abstractive-qa,open-domain-abstractive-qa:该数据集可用于训练用于开放领域长篇问题回答的模型。LFQA模型需要从知识源(如 Wikipedia )中检索相关信息,然后使用这些信息生成多句答案。该模型的性能是通过其与参考答案的 ROUGE 分数的高低来衡量的。通过训练一个从 Wikipedia passages 中提取信息的模型,可以实现 ROUGE-L of 0.149

语言

数据集中的文本为英文,即Reddit用户在 r/explainlikeimfive r/askscience r/AskHistorians 子reddit上使用的英文。相关的BCP-47代码为en。

数据集结构

数据实例

一个典型的数据点包含一个问题,其中包含主问题的标题和有时对其的进一步解释的selftext,并包含一个按照得到的赞数排序的答案列表。另外,每个文本字段中的URL已提取到相应的列表中,并通过文本中的通用标记进行替换。

ELI5测试集中的一个示例如下:

{'q_id': '8houtx',
 'title': 'Why does water heated to room temperature feel colder than the air around it?',
 'selftext': '',
 'document': '',
 'subreddit': 'explainlikeimfive',
 'answers': {'a_id': ['dylcnfk', 'dylcj49'],
  'text': ["Water transfers heat more efficiently than air. When something feels cold it's because heat is being transferred from your skin to whatever you're touching. Since water absorbs the heat more readily than air, it feels colder.",
   "Air isn't as good at transferring heat compared to something like water or steel (sit on a room temperature steel bench vs. a room temperature wooden bench, and the steel one will feel more cold).\n\nWhen you feel cold, what you're feeling is heat being transferred out of you.  If there is no breeze, you feel a certain way.  If there's a breeze, you will get colder faster (because the moving air is pulling the heat away from you), and if you get into water, its quite good at pulling heat from you.   Get out of the water and have a breeze blow on you while you're wet, all of the water starts evaporating, pulling even more heat from you."],
  'score': [5, 2]},
 'title_urls': {'url': []},
 'selftext_urls': {'url': []},
 'answers_urls': {'url': []}}

数据字段

  • q_id:每个示例的字符串问题标识符,对应于 Pushshift.io Reddit提交转储中的ID。
  • subreddit:explainlikeimfive,askscience或AskHistorians之一,指示问题来自哪个子reddit。
  • title:问题的标题,其中的URL被提取并替换为URL_n标记。
  • title_urls:提取的URL列表,列表的第n个元素被替换为URL_n。
  • selftext:一个空字符串或问题的详细说明。
  • selftext_urls:类似于title_urls,但针对self_text。
  • answers:答案列表,每个答案包括:
    • a_id:每个答案的字符串答案标识符,对应于 Pushshift.io Reddit评论转储中的ID。
    • text:答案文本,URL已被标准化。
    • score:答案在创建转储时收到的赞数。
  • answers_urls:提取的URL列表。所有答案使用相同的列表,标准化标记的编号在答案文本中继续。

数据拆分

该数据根据每个子reddit的培训、验证和测试集进行了拆分。为了避免在不同数据集中存在重复的问题,每个问题的标题都按照其与最近邻问题的tf-idf匹配值进行排名,并使用最小值在测试和验证集中选择标题最小的问题。最终的拆分大小如下:

Train Valid Test
r/explainlikeimfive examples 272634 9812 24512
r/askscience examples 131778 2281 4462
r/AskHistorians examples 98525 4901 9764

数据集创建

策划理由

ELI5的构建目的是为机器提供一个学习如何回答更复杂问题的测试平台,这要求它们能够以一种连贯的方式找到并结合信息。该数据集通过收集社区成员在三个子reddit上提出的问题以及其他用户提供的答案来构建。 r/explainlikeimfive 是为训练抽象化问题回答模型而创建的数据,因为这些问题需要寻求关于已树立的事实的客观解释,并且提供的答案需要能够让不具备任何特定领域知识的普通人理解。

源数据

初始数据收集和规范化

该数据是通过从托管在 Pushshift.io 上的 Reddit forum 的XML转储中筛选出感兴趣的子reddit的提交和评论获得的。

为了进一步提高所选示例的质量,仅选择了得分至少为2且至少有一个答案得分至少为2的问题加入数据集。数据集问题和答案的时间跨度从2012年8月到2019年8月。

谁是源语言的制作者?

源语言的制作者是2012年至2019年间 r/explainlikeimfive r/askscience r/AskHistorians Reddit的用户。数据源没有提供更多的人口统计信息。

注释

数据集不包含任何其他注释。

注释过程

[N/A]

谁是注释者?

[N/A]

个人和敏感信息

作者从 Pushshift.io 的转储中删除了发言者的ID,但没有对数据进行其他匿名化处理。其中一些问题和答案涉及当代公众人物或在新闻中曾出现过的个人。

使用数据时的注意事项

数据集的社会影响

该数据集的目的是帮助开发更好的问答系统。

成功完成支持的任务的系统将能够提供一个连贯的答案,甚至对于需要多步解释的复杂问题也可以如此,这超出了现有模型的能力。该任务也被认为是检索模型的测试平台,它可以向用户显示生成答案时使用的源文本,并允许他们确认提供给他们的信息。然而,应该注意的是,所提供的答案是由Reddit用户撰写的,如果在部署基于该数据集训练的模型时将其呈现给用户时缺乏上下文,这些信息可能会丢失。这可能会引入特定的偏见,这些偏见在下一节中进行了讨论。

偏见讨论

虽然Reddit上有很多繁荣的社区进行高质量的讨论,但广为人知的是,在某些角落,性别歧视、仇恨和骚扰是重要问题。例如, recent post from Reddit founder u/spez 中概述了他认为该网站历史政策导致这个问题的一些方式, Adrienne Massanari's 2015 article on GamerGate 和后续的研究,或者 2019 Wired article on misogyny on Reddit

虽然最近自然语言处理领域在解决模型去偏见问题上进行了一些工作(例如专门在Reddit数据上进行训练的词嵌入的 Black is to Criminal as Caucasian is to Police: Detecting and Removing Multiclass Bias in Word Embeddings ),但这个问题远未解决,训练模型可能学到数据中存在的偏见的可能性仍然是一个重要的问题。

我们仍然注意到对于所有这些社区都存在一些令人鼓舞的迹象: r/explainlikeimfive r/askscience 具有类似的结构和目的,2015年发现 r/askscience 相比其他子reddit显示出中等支持性和非常低的毒性(参见 hackerfall post thecut.com write-up 和支持 data )。同时, r/AskHistorians rules 提到管理员不会容忍“种族主义、性别歧视或任何其他形式的偏见”。然而,仍然需要进一步分析这些规则是否在多大程度上减少了毒性问题。

我们还注意到,鉴于Reddit网站的受众,在美国和欧洲更广泛地使用,答案很可能会呈现西方的观点,这在处理历史话题时特别重要。

其他已知限制

数据集中提供的答案代表Reddit用户的观点。虽然这些社区努力提供帮助,但不能被认为代表真相。

其他信息

数据集策划者

该数据集最初由Angela Fan,Ethan Perez,Yacine Jernite,Jason Weston,Michael Auli和David Grangier在Facebook AI Research (FAIR)完成的工作中创建。

许可信息

数据集的许可状态取决于 Pushshift.io 数据的法律状态,目前尚不清楚。

引用信息

@inproceedings{eli5_lfqa,
  author    = {Angela Fan and
               Yacine Jernite and
               Ethan Perez and
               David Grangier and
               Jason Weston and
               Michael Auli},
  editor    = {Anna Korhonen and
               David R. Traum and
               Llu{\'{\i}}s M{\`{a}}rquez},
  title     = {{ELI5:} Long Form Question Answering},
  booktitle = {Proceedings of the 57th Conference of the Association for Computational
               Linguistics, {ACL} 2019, Florence, Italy, July 28- August 2, 2019,
               Volume 1: Long Papers},
  pages     = {3558--3567},
  publisher = {Association for Computational Linguistics},
  year      = {2019},
  url       = {https://doi.org/10.18653/v1/p19-1346},
  doi       = {10.18653/v1/p19-1346}
}

贡献

感谢 @lewtun @lhoestq @mariamabarham @thomwolf @yjernite 添加了该数据集。