数据集:

eli5_category

源数据集:

extended|eli5

批注创建人:

found

大小:

100K<n<1M

语言创建人:

found

计算机处理:

monolingual

语言:

en

任务:

文生文
英文

ELI5-Category数据集卡片

数据集摘要

ELI5-Category数据集是原始ELI5数据集的较小但较新且具有分类的版本。这是一个英文数据集,包含从 r/explainlikeimfive subreddit(reddit论坛的一个子版块)收集到的问题和答案,用户在这个论坛上提出一些需要使用段落长度或更长的回答来回答的事实性问题。在2017年后,引入了一个标记系统,以便根据标签将问题分类到不同的主题中。由于训练和验证集是根据不同主题的问题构建的,因此预计该数据集能够减轻原始 ELI5 dataset 数据集中的训练/验证重叠问题。

支持的任务和排行榜

  • abstractive-qa, open-domain-abstractive-qa: 可以使用该数据集训练用于开放领域长篇问答的模型。LFQA模型被提供一个非事实型问题,并被要求从知识源(如 Wikipedia )中检索相关信息,然后生成一个多句子回答。

语言

数据集中的文本为英文,由 r/explainlikeimfive subreddit上的Reddit用户使用。相关的BCP-47代码为en。

数据集结构

数据示例

该数据集的结构与原始 ELI5 dataset 非常相似。一个典型的数据点包括一个问题,其中包含主要问题的标题和有时对其进行补充的selftext,以及来自论坛的回答列表,按照它们获得的得分进行排序。此外,每个文本字段中的URL已被提取到相应的列表中,并在文本中替换为通用标记。除了原始ELI5数据集之外,数据点还有一个category字段。该数据集中的category有11个常见值:Biology(生物学)、Chemistry(化学)、Culture(文化)、Earth Science(地球科学)、Economics(经济学)、Engineering(工程学)、Mathematics(数学)、Other(其他)、Physics(物理学)、Psychology(心理学)、Technology(技术),还有一个特殊的category:Repost(重发),表示此问题之前已经被提问过。

ELI5-Category数据集的一个示例如下:

{'q_id': '5lcm18',
 'title': 'Why do old games running on new hardware still have technical issues ?',
 'selftext': 'I am playing some mega man games on my Xbox One and experience slowdown when there are a lot of enemies on screen . but the Xbox One is significantly more powerful than the NES , so why is there still slowdown on this hardware ?',
 'category': 'Engineering',
 'subreddit': 'explainlikeimfive',
 'answers': {'a_id': ['dbuo48e', 'dbusfve'],
  'text': ["The XBox is emulating NES hardware and running the emulation at a set speed . If it ran it at as fast as possible , then it would be several times faster than the original NES game and would be unplayable . I ca n't speak for Mega Man exactly , but older games tended to run on a cycle locked to the screen refresh which was a fixed 60Hz or 50Hz . There was only one piece of hardware they ran on , so there was no need to adjust for different hardware speeds .",
            "In that case , it 's probably on purpose - they want to emulate the experience as closely as possible , even including the slowdown and sprite flickering . Some emulators let you turn it off , but it 's usually turned on by default . In other cases , like if you 're trying to emulate PS2 games on your PC , the game might just run really slow in general . Even though your PC is way more powerful than a PS2 , it has to \" translate \" from PS2 language to PC language in realtime , which is much more difficult than running PS2 code on the PS2 itself ."],
  'score': [13, 3],
  'text_urls': [[],[]]},
 'title_urls': {'url': []},
 'selftext_urls': {'url': []}}

数据字段

  • q_id :每个示例的字符串问题标识符,与 Pushshift.io Reddit提交转储中的ID相对应
  • subreddit :始终为explainlikeimfive,指示问题来自哪个subreddit
  • category :问题的标签,可能的值如上所述
  • title :问题的标题,其中的URL已提取并替换为URL_n标记
  • title_urls :提取的URL列表,列表的第n个元素被替换为URL_n
  • selftext :一个空字符串或问题的补充说明
  • selftext_urls :类似于title_urls,但用于self_text
  • answers :回答列表,每个回答包括:
    • a_id :每个答案的字符串答案标识符,与 Pushshift.io Reddit评论转储中的ID相对应
    • text :答案文本,其中的URL已被规范化
    • score :在创建转储时答案获得的赞成票数减去反对票数
    • text_urls :每个答案的提取的URL列表

数据集划分

为了避免在不同集合中使用重复的问题,训练、验证和测试集使用了category的三个不重叠的子集。另外,一个特殊的验证集包含Repost类别中的所有问题。一个有效的检索生成模型应该在两个验证集上具有一致的性能。最终的划分大小如下:

Train Valid Valid2 Test
Biology 32769
Chemistry 6633
Culture 5446
Earth Science 677
Economics 5901
Engineering 5411
Mathematics 1912
Other 19312
Physics 10196
Psychology 338
Technology 14034
Repost 2375
Total 91772 5446 2375 5411

数据集创建

策划理由

ELI5-Category的创建旨在为机器提供一个学习如何回答更复杂问题的测试平台,这要求他们以连贯的方式找到并结合信息。该数据集通过收集社区成员在包括 r/explainlikeimfive 在内的三个subreddit上提出的问题以及其他用户提供的答案来构建。该数据对于训练用于抽象问答的模型特别适合:问题需要寻求关于已建立事实的客观解释,并且所提供的答案需要能够让普通人理解,而不需要具有特定的领域知识。

数据来源

初始数据收集和规范化

数据是通过从 Reddit forum 上托管的 Pushshift.io XML转储中过滤提交和评论获取的。

为了进一步提高所选样本的质量,只选择了评分至少为2且至少有一个答案评分至少为2的问题作为数据集。数据集的问题和答案涵盖了2017年1月至2021年6月的时间段。

谁是源语言出品者?

源语言出品者是2017年至2021年间 r/explainlikeimfive subreddit的用户。没有从数据源获取到进一步的人口统计信息。

注释

数据集包含问题主题的category作为附加注释。

注释过程

数据集是通过 Reddit forum 的帖子标签进行自动注释的。

谁是注释者?

注释者是2017年至2021年间 r/explainlikeimfive subreddit的用户/管理员。没有从数据源获取到进一步的人口统计信息。

个人和敏感信息

作者从 Pushshift.io 转储中删除了讲话者的ID,但没有其他方式对数据进行匿名化。一些问题和答案涉及当代公众人物或出现在新闻中的个人。

使用数据的注意事项

数据的社会影响

该数据集的社会影响与原始的ELI5数据集相似。

偏见讨论

该数据集与原始ELI5数据集具有类似的偏见考虑。

其他已知限制

该数据集具有与原始ELI5数据集相似的限制。

附加信息

数据集策划者

该数据集最初由Jingsong Gao、Qinren Zhou和Rui Qiu在乔治城大学的ANLY 580:数据分析的NLP课程项目中创建。

许可信息

数据集的许可状态取决于 Pushshift.io 数据的法律状态,这是不清楚的。

引用信息

@inproceedings{eli5-category,
  author    = {Jingsong Gao and
               Qingren Zhou and
               Rui Qiu},
  title     = {{ELI5-Category:} A categorized open-domain QA dataset},
  year      = {2021}
}

贡献

感谢 @jingshenSN2 @QinrenZhou @rexarski 添加了该数据集。