数据集:
eli5_category
许可:
license:unknown源数据集:
extended|eli5批注创建人:
found大小:
100K<n<1M语言创建人:
found计算机处理:
monolingual语言:
en任务:
文生文ELI5-Category数据集是原始ELI5数据集的较小但较新且具有分类的版本。这是一个英文数据集,包含从 r/explainlikeimfive subreddit(reddit论坛的一个子版块)收集到的问题和答案,用户在这个论坛上提出一些需要使用段落长度或更长的回答来回答的事实性问题。在2017年后,引入了一个标记系统,以便根据标签将问题分类到不同的主题中。由于训练和验证集是根据不同主题的问题构建的,因此预计该数据集能够减轻原始 ELI5 dataset 数据集中的训练/验证重叠问题。
数据集中的文本为英文,由 r/explainlikeimfive subreddit上的Reddit用户使用。相关的BCP-47代码为en。
该数据集的结构与原始 ELI5 dataset 非常相似。一个典型的数据点包括一个问题,其中包含主要问题的标题和有时对其进行补充的selftext,以及来自论坛的回答列表,按照它们获得的得分进行排序。此外,每个文本字段中的URL已被提取到相应的列表中,并在文本中替换为通用标记。除了原始ELI5数据集之外,数据点还有一个category字段。该数据集中的category有11个常见值:Biology(生物学)、Chemistry(化学)、Culture(文化)、Earth Science(地球科学)、Economics(经济学)、Engineering(工程学)、Mathematics(数学)、Other(其他)、Physics(物理学)、Psychology(心理学)、Technology(技术),还有一个特殊的category:Repost(重发),表示此问题之前已经被提问过。
ELI5-Category数据集的一个示例如下:
{'q_id': '5lcm18', 'title': 'Why do old games running on new hardware still have technical issues ?', 'selftext': 'I am playing some mega man games on my Xbox One and experience slowdown when there are a lot of enemies on screen . but the Xbox One is significantly more powerful than the NES , so why is there still slowdown on this hardware ?', 'category': 'Engineering', 'subreddit': 'explainlikeimfive', 'answers': {'a_id': ['dbuo48e', 'dbusfve'], 'text': ["The XBox is emulating NES hardware and running the emulation at a set speed . If it ran it at as fast as possible , then it would be several times faster than the original NES game and would be unplayable . I ca n't speak for Mega Man exactly , but older games tended to run on a cycle locked to the screen refresh which was a fixed 60Hz or 50Hz . There was only one piece of hardware they ran on , so there was no need to adjust for different hardware speeds .", "In that case , it 's probably on purpose - they want to emulate the experience as closely as possible , even including the slowdown and sprite flickering . Some emulators let you turn it off , but it 's usually turned on by default . In other cases , like if you 're trying to emulate PS2 games on your PC , the game might just run really slow in general . Even though your PC is way more powerful than a PS2 , it has to \" translate \" from PS2 language to PC language in realtime , which is much more difficult than running PS2 code on the PS2 itself ."], 'score': [13, 3], 'text_urls': [[],[]]}, 'title_urls': {'url': []}, 'selftext_urls': {'url': []}}
为了避免在不同集合中使用重复的问题,训练、验证和测试集使用了category的三个不重叠的子集。另外,一个特殊的验证集包含Repost类别中的所有问题。一个有效的检索生成模型应该在两个验证集上具有一致的性能。最终的划分大小如下:
Train | Valid | Valid2 | Test | |
---|---|---|---|---|
Biology | 32769 | |||
Chemistry | 6633 | |||
Culture | 5446 | |||
Earth Science | 677 | |||
Economics | 5901 | |||
Engineering | 5411 | |||
Mathematics | 1912 | |||
Other | 19312 | |||
Physics | 10196 | |||
Psychology | 338 | |||
Technology | 14034 | |||
Repost | 2375 | |||
Total | 91772 | 5446 | 2375 | 5411 |
ELI5-Category的创建旨在为机器提供一个学习如何回答更复杂问题的测试平台,这要求他们以连贯的方式找到并结合信息。该数据集通过收集社区成员在包括 r/explainlikeimfive 在内的三个subreddit上提出的问题以及其他用户提供的答案来构建。该数据对于训练用于抽象问答的模型特别适合:问题需要寻求关于已建立事实的客观解释,并且所提供的答案需要能够让普通人理解,而不需要具有特定的领域知识。
数据是通过从 Reddit forum 上托管的 Pushshift.io XML转储中过滤提交和评论获取的。
为了进一步提高所选样本的质量,只选择了评分至少为2且至少有一个答案评分至少为2的问题作为数据集。数据集的问题和答案涵盖了2017年1月至2021年6月的时间段。
谁是源语言出品者?源语言出品者是2017年至2021年间 r/explainlikeimfive subreddit的用户。没有从数据源获取到进一步的人口统计信息。
数据集包含问题主题的category作为附加注释。
注释过程数据集是通过 Reddit forum 的帖子标签进行自动注释的。
谁是注释者?注释者是2017年至2021年间 r/explainlikeimfive subreddit的用户/管理员。没有从数据源获取到进一步的人口统计信息。
作者从 Pushshift.io 转储中删除了讲话者的ID,但没有其他方式对数据进行匿名化。一些问题和答案涉及当代公众人物或出现在新闻中的个人。
该数据集的社会影响与原始的ELI5数据集相似。
该数据集与原始ELI5数据集具有类似的偏见考虑。
该数据集具有与原始ELI5数据集相似的限制。
该数据集最初由Jingsong Gao、Qinren Zhou和Rui Qiu在乔治城大学的ANLY 580:数据分析的NLP课程项目中创建。
数据集的许可状态取决于 Pushshift.io 数据的法律状态,这是不清楚的。
@inproceedings{eli5-category, author = {Jingsong Gao and Qingren Zhou and Rui Qiu}, title = {{ELI5-Category:} A categorized open-domain QA dataset}, year = {2021} }
感谢 @jingshenSN2 、 @QinrenZhou 和 @rexarski 添加了该数据集。