英文

RAFT 数据集卡片

数据集摘要

RAFT(Real-world Annotated Few-shot Tasks)数据集是汇集了真实世界中的英语数据集。每个数据集都与一个二分类或多分类任务相关联,旨在提供关于语言模型在具有现实世界价值的任务上的表现的理解。每个数据集仅提供了50个标记样本。

支持的任务和排行榜

  • 文本分类:RAFT中的每个子任务都是一个文本分类任务,可以使用提供的训练集和测试集提交到 RAFT Leaderboard 为了防止过拟合和在一个保留的测试集上进行调优,排行榜每周只评估一次。每个任务都计算其宏F1得分,然后将这些得分平均以产生整体排行榜得分。

语言

RAFT完全使用美式英语(en-US)。

数据集结构

数据示例

Dataset First Example
Ade Corpus V2 1230321
Banking 77 1231321
NeurIPS Impact Statement Risks 1232321
One Stop English 1233321
Overruling 1234321
Semiconductor Org Types 1235321
Systematic Review Inclusion 1236321
TAI Safety Research 1237321
Terms Of Service 1238321
Tweet Eval Hate 1239321
Twitter Complaints 12310321

数据字段

ID字段用于索引数据点。它将用于将您的提交与真实的测试标签进行匹配,因此您必须在提交中包含它。所有其他列都包含文本数据。一些包含指向互联网上网站的链接和URL。

所有输出字段都使用“Label”列标题进行标识。此列中的0值表示该条目未标记,且仅应出现在未标记的测试集中。此列中的其他值是其他各种标签。要获取给定数据集的文本值:

# Load the dataset
dataset = datasets.load_dataset("ought/raft", "ade_corpus_v2")
# First, get the object that holds information about the "Label" feature in the dataset.
label_info = dataset.features["Label"]
# Use the int2str method to access the textual labels.
print([label_info.int2str(i) for i in (0, 1, 2)])
# ['Unlabeled', 'ADE-related', 'not ADE-related']

数据拆分

提供了两个拆分:训练数据和未标记的测试数据。

训练示例是随机选择的。在训练数据中,并没有采取措施确保类别平衡或成比例 - 事实上,如果使用了拥有77个不同类别的Banking 77任务,则无法将所有类别都适配到50个训练示例中。

Dataset Train Size Test Size
Ade Corpus V2 50 5000
Banking 77 50 5000
NeurIPS Impact Statement Risks 50 150
One Stop English 50 516
Overruling 50 2350
Semiconductor Org Types 50 449
Systematic Review Inclusion 50 2243
TAI Safety Research 50 1639
Terms Of Service 50 5000
Tweet Eval Hate 50 2966
Twitter Complaints 50 3399
Total 550 28712

数据集创建

策划理念

一般而言,RAFT的理念是创建一个用于评估自然语言处理模型的基准,该基准不包含人为或人工数据源,而任务并不是最初集成为测试自然语言处理模型的目的的。然而,RAFT中的每个单独的数据集都是独立收集的。对于大多数数据集,我们只是从现有的已策划来源处收集了它们。我们策划的数据集如下:

  • NeurIPS影响声明风险
  • 半导体组织类型
  • TAI安全研究

这三个数据集均来源于我们在Ought的现有合作伙伴。他们过去使用了我们的服务Elicit来分析他们的数据集,并我们联系他们,以将其数据集和相关的分类任务列入基准。有关所有数据集的更多信息,请参见我们的论文。对于我们未策划的数据集,我们提供了一个指向该数据集的链接。对于我们策划的数据集,我们提供了一份详细介绍此处更多内容的数据表。

对于我们介绍的数据集:

  • NeurIPS影响声明风险 - 创建该数据集的目的是评估作者在2020年NeurIPS论文中包含“影响声明”的新要求。它是否成功了?作者们最经常提到了什么样的事情?平均而言,影响声明有多长?等等。
  • 半导体组织类型 - 最初创建该数据集是为了更好地了解在过去25年中,哪些国家的机构对半导体研发做出了最大贡献,使用了三个主要会议。此外,为了估计学术界和私营部门的贡献份额,将这些组织归类为“大学”、“研究机构”或“公司”。
  • TAI安全研究 - 汇编此数据库的主要动机是:(1)帮助潜在捐赠者评估专注于TAI安全的组织,通过收集和分析它们的研究成果。(2)汇编一个全面的文献数据库,可用作未来项目的基础,例如领域的现状综述。

对于以下内容,我们将仅描述我们介绍的数据集。有关所有其他数据集的详细信息以及关于这些描述的更多细节,请参见我们的论文。

源数据

初始数据收集和归一化
  • NeurIPS影响声明风险 - 数据大部分直接可观察到(采集的原始文本),尽管其中一些数据来自以前的数据集(这些数据集本身已从原始文本中提取出来)。数据经过人工审核验证,但仅在部分情况下。有关完整细节,请参见此链接:
  • 半导体组织类型 - 我们使用IEEE API获取了在过去25年中向半导体会议上贡献论文的机构。这是其中的500个的随机样本,附带有相应的会议论文标题。
  • TAI安全研究 - 我们询问了TAI安全组织的员工关于他们写过的东西,给一些个别作者发送了电子邮件,并在Google学术中进行了搜索。有关更多详细信息,请参阅LessWrong帖子: https://www.lesswrong.com/posts/4DegbDJJiMX2b3EKm/tai-safety-bibliographic-database
谁是源语言生产者?
  • NeurIPS影响声明风险 - 涉及到NeurIPS 2020影响声明作者生成的语言,一般是提交论文的作者。
  • 半导体组织类型 - 涉及到通过IEEE API生成的语言。一般是机器格式化的名称和学术论文标题。
  • TAI安全研究 - 涉及到TAI安全研究出版物的作者生成的语言。

注释

注释过程
  • NeurIPS影响声明风险 - 注释是直接输入到Google电子表格中的,其中包含了指示、标记的训练示例和未标记的测试示例。
  • 半导体组织类型 - 注释是直接输入到Google电子表格中的,其中包含了指示、标记的训练示例和未标记的测试示例。
  • TAI安全研究 - N/A
谁是标注者?
  • NeurIPS影响声明风险 - 由Ought支付的承包商进行对是否在影响声明中提到有害应用程序的标注。以3名标注者的多数票为准。
  • 半导体组织类型 - 由Ought支付的承包商对组织类型进行标注。以3名标注者的多数票为准。
  • TAI安全研究 - 数据集的策划者进行手工注释。

个人和敏感信息

值得一提的是,由于需要,Tweet Eval Hate包含高度冒犯性的内容。

  • NeurIPS影响声明风险 - 数据集包含作者的姓名。这些姓名是从公开可用的提交给NeurIPS 2020的科学论文中采集的。
  • 半导体组织类型 - N/A
  • TAI安全研究 - N/A

数据使用注意事项

数据集的社会影响

  • NeurIPS影响声明风险 - N/A
  • 半导体组织类型 - N/A
  • TAI安全研究 - N/A

偏见讨论

  • NeurIPS影响声明风险 - N/A
  • 半导体组织类型 - N/A
  • TAI安全研究 - N/A

其他已知限制

  • NeurIPS影响声明风险 - 在使用此数据集时,需考虑到该数据集的一些限制。特别是,用于收集更广泛影响声明的方法包括自动下载、转换和爬取,并不是完全可靠的。尽管我们已经尽力识别和纠正尽可能多的错误,但并没有对所有文本进行人工审查。这意味着可能某些包含在数据集中的更广泛影响声明被截断或以其他方式不正确地从其原始文章中提取出来。
  • 半导体组织类型 - N/A
  • TAI安全研究 - 不要使用它来创建可能导致世界末日的危险AI。

其他信息

数据集策划者

整体的RAFT策划者是Neel Alex、Eli Lifland和Andreas Stuhlmüller。

  • NeurIPS影响声明风险 - 牛津大学未来人类研究所的研究人员(Carolyn Ashurst,现在在The Alan Turing Institute)与志愿者一起创建了影响声明数据集。
  • 半导体组织类型 - Stiftung Neue Verantwortung(柏林)的数据科学部门。
  • TAI安全研究 - Angelica Deibel和Jess Riedel。我们不是代表任何实体进行的。

许可信息

RAFT汇集了许多其他数据集,每个数据集都使用其自己的许可证提供。通常,这些许可证允许进行研究和商业使用。

Dataset License
Ade Corpus V2 Unlicensed
Banking 77 CC BY 4.0
NeurIPS Impact Statement Risks MIT License/CC BY 4.0
One Stop English CC BY-SA 4.0
Overruling Unlicensed
Semiconductor Org Types CC BY-NC 4.0
Systematic Review Inclusion CC BY 4.0
TAI Safety Research CC BY-SA 4.0
Terms Of Service Unlicensed
Tweet Eval Hate Unlicensed
Twitter Complaints Unlicensed

引用信息

[需要更多信息]

贡献

感谢 @neel-alex @uvafan @lewtun 添加了此数据集。