数据集:
ought/raft
RAFT(Real-world Annotated Few-shot Tasks)数据集是汇集了真实世界中的英语数据集。每个数据集都与一个二分类或多分类任务相关联,旨在提供关于语言模型在具有现实世界价值的任务上的表现的理解。每个数据集仅提供了50个标记样本。
RAFT完全使用美式英语(en-US)。
Dataset | First Example |
---|---|
Ade Corpus V2 | 1230321 |
Banking 77 | 1231321 |
NeurIPS Impact Statement Risks | 1232321 |
One Stop English | 1233321 |
Overruling | 1234321 |
Semiconductor Org Types | 1235321 |
Systematic Review Inclusion | 1236321 |
TAI Safety Research | 1237321 |
Terms Of Service | 1238321 |
Tweet Eval Hate | 1239321 |
Twitter Complaints | 12310321 |
ID字段用于索引数据点。它将用于将您的提交与真实的测试标签进行匹配,因此您必须在提交中包含它。所有其他列都包含文本数据。一些包含指向互联网上网站的链接和URL。
所有输出字段都使用“Label”列标题进行标识。此列中的0值表示该条目未标记,且仅应出现在未标记的测试集中。此列中的其他值是其他各种标签。要获取给定数据集的文本值:
# Load the dataset dataset = datasets.load_dataset("ought/raft", "ade_corpus_v2") # First, get the object that holds information about the "Label" feature in the dataset. label_info = dataset.features["Label"] # Use the int2str method to access the textual labels. print([label_info.int2str(i) for i in (0, 1, 2)]) # ['Unlabeled', 'ADE-related', 'not ADE-related']
提供了两个拆分:训练数据和未标记的测试数据。
训练示例是随机选择的。在训练数据中,并没有采取措施确保类别平衡或成比例 - 事实上,如果使用了拥有77个不同类别的Banking 77任务,则无法将所有类别都适配到50个训练示例中。
Dataset | Train Size | Test Size |
---|---|---|
Ade Corpus V2 | 50 | 5000 |
Banking 77 | 50 | 5000 |
NeurIPS Impact Statement Risks | 50 | 150 |
One Stop English | 50 | 516 |
Overruling | 50 | 2350 |
Semiconductor Org Types | 50 | 449 |
Systematic Review Inclusion | 50 | 2243 |
TAI Safety Research | 50 | 1639 |
Terms Of Service | 50 | 5000 |
Tweet Eval Hate | 50 | 2966 |
Twitter Complaints | 50 | 3399 |
Total | 550 | 28712 |
一般而言,RAFT的理念是创建一个用于评估自然语言处理模型的基准,该基准不包含人为或人工数据源,而任务并不是最初集成为测试自然语言处理模型的目的的。然而,RAFT中的每个单独的数据集都是独立收集的。对于大多数数据集,我们只是从现有的已策划来源处收集了它们。我们策划的数据集如下:
这三个数据集均来源于我们在Ought的现有合作伙伴。他们过去使用了我们的服务Elicit来分析他们的数据集,并我们联系他们,以将其数据集和相关的分类任务列入基准。有关所有数据集的更多信息,请参见我们的论文。对于我们未策划的数据集,我们提供了一个指向该数据集的链接。对于我们策划的数据集,我们提供了一份详细介绍此处更多内容的数据表。
对于我们介绍的数据集:
对于以下内容,我们将仅描述我们介绍的数据集。有关所有其他数据集的详细信息以及关于这些描述的更多细节,请参见我们的论文。
值得一提的是,由于需要,Tweet Eval Hate包含高度冒犯性的内容。
整体的RAFT策划者是Neel Alex、Eli Lifland和Andreas Stuhlmüller。
RAFT汇集了许多其他数据集,每个数据集都使用其自己的许可证提供。通常,这些许可证允许进行研究和商业使用。
Dataset | License |
---|---|
Ade Corpus V2 | Unlicensed |
Banking 77 | CC BY 4.0 |
NeurIPS Impact Statement Risks | MIT License/CC BY 4.0 |
One Stop English | CC BY-SA 4.0 |
Overruling | Unlicensed |
Semiconductor Org Types | CC BY-NC 4.0 |
Systematic Review Inclusion | CC BY 4.0 |
TAI Safety Research | CC BY-SA 4.0 |
Terms Of Service | Unlicensed |
Tweet Eval Hate | Unlicensed |
Twitter Complaints | Unlicensed |
[需要更多信息]
感谢 @neel-alex 、 @uvafan 和 @lewtun 添加了此数据集。