数据集:

argilla/databricks-dolly-15k-curated-multilingual

许可:

cc-by-sa-3.0

其他:

instruction-following machine-translated

大小:

10K<n<100K

语言:

任务:

文生文

文本生成

数据集介绍文件清单

英文

"databricks-dolly-15k-curated-multilingual" 的数据集卡片

Databricks Dolly指令数据集的一个经过策划和多语言处理的版本。它包括对原始英文数据集的程序化和手动修正版本。详见下文。

状态 :

目前，原始Dolly v2英文版本已经通过自动处理和协作人工策划使用Argilla进行了策划（约400条记录进行了手动编辑和修复）。下图展示了已编辑字段数量的摘要。

数据集摘要

该数据集合集是Databricks公司于2023年创建的数据集"databricks-dolly-15k"的一个经过策划和机器翻译的版本，该数据集原始数据包括 dataset 条记录。

该数据集的目标是为从事开源指令跟踪模型训练的从业者提供一个起点，提供质量更高的英文数据和其他非英文语言的翻译数据。然而，由于翻译质量可能不完美，我们强烈建议投入时间进行策划和修复翻译问题。下面我们将解释如何将数据集加载到 Argilla for data curation and fixing 中。此外，我们将通过不同社区的帮助来改进此处提供的数据集。

目前，原始英文版本已经通过自动处理和协作人工策划使用Argilla进行了策划（约400条记录进行了手动编辑和修复）。下图显示了编辑字段数量的摘要。

主要问题（可能仍然存在许多问题）如下：

一些标记者误解了"context"字段的使用方式。此"context"字段用于指导指令的文本，而在其他工作中，它被称为"input"（例如，Alpaca）。可能，"context"的名称导致一些标记者将其用于提供他们提取响应的完整上下文。对于某些类型的任务（总结、封闭型问答或信息提取），这对于某些类型的任务（总结、封闭型问答或信息提取）来说是有问题的，因为有时上下文比总结要短或无关，或者无法从上下文中提取信息（封闭型问答，信息提取）。

一些标记者误解了总结或封闭型问答的提供方式，例如，他们会提问：托马斯·杰斐逊是谁？然后提供一个非常长的上下文和同样长的响应。

我们以程序化方式识别出具有这些潜在问题的记录，并进行了修复，结果修复了400多条记录。以下是统计数据：

由于进行了此策划过程，字段内容已经减少，以标记数量计算，特别是对于响应部分：

如果您想要使用Argilla浏览和策划您的数据集，您可以：

Duplicate this Space 。重要提示：工作区的可见性需要为公开，但是您可以设置自己的密码和API密钥。 following this guide

设置两个秘密：HF_TOKEN和LANG，以指示语言拆分

使用admin / 12345678登录并开始浏览和标注。

开始标注。每5分钟，验证结果将存储在您个人的HF空间的Hub数据集中。

请联系我们，以贡献源数据集的修复和改进。

每种语言有一个拆分：

from datasets import load_dataset

# loads all splits
load_dataset("argilla/databricks-dolly-15k-curate-multilingual")

# loads Spanish splits
load_dataset("argilla/databricks-dolly-15k-curated-multilingual", split="es")

支持的任务和排行榜

根据原始数据集的README所述，该数据集可用于以下任务：

训练语言模型
合成数据生成
数据增强

语言

目前支持的语言有：es，fr，de，en

如果您想帮助我们包含其他语言，请加入Argilla Slack community 。

数据集结构

数据实例

[需要更多信息]

数据字段

[需要更多信息]

数据拆分

每种语言有一个拆分：

from datasets import load_dataset

# loads all splits
load_dataset("argilla/databricks-dolly-15k-multilingual")

# loads Spanish splits
load_dataset("argilla/databricks-dolly-15k-multilingual", split="es")

数据集创建

这些数据集是使用DeepL API从原始英文数据集翻译而来的，翻译时间为4月13日至14日

策划日志

28/04/23：移除了8113行中的维基百科复制粘贴的引用。应用于context和response字段的正则表达式如下：r'\[[\w]+\]'

源数据

初始数据收集和规范化

有关更多信息，请参考 original dataset 。

源语言制片人是谁？

[需要更多信息]

注释

计划但尚未执行注释。

注释流程

[需要更多信息]

注释人员是谁？

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

根据 Creative Commons Attribution-ShareAlike 3.0 Unported License 的条款，可以将此数据集用于任何目的，无论是学术用途还是商业用途。

原始数据集所有者：Databricks, Inc.

引用信息

[需要更多信息]

作者:

argilla

数据集大小:

62.87 MB