数据集:
argilla/databricks-dolly-15k-curated-multilingual
许可:
cc-by-sa-3.0大小:
10K<n<100KDatabricks Dolly指令数据集的一个经过策划和多语言处理的版本。它包括对原始英文数据集的程序化和手动修正版本。详见下文。
状态 :
目前,原始Dolly v2英文版本已经通过自动处理和协作人工策划使用Argilla进行了策划(约400条记录进行了手动编辑和修复)。下图展示了已编辑字段数量的摘要。
该数据集合集是Databricks公司于2023年创建的数据集"databricks-dolly-15k"的一个经过策划和机器翻译的版本,该数据集原始数据包括 dataset 条记录。
该数据集的目标是为从事开源指令跟踪模型训练的从业者提供一个起点,提供质量更高的英文数据和其他非英文语言的翻译数据。然而,由于翻译质量可能不完美,我们强烈建议投入时间进行策划和修复翻译问题。下面我们将解释如何将数据集加载到 Argilla for data curation and fixing 中。此外,我们将通过不同社区的帮助来改进此处提供的数据集。
目前,原始英文版本已经通过自动处理和协作人工策划使用Argilla进行了策划(约400条记录进行了手动编辑和修复)。下图显示了编辑字段数量的摘要。
主要问题(可能仍然存在许多问题)如下:
我们以程序化方式识别出具有这些潜在问题的记录,并进行了修复,结果修复了400多条记录。以下是统计数据:
由于进行了此策划过程,字段内容已经减少,以标记数量计算,特别是对于响应部分:
如果您想要使用Argilla浏览和策划您的数据集,您可以:
每种语言有一个拆分:
from datasets import load_dataset # loads all splits load_dataset("argilla/databricks-dolly-15k-curate-multilingual") # loads Spanish splits load_dataset("argilla/databricks-dolly-15k-curated-multilingual", split="es")
根据原始数据集的README所述,该数据集可用于以下任务:
目前支持的语言有:es,fr,de,en
如果您想帮助我们包含其他语言,请加入Argilla Slack community 。
[需要更多信息]
[需要更多信息]
每种语言有一个拆分:
from datasets import load_dataset # loads all splits load_dataset("argilla/databricks-dolly-15k-multilingual") # loads Spanish splits load_dataset("argilla/databricks-dolly-15k-multilingual", split="es")
这些数据集是使用DeepL API从原始英文数据集翻译而来的,翻译时间为4月13日至14日
有关更多信息,请参考 original dataset 。
源语言制片人是谁?[需要更多信息]
计划但尚未执行注释。
注释流程[需要更多信息]
注释人员是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
根据 Creative Commons Attribution-ShareAlike 3.0 Unported License 的条款,可以将此数据集用于任何目的,无论是学术用途还是商业用途。
原始数据集所有者:Databricks, Inc.
[需要更多信息]