数据集:
sakusakumura/databricks-dolly-15k-ja-scored
For the English version, please click here .
databricks-dolly-15k-ja-scored 是 kunishou/databricks-dolly-15k-ja 的派生,加入了由BERTScore提供的翻译质量评分。
这个数据集可以在学术和商业领域下符合条件 クリエイティブ・コモンズ 表示 - 継承 3.0 非移植ライセンス 使用。
databricks-dolly-15k-ja 是对 databricks-dolly-15k 的机器翻译。调查了包含在databricks-dolly-15k-ja中的数据,发现存在以下质量较差的数据。
另外,在databricks-dolly-15k中,
因此,将这些数据从日语逆向翻译成英语,并通过 BertScore 检查其与原文的相似度。以下是精确度和召回率的调和平均值,也就是f1 score的直方图。
通过使用这些分数来进行过滤,可以排除低质量的数据。这里有一些例子。
`output`被复制到`instruction`中的数据index | f1 score |
---|---|
1151 | 0.599859416 |
instruction | input | output |
---|---|---|
Linda Hargreaves is a British actress who has appeared on both stage and screen, making her television debut on the BBC soap opera "Doctors," and has since returned to the soap in three different roles, most recently as a regular on Constance Buchanan. She has also appeared in various television series, including "Containment" and "Call the Midwife." | About Linda Hargreaves | Linda Hargreaves is a British actress who has appeared on both stage and screen, making her television debut on the BBC soap opera "Doctors," and has since returned to the soap in three different roles, most recently as a regular on Constance Buchanan. She has also appeared in various television series, including "Containment" and "Call the Midwife." |
instruction | input | output |
---|---|---|
(empty) | Who is Linda Hargreaves | Linda Hargreaves is a British actress who has appeared on both stage and screen. She made her television debut in the BBC soap opera Doctors and has since returned to the soap on three separate occasions in different roles, most recently in the recurring role of Constance Buchanan. She has also appeared in various television series including Containment and Call the Midwife. |
json
{ "index": "1151", "instruction": "リンダ・ハーグリーヴスとは", "input": "リンダ・ハーグリーヴスはイギリスの女優で、舞台とスクリーンの両方に出演している。BBCのソープオペラ「ドクターズ」でテレビデビューし、その後、3度にわたって異なる役柄でソープに復帰し、最近ではコンスタンス・ブキャナンのレギュラー役を演じている。また、「Containment」や「Call the Midwife」など、さまざまなテレビシリーズにも出演している。", "output": "リンダ・ハーグリーヴスはイギリスの女優で、舞台とスクリーンの両方に出演している。BBCのソープオペラ「ドクターズ」でテレビデビューし、その後、3度にわたって異なる役柄でソープに復帰し、最近ではコンスタンス・ブキャナンのレギュラー役を演じている。また、「Containment」や「Call the Midwife」など、さまざまなテレビシリーズにも出演している。", "category": "summarization" }无法正确翻译专有名词等的数据
index | f1 score |
---|---|
1157 | 0.580275774 |
instruction | input | output |
---|---|---|
(empty) | Which type of fish? Mutsugoro and Afro | mullet (hairstyle) |
instruction | input | output |
---|---|---|
(empty) | Which is a species of fish? Mullet or Afro | Mullet |
源:
{ "index": "1157", "instruction": "魚の種類はどれ?ムツゴロウとアフロ", "input": "", "output": "マレット", "category": "classification" }
推导出的分数会因用于英译日的服务和BertScore使用的模型而有所变化。即使是可用于训练的数据,由于英译日的准确性不同,分数也可能降低。
例index | f1 score |
---|---|
565 | 0.799999774 |
instruction | input | output |
---|---|---|
(empty) | At the 64th Grammy Awards, the winner of the Best Album of the Year award was | John Baptiste Wins Best Album of the Year at the 64th Annual Grammy Awards |
instruction | input | output |
---|---|---|
(empty) | In 64th Annual Grammy Awards, best album of the year award was given to | Jon Batiste was awarded the best album of the year in 64th Annual Grammy Awards" |
源:
{ "index": "1157", "instruction": "魚の種類はどれ?ムツゴロウとアフロ", "input": "", "output": "マレット", "category": "classification" }
源:
{ "index": "565", "instruction": "第64回グラミー賞で、年間最優秀アルバム賞を受賞したのは", "input": "", "output": "ジョン・バティスト、第64回グラミー賞で年間最優秀アルバム賞を受賞", "category": "open_qa" }
仅说明添加的部分和需要注意的项目。
数据的唯一标识符。原本用于指示翻译了databricks-dolly-15k的哪一行,但由于未反映databricks-dolly-15k中已删除的元素,因此实际行数与之不同。
フィールド名 | 説明 |
---|---|
index | データの一意の識別子 |
BERT模型评分。包括召回率、准确率和f1-score三个指标。
フィールド名 | 説明 |
---|---|
recall | 再現率(正解テキストに含まれる情報が、生成されたテキストにどれだけ反映されているかを示す指標) |
precision | 適合率(生成されたテキストの各部分が、正解テキストとどれだけ一致しているかを示す指標) |
f1 | F1スコア(精度と再現率の調和平均。) |
使用的翻译服务信息。包括英语到日语(en_ja)和日语到英语(ja_en)两个字段,分别表示用于英译日和日译英的服务。
フィールド名 | 説明 |
---|---|
en_ja | 英語から日本語への翻訳に使用されたサービス |
ja_en | 日本語から英語への翻訳に使用されたサービス |
此数据集 databricks-dolly-15k-ja-scored 基于kun1em0n创建的databricks-dolly-15k-ja数据集。我非常感谢kun1em0n的宝贵工作和对社区的贡献。
databricks-dolly-15k-ja-scored 版权所有 (2023) Sakusakumura. 此数据集使用CC BY-SA 3.0许可。
databricks-dolly-15k-ja 由kun1em0n开发。可在 https://github.com/kunishou/databricks-dolly-15k-ja 找到。此数据集使用CC BY-SA 3.0许可。
databricks-dolly-15k 由Databricks, Inc.开发。可在 https://huggingface.co/datasets/databricks/databricks-dolly-15k 找到。此数据集使用CC BY-SA 3.0许可。