模型:
facebook/nllb-200-3.3B
这是NLLB-200 3.3B变体的模型卡。
这是针对该特定检查点的 metrics 的信息。
• 模型性能指标:NLLB-200模型使用BLEU、spBLEU和chrF++指标进行评估,这些指标被机器翻译界广泛采用。此外,我们还使用XSTS协议进行人工评估,并测量生成的翻译的有害性。
• 我们使用了来自各种来源的平行多语言数据对模型进行训练。对于数据选择和构建过程的详细报告,请参见论文中的第5节。我们还使用了从Common Crawl构建的单语数据,详情请参见第5.2节。
• 在这项工作中,我们采用了一种反思性的技术发展方法,以确保我们优先考虑人类用户,并减少可能转移到他们身上的风险。虽然我们在全文中反思了我们的伦理考虑,但以下是一些额外的重点。首先,这项研究选择的许多语言都是低资源语言,重点放在非洲语言上。虽然高质量的翻译可以改善这些社区的教育和信息获取,但这种访问也可能使数字素养水平较低的群体更容易受到错误信息或网络诈骗的伤害。后一种情况可能发生在恶意操作者将我们的工作用于不良活动时,我们将其视为意外用途的例子。关于数据获取,用于模型开发的训练数据是从网络上的各种公开可用来源挖掘而来的。尽管我们在数据清理方面投入了大量精力,但个人身份信息可能无法完全消除。最后,尽管我们尽力优化翻译质量,但模型产生的错误翻译仍可能存在。虽然几率很低,但这可能对那些依赖这些翻译做出重要决策的人产生不利影响(特别是与健康和安全有关的决策)。
• 我们的模型在维基媒体领域进行了测试,对NLLB-MD中支持的其他领域进行了有限的调查。此外,支持的语言可能具有我们的模型未捕捉到的变化。用户应进行适当的评估。
• 二氧化碳(CO2e)估计见第8.8节。