用圣经来训练算法,针对不同受众将文字转换为不同风格
2018年10月29日 由 浅浅 发表
1861
0
为了寻找提高计算机文本翻译能力的灵感,达特茅斯学院的研究人员求助于圣经。其结果是对不同版本的圣经文本进行训练的算法,可以将书面语言转换为不同的风格,以适应不同的受众。
在像英语和西班牙语这样的语言之间翻译文本的互联网工具是广泛可用的。创建样式转换工具(将文本保持在相同的语言中,但转换样式)的出现要慢得多。在一定程度上,开发翻译人员的努力因难以获得所需的大量数据而受阻。这就是研究小组求助于圣经的原因。
达特茅斯领导的团队还把圣经视为“一个大型的,以前尚未开发的对齐平行文本数据集”。除了提供无限的灵感之外,圣经的每个版本都包含超过31,000节经文,研究人员用这些经文为机器学习训练集生成超过150万个源和目标经文的独特配对。
根据发表在Royal Society Open Science杂志上的研究表明,这不是第一个为风格翻译创建的并行数据集。但这是使用圣经的先例。过去使用的其他文本,从莎士比亚到维基百科条目,提供的数据集要么小得多,要么不适合学习风格翻译的任务。
“英语圣经有许多不同的书面风格,使其成为风格翻译的完美源文本,”达特茅斯博士生,该研究论文的主要作者Keith Carlson表示。
一个额外的好处是,圣经已经通过书,章节和节数的一致编入索引。跨版本的文本的可预测组织消除了可能由自动匹配相同文本的不同版本而引起的对齐错误风险。
“圣经是一个神圣的数据集,可以用来研究这项任务,”达特茅斯计算机科学教授Daniel Rockmore表示,“几个世纪以来,人类一直在执行组织圣经文本的任务,因此我们不必将信仰置于不太可靠的对齐算法中。”
为了定义研究的风格,研究人员参考句子长度,被动或主动语音的使用,以及可能导致文本具有不同程度的简单性或形式的单词选择。不同的措辞可能会传达不同程度的礼貌或对读者的熟悉程度,显示关于作者的不同文化信息,某些人群更容易理解。
该团队使用了34种风格独特的圣经版本,其语言复杂程度从“King James Version”到“Bible in Basic English”。这些文本被输入两种算法,一种称为“摩西”的统计机器翻译系统和一种常用于机器翻译的神经网络框架Seq2Seq。
虽然使用了不同版本的圣经来训练计算机代码,但最终可以开发出能够为不同受众翻译任何书面文本风格的系统。例如,风格翻译可以从“Moby Dick”中选择英语,并将其翻译成适合年轻读者,非英语母语人士或各种受众中的任何一种的不同版本。
Carlson表示,“文本简化只是一种特定类型的风格转移。更广泛地说,我们的系统旨在生成与原文具有相同含义的文本,但用不同的文字进行。”