就在几个月前,很多人都无法想像基于人工智能的“语言模型”能够如此成功地模仿人类语言。ChatGPT所写的内容通常与人类生成的文本无法区分。
德国Mannheim的Leibniz德国语言研究所(IDS)的一个研究团队现在使用了1293种不同语言的文本材料,研究了不同电脑语言模型“编写”速度的快慢。令人惊讶的结果是:被大量人口使用的语言对算法来说往往比较难学习,而使用人数较少的语言则相对较易。这项研究已发表在《科学报告》杂志上。
语言模型是可以处理和生成人类语言的计算机算法。语言模型可以识别大量文本数据中的模式和规律,从而逐渐学习预测未来的文本。一种特定的语言模型是所谓的“Transformer”模型,著名的聊天机器人服务ChatGPT就是基于该模型构建的。
当算法分析句子“在黑暗的夜晚我听到了远处的……”时,它可以预测“狂吠”或“声音”等词语可以接在句子后面。这种预测基于对语言中语义关系和词语组合概率的某种“理解”。
在一项新研究中,IDS的语言学家团队调查了电脑语言模型通过使用1293种语言的文本材料进行训练学习的速度。该团队使用了旧的、较不复杂的语言模型以及上述提到的较新的Transformer模型的变体。他们研究了不同算法在不同语言中开发理解模式所需的时间。
研究发现,算法需要处理的文本数量,即学习一门语言以预测后续内容的能力,因语言而异。结果表明,与使用人数较少的语言相比,语言算法更难学习那些被大量人口使用的语言。
然而,问题并不像听上去那么简单。要验证学习难度与语言使用人数之间的关系,需要控制多个因素。
挑战在于,密切相关的语言(例如德语和瑞典语)比较相似,而远相关的语言(例如德语和泰语)相对较不相似。不仅需要控制语言之间的相关程度,还需要控制其他因素,例如两种语言之间的地理接近程度或用于训练的文本材料的质量。
“在我们的研究中,我们采用了应用统计学和机器学习的各种方法,以尽可能准确地控制可能的混淆因素。”该研究的作者之一Sascha Wolfer解释说。
然而,无论采用何种方法和输入文本类型,都发现了机器学习能力和说话人数量之间的稳定统计相关性。
“结果真的让我们大吃一惊;根据当前的研究状态,我们本来期望的是相反的结果:说某种语言人口较多的语言对机器来说更容易学习。”该研究的主要作者Alexander Koplenig说道。
目前,这种关系的原因仅存在一些推测。例如,同一研究团队领导的一项早期研究表明,较大的语言总体上更复杂。因此,可能增加的学习难度对于人类语言学习者是有意义的:因为一旦你学会了一门复杂的语言,你就有更多样的语言选择,可以用更简洁的形式表达相同的内容。
但还需要进一步研究来验证这些(或其他)解释。Koplenig指出:“我们还处在相对初级阶段,下一步是探索我们的机器学习结果是否能够转化为人类语言习得。”