使用人数较多的语言更难被机器学习

2023年11月08日由 samoyed 发表 371 0

就在几个月前，很多人都无法想像基于人工智能的“语言模型”能够如此成功地模仿人类语言。ChatGPT所写的内容通常与人类生成的文本无法区分。

德国Mannheim的Leibniz德国语言研究所（IDS）的一个研究团队现在使用了1293种不同语言的文本材料，研究了不同电脑语言模型“编写”速度的快慢。令人惊讶的结果是：被大量人口使用的语言对算法来说往往比较难学习，而使用人数较少的语言则相对较易。这项研究已发表在《科学报告》杂志上。

school-1661731_1280

语言模型是可以处理和生成人类语言的计算机算法。语言模型可以识别大量文本数据中的模式和规律，从而逐渐学习预测未来的文本。一种特定的语言模型是所谓的“Transformer”模型，著名的聊天机器人服务ChatGPT就是基于该模型构建的。

当算法分析句子“在黑暗的夜晚我听到了远处的……”时，它可以预测“狂吠”或“声音”等词语可以接在句子后面。这种预测基于对语言中语义关系和词语组合概率的某种“理解”。

在一项新研究中，IDS的语言学家团队调查了电脑语言模型通过使用1293种语言的文本材料进行训练学习的速度。该团队使用了旧的、较不复杂的语言模型以及上述提到的较新的Transformer模型的变体。他们研究了不同算法在不同语言中开发理解模式所需的时间。

研究发现，算法需要处理的文本数量，即学习一门语言以预测后续内容的能力，因语言而异。结果表明，与使用人数较少的语言相比，语言算法更难学习那些被大量人口使用的语言。

然而，问题并不像听上去那么简单。要验证学习难度与语言使用人数之间的关系，需要控制多个因素。

挑战在于，密切相关的语言（例如德语和瑞典语）比较相似，而远相关的语言（例如德语和泰语）相对较不相似。不仅需要控制语言之间的相关程度，还需要控制其他因素，例如两种语言之间的地理接近程度或用于训练的文本材料的质量。

“在我们的研究中，我们采用了应用统计学和机器学习的各种方法，以尽可能准确地控制可能的混淆因素。”该研究的作者之一Sascha Wolfer解释说。

然而，无论采用何种方法和输入文本类型，都发现了机器学习能力和说话人数量之间的稳定统计相关性。

“结果真的让我们大吃一惊；根据当前的研究状态，我们本来期望的是相反的结果：说某种语言人口较多的语言对机器来说更容易学习。”该研究的主要作者Alexander Koplenig说道。

目前，这种关系的原因仅存在一些推测。例如，同一研究团队领导的一项早期研究表明，较大的语言总体上更复杂。因此，可能增加的学习难度对于人类语言学习者是有意义的：因为一旦你学会了一门复杂的语言，你就有更多样的语言选择，可以用更简洁的形式表达相同的内容。

但还需要进一步研究来验证这些（或其他）解释。Koplenig指出：“我们还处在相对初级阶段，下一步是探索我们的机器学习结果是否能够转化为人类语言习得。”

文章来源：https://techxplore.com/news/2023-11-languages-speakers-tend-harder-machines.html

标签：

人工智能

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇思谋科技发布全球首个工业多模态大模型IndustryGPT，助力中国智能制造

下一篇 WasmGC将如何改变开发者体验

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来

每个人都应该知道的48个AI术语

openwebtext glue shunk031/JGLUE piqa wikitext sciq EleutherAI/lambada_openai facebook/flores

AI热点

行业学习机器学习人工智能公司板人工智能未来机器人视觉识别

AI工具

更多工具 »

火山写作

字节跳动旗下团队推出的免费AI英语写作助手

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub Copilot

GitHub AI编程工具

Adobe Firefly

Adobe最新推出的AI图片生成工具

文心一格

AI艺术和创意辅助平台

热门企业

更多企业 »

热门职位

更多职位 »

深度学习软件工程师

Maluuba

20000~40000/月

Unity技术经理

Cisco

25000~30000/月深圳市

高级数据分析工程师

PilotAILabs

30000~60000/年深圳市