研究表明,最好的AI模型也会产生大量虚构内容

2024年08月15日 由 daydream 发表 189 0

从谷歌的Gemini到Anthropic的Claude,再到OpenAI最新低调推出的GPT-4o,所有这些生成式人工智能(AI)模型在创作时都不可避免地掺杂了虚构内容。简而言之,它们作为信息提供者时并不可靠,这种不可靠性时而引发幽默,时而则可能带来困扰。


微信截图_20240815131723


然而,并非所有模型虚构内容的产出频率都一致。更重要的是,它们散布的虚假信息类型深受其接触的信息源影响。


康奈尔大学、华盛顿大学、滑铁卢大学以及非营利性研究机构AI2的科研团队近期联合开展了一项研究,通过对比包括GPT-4o在内的多个AI模型生成的内容与权威资料,以法律、健康、历史、地理等多个领域为基准,进行事实核查。研究结果显示,没有任何一个模型能在所有主题上均表现出色,而那些虚构内容较少的模型之所以如此,部分原因在于它们会选择性地避开那些自己可能答错的问题。


“我们研究的核心发现是,当前我们还无法完全信赖这些模型生成的内容,”康奈尔大学的博士生、该研究的共同作者Wenting Zhao在接受TechCrunch采访时表示,“即便是表现最优的模型,其输出的内容中,也只有大约35%是完全无虚构的。”


此前,已有其他学术尝试探索AI模型的“事实准确性”,包括AI2旗下另一团队的研究。但Zhao指出,这些早期测试提出的问题答案多易在维基百科上找到,而鉴于大多数模型均基于维基百科数据进行训练,因此这类测试的难度相对有限。


为了提升测试的挑战性,并更贴近人们实际向模型提问的场景,研究人员特意选取了网络上无维基百科条目参考的主题进行测试。在他们的测试集中,超过半数的问题无法通过直接查阅维基百科获得答案(同时他们也包含了一部分维基百科可解的问题作为对照),这些问题广泛覆盖文化、地理、天文学、流行文化、金融、医学、计算机科学及名人等多个领域。


此次研究评估了十多种流行的AI模型,其中不少是近一年内新发布的。除了GPT-4o外,还包括了Meta的Llama 3 70B、Mistral的Mixtral 8x22B、Cohere的Command R+等开放模型,以及Perplexity的Sonar Large(基于Llama)、谷歌的Gemini 1.5 Pro、Anthropic的Claude 3 Opus等通过API提供的受限模型。

文章来源:https://techcrunch.com/2024/08/14/study-suggests-that-even-the-best-ai-models-hallucinate-a-bunch/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消