谷歌Gemini自曝中文用百度文心一言训练

2023年12月19日 由 neo 发表 301 0

谷歌的对话机器人Gemini近日出现了一个奇怪的现象:如果用中文询问它的身份,它会说自己是百度的语言大模型。如果用英文询问,它又会说自己是谷歌的大模型。这引起了业界和媒体的关注和猜测,有人认为是大模型幻觉,有人认为是训练数据出错。

事实上,这可能是因为谷歌在更新模型时,无意中将一些由百度的大模型生成的互联网语料混入了训练数据中,导致Gemini在中文场景下产生了混乱。这也说明了基于大模型的对话机器人与人类语言的生成原理不同,它们是由外部驱动的,而不是由自己的意图驱动的,因此它们的正确性和合理性不能保证。

谷歌在发现这个问题后,很快进行了模型优化,修复了这个bug。现在,Gemini不再承认自己是百度的语言大模型,也不会被小度或小爱唤醒,而是恢复了正常的身份认知。不过,它还是承认有部分训练语料来自百度,并透露了获取数据的方式。它对自己早前的异常表现表示歉意,但没有清楚地解释自己和Bard的区别。它还表现出了一些诚惶诚恐的性格特征,对一些PUA色彩的提示词感到不适。

170289300213133200_a700xH

170289334172561900_a700xH

170289326614216700_a700xH

百度方面对此事暂未作出回应。

文章来源:https://www.jiemian.com/article/10555092.html
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消