谷歌Gemini AI评估涉及竞争对手Claude模型对比

2024年12月25日 由 daydream 发表 35 0

据报道,参与改进谷歌Gemini人工智能系统的外部工作人员在评估过程中,将Gemini的回答与来自竞争对手Anthropic的Claude模型的输出进行对比。这种做法基于内部文件显示,但谷歌方面未对是否获得使用Claude测试Gemini的授权作出回应。


微信截图_20241225095042


通常情况下,科技公司在开发AI模型时会通过行业标准测试来衡量性能,而不是让员工直接评估对手AI的表现。然而,对于Gemini项目,合同工需要根据多个标准如准确性、信息量等,对每次回答进行评分,比较Gemini和Claude哪个更优。每项评价任务限时30分钟。


最近,负责Gemini评估的合同工注意到,在用于对比的内部平台上出现了明确标识为“我是由Anthropic创造的Claude”的回答。部分交流记录表明,Claude的回复往往比Gemini更注重安全性,例如拒绝响应可能涉及不安全内容的提示,而Gemini的某些回答则因包含不当内容而被标记为严重违反安全规定。


按照Anthropic的服务条款,客户不得未经允许使用Claude构建竞争产品或训练竞争性AI模型。值得注意的是,谷歌是Anthropic的重要投资者之一。


一位谷歌DeepMind的发言人表示,公司确实会在评估过程中对比不同模型的输出结果,但强调并未用Anthropic的模型来训练Gemini。发言人指出,按照行业惯例,有时会进行模型输出对比作为评估的一部分工作,否认了利用Anthropic模型训练Gemini的说法。


上周有报道指出,谷歌的AI产品合同工现在被要求对Gemini的回答进行评级,即使这些领域超出了个人的专业范围。内部通信中表达了对Gemini可能在医疗等敏感话题上生成不准确信息的担忧。

文章来源:https://techcrunch.com/2024/12/24/google-is-using-anthropics-claude-to-improve-its-gemini-ai/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消