据报道,参与改进谷歌Gemini人工智能系统的外部工作人员在评估过程中,将Gemini的回答与来自竞争对手Anthropic的Claude模型的输出进行对比。这种做法基于内部文件显示,但谷歌方面未对是否获得使用Claude测试Gemini的授权作出回应。
通常情况下,科技公司在开发AI模型时会通过行业标准测试来衡量性能,而不是让员工直接评估对手AI的表现。然而,对于Gemini项目,合同工需要根据多个标准如准确性、信息量等,对每次回答进行评分,比较Gemini和Claude哪个更优。每项评价任务限时30分钟。
最近,负责Gemini评估的合同工注意到,在用于对比的内部平台上出现了明确标识为“我是由Anthropic创造的Claude”的回答。部分交流记录表明,Claude的回复往往比Gemini更注重安全性,例如拒绝响应可能涉及不安全内容的提示,而Gemini的某些回答则因包含不当内容而被标记为严重违反安全规定。
按照Anthropic的服务条款,客户不得未经允许使用Claude构建竞争产品或训练竞争性AI模型。值得注意的是,谷歌是Anthropic的重要投资者之一。
一位谷歌DeepMind的发言人表示,公司确实会在评估过程中对比不同模型的输出结果,但强调并未用Anthropic的模型来训练Gemini。发言人指出,按照行业惯例,有时会进行模型输出对比作为评估的一部分工作,否认了利用Anthropic模型训练Gemini的说法。
上周有报道指出,谷歌的AI产品合同工现在被要求对Gemini的回答进行评级,即使这些领域超出了个人的专业范围。内部通信中表达了对Gemini可能在医疗等敏感话题上生成不准确信息的担忧。