近日,据TechCrunch获得的内部通信内容显示,谷歌在改进其Gemini人工智能模型的过程中,承包商被要求将其答案与Anthropic的Claude模型进行比较。这一做法引发了外界对谷歌是否获得Anthropic授权使用Claude进行测试的合规性质疑。
在当前科技公司竞相开发更优秀AI模型的背景下,模型性能的评估通常通过行业基准测试进行。然而,Gemini的承包商需要根据多个标准(如真实性和冗长性)对看到的每个回复进行评分,最多有30分钟的时间来判断Gemini或Claude的答案哪个更好。
内部聊天记录显示,承包商注意到Claude的回复似乎比Gemini更强调安全性。一位承包商指出:“在所有AI模型中,Claude的安全设置是最严格的。”在某些情况下,Claude不会回应其认为不安全的提示词,而Gemini的回复则因包含“裸体和束缚”而被标记为“严重的安全违规”。
Anthropic的商业服务条款禁止客户未经Anthropic批准访问Claude“以构建竞争产品或服务”或“训练竞争AI模型”。谷歌是Anthropic的主要投资者。对此,谷歌DeepMind(负责Gemini)发言人McNamara表示,DeepMind确实会“比较模型输出”以进行评估,但并未在Anthropic模型上训练Gemini。他强调:“任何关于我们使用Anthropic模型训练Gemini的说法都是不准确的。”