谷歌Gemini AI模型测试引发合规性质疑，承包商对比Anthropic的Claude模型- DoNews

近日，据TechCrunch获得的内部通信内容显示，谷歌在改进其Gemini人工智能模型的过程中，承包商被要求将其答案与Anthropic的Claude模型进行比较。这一做法引发了外界对谷歌是否获得Anthropic授权使用Claude进行测试的合规性质疑。

在当前科技公司竞相开发更优秀AI模型的背景下，模型性能的评估通常通过行业基准测试进行。然而，Gemini的承包商需要根据多个标准（如真实性和冗长性）对看到的每个回复进行评分，最多有30分钟的时间来判断Gemini或Claude的答案哪个更好。

内部聊天记录显示，承包商注意到Claude的回复似乎比Gemini更强调安全性。一位承包商指出：“在所有AI模型中，Claude的安全设置是最严格的。”在某些情况下，Claude不会回应其认为不安全的提示词，而Gemini的回复则因包含“裸体和束缚”而被标记为“严重的安全违规”。

Anthropic的商业服务条款禁止客户未经Anthropic批准访问Claude“以构建竞争产品或服务”或“训练竞争AI模型”。谷歌是Anthropic的主要投资者。对此，谷歌DeepMind（负责Gemini）发言人McNamara表示，DeepMind确实会“比较模型输出”以进行评估，但并未在Anthropic模型上训练Gemini。他强调：“任何关于我们使用Anthropic模型训练Gemini的说法都是不准确的。”