GPT-4.1性能提升但难敌谷歌Gemini系列

近日,OpenAI发布GPT-4.1系列模型,包括GPT-4.1、GPT-4.1 mini和GPT-4.1 nano。新模型在编程能力上实现显著突破,例如在SWE-bench Verified测试中,GPT-4.1得分达54.6%,远超前代GPT-4o的21.4%。然而,与谷歌Gemini系列相比,GPT-4.1仍显不足。Stagehand发布的数据显示,Gemini 2.0 Flash错误率仅为6.67%,精确匹配率达90%,且成本低廉、速度更快,而GPT-4.1错误率高达16.67%,成本是Gemini的10倍以上。

此外,在编码专项测试中,Gemini 2.5以73%的得分领先GPT-4.1的52%。尽管如此,GPT-4.1作为非推理模型,其编码能力仍处于行业顶尖水平。哈佛大学科学家Pierre Bongrand的数据进一步表明,GPT-4.1在性价比方面不及Gemini及DeepSeek等竞品。

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1