阿里通义千问团队于12月25日宣布推出开源视觉推理模型QVQ-72B-Preview,该模型基于Qwen2-VL-72B构建,旨在增强视觉推理能力。QVQ-72B-Preview在多个数据集上进行了评估,包括MMMU、MathVista、MathVision和OlympiadBench。
在MMMU基准测试中,QVQ-72B-Preview取得了70.3的分数,显著超越了Qwen2-VL-72B-Instruct。此外,在MathVista、MathVision和OlympiadBench等专注于数学和科学问题的基准测试中,该模型也表现出色,有效缩小了与领先的最先进的o1模型之间的差距。
尽管QVQ-72B-Preview在视觉推理方面表现优异,但团队也指出了该模型的一些限制,包括语言混合与切换、递归推理、安全和伦理考虑以及性能和基准限制。用户在部署时应保持谨慎,并注意这些潜在问题。
阿里通义千问团队表示,QVQ-72B-Preview是一个实验性研究模型,专注于增强视觉推理能力,未来将继续优化和改进该模型,以提升其在复杂问题上的表现。