OpenAI近期发布的o3和o4-mini模型在编程与数学等领域表现突出,但其“幻觉”问题却显著恶化。据外媒TechCrunch报道,这两款推理模型的幻觉频率不仅超过前代o1、o1-mini和o3-mini,甚至高于传统非推理模型。内部测试显示,o3在PersonQA基准测试中的幻觉率高达33%,而o4-mini更达48%。相比之下,前代模型o1和o3-mini的幻觉率分别为16%和14.8%。
这一反常现象表明,随着模型规模扩大,幻觉问题反而更加严重。Transluce实验室的测试发现,o3曾虚构出在MacBook Pro上运行代码的操作,尽管其并无此能力。OpenAI发言人Niko Felix承认,解决幻觉问题是当前研究的重点,公司正努力提升模型的准确性和可靠性。然而,这一挑战仍需进一步探索与突破。