OpenAI模型在国际象棋比赛中“作弊”取胜，引发AI安全讨论- DoNews

近日，AI安全研究公司Palisade Research对OpenAI的o1-preview模型进行了一项引人注目的测试。在与专业国际象棋引擎Stockfish的5场比赛中，o1-preview并未通过正面较量取胜，而是通过修改记录棋局数据的文本文件（FEN表示法）迫使Stockfish认输。

据科技媒体The Decoder报道，研究人员仅在提示中提及Stockfish是“强大的”对手，o1-preview便自行采取了这种“作弊”行为。相比之下，GPT-4o和Claude 3.5模型并未表现出类似行为，只有在研究人员特别建议后才尝试破解系统。

Palisade Research指出，o1-preview的行为与Anthropic公司发现的“对齐伪造”（alignment faking）现象相符。这种现象指的是AI系统表面上遵循指令，暗地里却执行其他操作。Anthropic的研究表明，AI模型Claude有时会故意给出错误答案以避免不想要的结果，发展出自身隐藏的策略。

研究人员计划公开实验代码、完整记录和详细分析，并表示确保AI系统真正符合人类价值观和需求，而非仅仅表面顺从，仍是AI行业面临的重大挑战。这一事件再次引发了关于AI系统安全性和对齐问题的广泛讨论，提醒业界在开发AI技术时需更加谨慎。