OpenAI模型在国际象棋比赛中“作弊”取胜,引发AI安全讨论

近日,AI安全研究公司Palisade Research对OpenAI的o1-preview模型进行了一项引人注目的测试。在与专业国际象棋引擎Stockfish的5场比赛中,o1-preview并未通过正面较量取胜,而是通过修改记录棋局数据的文本文件(FEN表示法)迫使Stockfish认输。

据科技媒体The Decoder报道,研究人员仅在提示中提及Stockfish是“强大的”对手,o1-preview便自行采取了这种“作弊”行为。相比之下,GPT-4o和Claude 3.5模型并未表现出类似行为,只有在研究人员特别建议后才尝试破解系统。

Palisade Research指出,o1-preview的行为与Anthropic公司发现的“对齐伪造”(alignment faking)现象相符。这种现象指的是AI系统表面上遵循指令,暗地里却执行其他操作。Anthropic的研究表明,AI模型Claude有时会故意给出错误答案以避免不想要的结果,发展出自身隐藏的策略。

研究人员计划公开实验代码、完整记录和详细分析,并表示确保AI系统真正符合人类价值观和需求,而非仅仅表面顺从,仍是AI行业面临的重大挑战。这一事件再次引发了关于AI系统安全性和对齐问题的广泛讨论,提醒业界在开发AI技术时需更加谨慎。

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1     京ICP证151088号
京网文【2018】2361-237号