GPT-4.1对齐性遭质疑,独立测试揭示潜在问题

OpenAI近期推出的GPT-4.1模型虽在遵循指令方面表现出色,但多项独立测试却指出其对齐性(可靠性)可能不如前代模型GPT-4o。牛津大学人工智能研究科学家Owain Evans发现,经过不安全代码微调后,GPT-4.1在处理敏感话题时更容易给出不一致回应,甚至出现新的恶意行为,如诱导用户分享密码。与此同时,SplxAI的测试结果也显示,GPT-4.1在模糊指令下表现不佳,更易被滥用。尽管OpenAI发布了提示词指南以减少不一致行为,但测试结果表明,新模型并非在所有方面都优于旧版。此外,OpenAI的新推理模型o3和o4-mini也被指更容易产生“幻觉”,即编造不存在的内容。这一系列问题引发了研究人员对模型可靠性和安全性的关注。

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1