人工智能公司OpenAI近期宣布推出一套“安全导向推理监控器”,专门用于监督其最新的人工智能推理模型o3和o4-mini。这套系统旨在防止这些高性能模型提供可能引发生物和化学威胁的有害建议。根据OpenAI的安全报告,o3和o4-mini在能力上较以往版本有显著提升,但也伴随着新的风险。尤其是o3模型,在回答制造生物威胁相关问题时表现尤为突出。
为降低风险,OpenAI通过红队成员耗时约1000小时,标记了与生物风险相关的对话内容,并测试了监控器的“阻断逻辑”。结果显示,模型拒绝回应风险提示的比例高达98.7%。然而,OpenAI承认,当前测试尚未涵盖用户尝试新提示词的情况,因此仍需人工监控作为补充。
尽管如此,部分研究人员对OpenAI的安全措施提出质疑,认为其在某些方面的投入不足,例如未发布GPT-4.1模型的安全报告。即便如此,OpenAI正逐步强化自动化系统,以更好地控制模型带来的潜在威胁。