OpenAI 表示,它部署了一个新系统来监控其最新的 AI 推理模型o3 和 o4-mini ,以检测与生物和化学威胁相关的提示。根据 OpenAI 的安全报告,该系统旨在防止这些模型提供可能指导某人实施潜在有害攻击的建议。
OpenAI 表示,O3 和 o4-mini 的性能较之前的模型有了显著提升,因此也给恶意攻击者带来了新的风险。根据 OpenAI 的内部基准测试,o3 在回答特定类型的生物威胁相关问题方面表现得更为熟练。出于这个原因,同时也为了降低其他风险,OpenAI 创建了新的监控系统,该公司将其描述为“以安全为中心的推理监控器”。
该监控器基于 o3 和 o4-mini 运行,经过定制训练,能够推理 OpenAI 的内容政策。它旨在识别与生物和化学风险相关的提示,并指示模型拒绝提供有关这些主题的建议。
为了建立基准,OpenAI 让红队成员花费大约 1000 小时标记 o3 和 o4-mini 中与生物风险相关的“不安全”对话。OpenAI 表示,在一项模拟其安全监视器“阻止逻辑”的测试中,这些模型 98.7% 的时间拒绝响应风险提示。
OpenAI 承认,其测试没有考虑到那些在被监视器阻止后可能会尝试新提示的人,这就是为什么该公司表示将继续部分依赖人工监控。
OpenAI 表示,O3 和 o4-mini 并未超出 OpenAI 设定的生物风险“高风险”门槛。然而,OpenAI 表示,与 o1 和 GPT-4 相比,o3 和 o4-mini 的早期版本在解答有关开发生物武器的问题方面更有帮助。
o3 和 o4-mini 系统卡的图表(截图:OpenAI)
根据 OpenAI 最近更新的防范框架,该公司正在积极追踪其模型如何使恶意用户更容易开发化学和生物威胁。
OpenAI 越来越依赖自动化系统来降低其模型的风险。例如,为了防止GPT-4o 的原生图像生成器创建儿童性虐待内容 (CSAM),OpenAI 表示它使用了与该公司为 o3 和 o4-mini 部署的类似的推理监视器。
然而,一些研究人员担心 OpenAI 并未将安全放在应有的位置。该公司的红队合作伙伴之一 Metr 表示,他们几乎没有时间在基准测试 o3 的欺骗行为上。与此同时,OpenAI 决定不发布其本周早些时候发布的GPT-4.1 模型的安全报告。