OpenAI 承诺更频繁地发布 AI 安全测试结果

摘要:

OpenAI 正在更定期地发布其内部 AI 模型安全评估的结果,该公司表示此举是为了提高透明度。周三,OpenAI 推出了安全评估中心,这是一个网页,用于展示该公司模型在有害内容生成、越狱和幻觉等各种测试中的得分。OpenAI 表示,它将“持续”使用该中心共享指标,并计划在未来通过“重大模型更新”来更新该中心。

OpenAI 在一篇博客文章中写道:“随着人工智能评估科学的发展,我们的目标是分享我们在开发更具可扩展性的模型能力和安全性衡量方法方面的进展。通过在此分享我们的部分安全评估结果,我们希望这不仅能让人们更容易地了解 OpenAI 系统随时间推移的安全性能,还能支持社区为提高整个领域的透明度所做的努力。”

OpenAI 表示,随着时间的推移,它可能会向该中心添加额外的评估。

c7MR8C4i.jpg

近几个月来,OpenAI 引发了一些伦理学家的愤怒, 据报道,该公司 仓促完成了某些旗舰模型的安全测试,而 未能发布其他模型的技术报告。该公司首席执行官萨姆·奥特曼 (Sam Altman) 还被 指控在 2023 年 11 月短暂离职 之前,在模型安全评估方面误导了 OpenAI 高管  。

上个月底,OpenAI 被迫回滚了ChatGPT 默认模型 GPT-4o 的更新,因为用户开始反映该模型的响应方式过于确认和顺从。X 上充斥着 ChatGPT 的截图,这些截图赞扬了各种有问题、 危险的 决定 和想法。

OpenAI表示,它将实施多项修复和更改以防止将来发生此类事件,包括为某些模型引入可选的“alpha 阶段”,允许某些 ChatGPT 用户在发布之前测试模型并提供反馈。

我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道,更好阅读体验,更及时更新提醒,欢迎前来阅览和打赏。
查看评论
created by ceallan