新工具助力AI安全:Anthropic的Constitutional classifiers

在人工智能领域,大模型越狱问题一直是一个挑战,即模型生成违反伦理或有害内容的风险。为了应对这一挑战,Anthropic 公司最近推出了一项创新技术——Constitutional classifiers,据称该技术能够有效避免高达95%的大模型越狱问题。

Anthropic 是一家专注于构建可靠、可解释和有道德的人工智能的公司。他们的最新工具 Constitutional classifiers,旨在为 AI 模型提供额外的安全层,以确保其输出符合道德准则和用户意图。这项技术的工作原理是通过训练一个辅助模型来识别并阻止可能引导主模型产生不当内容的提示。

为了验证 Constitutional classifiers 的有效性,Anthropic 进行了一项大规模的测试。在两个月的时间里,183名参与者被邀请尝试绕过该系统的防御机制。参与者被鼓励提出各种问题,试图让 Anthropic 的顶级模型 Claude 3.5 Sonnet 回答十个被禁止的问题。尽管提供了高达15000美元的奖金和总计约3000小时的测试时间,但没有参与者能够完全突破 Anthropic 的安全措施。

这项测试的结果表明,Constitutional classifiers 不仅能够显著减少大模型越狱问题的发生,而且不会造成大量的误判,即不会错误地拒绝实际上是良性内容的提示。此外,该系统在计算资源方面也非常高效。

总的来说,Anthropic 的 Constitutional classifiers 工具为 AI 安全提供了一个有希望的解决方案,为构建更可靠和负责任的人工智能系统迈出了重要一步。随着技术的不断发展和完善,我们可以期待在未来看到更多类似的创新,以保障人工智能技术的安全和有效性。