跳转到内容

Anthropic

🆕 2026 Q1 重大更新RSP v3 发布(2026-02-24) —— 分离”单方承诺”与”行业共同义务”, 放弃 pause 承诺;Risk Reports 每 3-6 个月发布;SB 53 Frontier Compliance Framework 作为加州合规路径。

  • 成立:2021(创始人 Dario Amodei、Daniela Amodei 等 OpenAI 前成员)
  • 总部:San Francisco, California, USA
  • 主要模型:Claude 系列(Claude Opus 4.7 / Sonnet 4.6 / Haiku 4.5)
  • 商业模式:Claude.ai 消费 / API / Claude Code / 企业 / AWS Bedrock / Google Vertex 分销
  • 融资轨迹:Google $4B(2023)、Amazon $8B(2024 累计);2026 估值超 $60B
  • 差异化叙事安全优先前沿实验室;Constitutional AI + 机制可解释性研究主导的品牌

深度分析:RSP 作为行业自律模式的起源与演进

Section titled “深度分析:RSP 作为行业自律模式的起源与演进”

为什么 RSP 是”行业自律大头”的起点

Section titled “为什么 RSP 是”行业自律大头”的起点”

2023-09 Anthropic 首次发布 Responsible Scaling Policy (RSP),将 AI 安全承诺结构化为:

  • AI Safety Level (ASL) —— 参照生物安全等级(BSL-1 到 BSL-4)的风险分级
  • Capability Thresholds —— 触发 ASL 升级的能力阈值
  • Safeguards Required at Each Level —— 每级对应的部署和内部安全要求
  • Pause Commitment(v1 / v2 原版)—— 若达到阈值但安全措施未到位,停止训练或部署

制度意义:RSP 是全球首个结构化的自愿 AI 安全框架,为后来 OpenAI Preparedness Framework、 Google DeepMind FSF、Meta Frontier AI Framework 等提供模板。Frontier Model Forum(2023 成立) 以此为共同语言。加州 SB 53、EU GPAI CoP 的”Safety and Security”章节都部分对标 RSP 结构

版本日期核心变化
v1.02023-09首发。ASL-1 到 ASL-4 框架;明确 pause 承诺
v2.x2024-10 至 2025-10多次小幅更新;2025-05 对特定模型激活 ASL-3(生化武器辅助能力阈值)
v3.02026-02-24结构性重写(下文详述)

RSP v3 深度解读:行业自律的结构性转向

Section titled “RSP v3 深度解读:行业自律的结构性转向”

核心变化:把 RSP 拆成两类义务

  1. Anthropic 无论其他公司做什么都会做的缓解措施(unilateral commitments)
  2. “能力—缓解”映射:Anthropic 认为整个行业都应采用、否则不足以管理风险的标准(industry-wide recommendations)

关键后果

  • RAND Security Level 4(最高级的模型权重保护,防范国家级行为者)从单方承诺降级为行业建议
  • Pause 承诺被撤销:v2 原版明文”如果达到阈值而安全措施未到位就停止”,v3 无此条款
  • Anthropic 官方解释:某些承诺只在行业齐步时才有意义;单方承担只会失去市场地位而不真正降低风险

争议焦点(业界普遍批评,包括 TIME、GovAI、Zvi Mowshowitz 等):

  1. “竞争压力合理化”的危险:一旦允许”看同行做什么再决定自己做什么”,安全承诺会下行螺旋
  2. 五角大楼压力:Anthropic 2025 与美国国防部 OTA 签署 $200M 合同;RSP v3 降级恰好在合同生效后 6 个月
  3. “industry-wide” 的不可执行性:没有机制确保”行业”真的采纳,实际等于无承诺

Anthropic 的反驳

  • 新增 Risk Reports(每 3-6 个月)+ 外部审查方”无删减”访问权(2026-04 首批外部审查方含 GovAI、MATS、METR)
  • 不降低既有缓解措施:ASL-3 保护对 Claude Opus 4+ 仍适用
  • 发布 Frontier Safety Roadmap 含公开可问责指标
维度Anthropic RSP v3OpenAI Preparedness v2 (2025-04)Google DeepMind FSF v3 (2026-04)
结构能力等级(ASL-2/3/4)+ 对应缓解威胁类别 × 阈值(High / Critical)Critical Capability Levels (CCLs) + Tracked CLs (TCLs)
风险领域生化武器、网络、自主、说服生化、网络、自我改进(+ 长期自主、沙袋、自主复制等”观察”类)网络、自主 ML 研究、操纵、CBRN
Pause 承诺已撤销(v3)本来就没有(“必要时暂停”措辞弱)无明确 pause
外部审查明确有(Risk Reports 含外部方)Safety Advisory Group(内部+外部混合)发布模型 FSF 报告(如 Gemini 3 Pro FSF Report, 2025-11)
主要批评放弃 pause / 竞争妥协arxiv 2509.24394 “不保证任何缓解实践”TCL 门槛模糊

关键观察三家框架看似不同,但 2025-2026 都经历了”松动”。这既可能反映”实际风险没那么高”, 也可能反映”行业自律在竞争中不可持续”——需要外部硬法(EU AI Act、加州 SB 53、EO 14365 后续立法) 来锁定安全义务。

Anthropic Usage Policy(2025-05 最新版)与其他前沿实验室相比:

  • 更强的武器化限制:明确禁止”武器或危险化学、生物、核材料的开发、设计、生产、获取”
  • 更具体的儿童保护条款:CSAM 生成禁令 + 对未成年人”显著身心损害”的泛化禁令
  • 选举类场景的 nuance:禁止”实质性政治操纵”但允许”辅助起草真实政治内容”
  • 企业条款:分 Consumer Usage Policy 和 Commercial Terms,企业合规负担分摊

与 OpenAI Usage Policies 的对比:OpenAI 2025-10 更新后缩短并模糊化(删除部分具体禁止类别, 转向原则性表述);Anthropic AUP 保持更具体、更可执行

类型文档名链接本站子页
使用政策Anthropic Usage Policy (AUP)anthropic.com/legal/aupusage-policy
模型卡Claude Model Card(各版本)anthropic.com/claudemodel-card
安全框架RSP v3 (2026-02-24)anthropic.com/news/responsible-scaling-policy-v3safety-framework
SB 53 合规Frontier Compliance Frameworkanthropic.com/news/compliance-framework-SB53
透明度报告Transparency Hubanthropic.com/transparencytransparency-report
红队披露Frontier Red Team 论文 / 博客anthropic.com/researchred-team-disclosures
  • 2023 White House Voluntary Commitments:首批签署方
  • Frontier Model Forum:创始成员
  • 加州 SB 53明确 endorse(业界唯一),发布 Frontier Compliance Framework 作为合规路径
  • EO 14365 (州法抢占):隐性不满,但未公开反对
  • Dario Amodei 参议院证词(2023、2024):公开呼吁硬性联邦 AI 监管,罕见在大厂中
  • GPAI Code of Practice完整签署(2025-08-01 首批,全部三章)
  • AI Act 第 51-56 条 GPAI 义务:Claude 系列超 10²⁵ FLOP 门槛,已准备系统性风险文档
  • 不直接进入中国市场
  • AWS Bedrock 全球版可在中国非公开企业客户访问;豆包等国内服务不含 Claude
  • 技术出口受 BIS 管制约束
  • UK AISI (AI Safety Institute) 预部署测试合作协议首批方(2024)
  • 2024 Bletchley、2025 Seoul、2025 Paris AI Summit 签署所有主要声明

行业自律立场:“强监管支持者”叙事的矛盾

Section titled “行业自律立场:“强监管支持者”叙事的矛盾”

Anthropic 的自律姿态有三重张力

  1. 修辞支持硬法 vs. 实际游说:公开呼吁监管,但 2024 在加州 SB-1047 上公开反对最终版本; 2025 对 SB 53 endorse 是转向
  2. 单方承诺 vs. 竞争均衡:RSP v3 承认”只有自己做安全没用”,但这削弱了”道德领导者”叙事
  3. 研究独立性 vs. 资本依赖:Amazon $8B + Google $4B 的深度绑定是否影响治理立场?公司未公开披露

相对其他前沿实验室,Anthropic 的自律仍是最重的,但 2026 开始出现**“竞争压力下的退让”**迹象。