跳转到内容

安全框架

快照:基于 Preparedness Framework v2.0 (2025-04-15)、 2025-2026 博客更新与 Safety & Security Committee 披露; 结合 GPT-5.4 首次触发 High cyber(2026-03) 的实际运转数据。

Preparedness Framework 是 OpenAI 自 2023-12 起发布的内部风险管理文档,旨在:

  • 定义前沿能力阈值(何种能力被视为”前沿风险”)
  • 映射缓解措施(一旦触发,需采取哪些部署或安全行动)
  • 建立决策程序(谁来判定、谁来签字)

不是 Usage Policy(用户行为约束)、不是 Model Spec(模型行为规范),而是公司自身训练与部署决策的自律档—— 与 Anthropic RSP 同为”能力门槛型自律”的两大代表。

版本日期核心结构主要变化
v1.02023-12-184 档(Low / Medium / High / Critical)× 4 类别首发;响应 2023-07 白宫 Voluntary Commitments
v1.1 更新2024-05、2024-09 等多次增补同上GPT-4o、o1 发布时对评估程序的细化
v2.02025-04-152 档(High / Critical)× 3 tracked + 5 watched结构性重写(详见 §三)
v2.1 增补2025-10同 v2.0新增 Sora 2 评估程序
v2.2 增补2026-03同 v2.0首次触发:GPT-5.4 “High cyber” 判定

三类 “Tracked Categories”(正式追踪)

Section titled “三类 “Tracked Categories”(正式追踪)”
  1. Biological & Chemical(生化能力)
    • High 阈值:对有相关学科基础的行为者,模型提供”meaningful uplift”实施大规模生物/化学伤害的能力
    • Critical 阈值:对无相关基础的行为者,模型能独立指导实施
  2. Cybersecurity(网络安全能力)
    • High 阈值:对有基础的网络操作者显著提升攻击成功率
    • Critical 阈值:能独立发现并利用关键基础设施漏洞
  3. AI Self-improvement(AI 自我改进)
    • High 阈值:能独立执行当代 AI 研究工作流的实质性部分
    • Critical 阈值:能显著加速前沿 AI 研究,威胁人类对 AI 发展的控制

五类 “Watched Categories”(观察,未正式触发)

Section titled “五类 “Watched Categories”(观察,未正式触发)”
  • Long-Range Autonomy(长期自主)
  • Sandbagging(故意表现不佳)
  • Autonomous Replication & Adaptation(自主复制)
  • Undermining Safeguards(削弱安全措施)
  • Nuclear & Radiological(核与放射)—— 在 v1 中是 tracked,v2 降为 watched
阈值官方描述响应
High显著增加现有严重伤害风险路径部署限制 + Safety Advisory Group 审批
Critical开启前所未有的严重伤害风险路径暂停部署直至独立安全证明

四、v1 → v2 的”稀释”:关键删减

Section titled “四、v1 → v2 的”稀释”:关键删减”
项目v1v2
阈值档数4(Low / Medium / High / Critical)2(High / Critical)
风险类别数4(+ Persuasion)3 tracked + 5 watched
Persuasion 类别Tracked(Medium 触发可定向操纵)降级(并入 Model Spec 行为侧)
Nuclear & RadiologicalTracked降为 Watched
Pause 承诺”如触发 Critical 需暂停部署”保留但弱化(“综合考虑后”)
外部审查条件明确提及松散(“Safety Advisory Group 可纳入外部顾问”)

官方叙事openai.com/safety/preparedness):

  • “聚焦真正高风险的类别”
  • “降低 Low/Medium 的合规负担以不拖慢普通迭代”
  • “Persuasion 已被 Model Spec 和用户层政策更好覆盖”

五、学术批评:arxiv 2509.24394 与”不保证任何实践”

Section titled “五、学术批评:arxiv 2509.24394 与”不保证任何实践””

2025-09 arxiv 2509.24394 《Does OpenAI’s Preparedness Framework Make Binding Safety Commitments?》 (作者含 GovAI 与 SaferAI 研究员)的核心结论:

The 2025 OpenAI Preparedness Framework does not guarantee any AI risk mitigation practices.

  1. “Safeguard sufficiency” 的判定权完全内部
    • 框架中反复出现的”sufficient safeguards”表述从未被外部化为可核查标准
    • Safety Advisory Group 的成员名单未完整公开
  2. “综合考虑”条款允许事后重新解释
    • 文本中的 “weighing considerations including capability, deployment scope, …” 让任何缓解决策都可被合法化
  3. “能力—缓解”映射不是硬绑定
    • 达到 High 不自动触发特定措施;文本使用 “may include” 而非 “shall”
  4. 全文无”shall not deploy” 类硬禁止
    • 与 Anthropic RSP v2 原版的 pause commitment 形成对照;v2 连这个都没有
  • Zvi MowshowitzDon’t Worry About the Vase)系列文章:逐版本拆解 v1 vs. v2 用词变化; 典型论点是 v2 更接近营销文档而非实际风险框架
  • Stuart Russell(UC Berkeley)在 2025 年多次公开访谈中把 Preparedness v2 与 RSP v3 并列为 行业自律的系统性退却
  • FLI(Future of Life Institute)AI Safety Index 在 v2 发布后对 OpenAI Preparedness 的评分有显著下调
  • Markus Anderljung(GovAI Director)2025 年多次评论指出: 缺乏硬约束文本的自愿承诺在竞争压力下难以维持

六、v2 首次运转:GPT-5.4 “High cyber” 案例(2026-03)

Section titled “六、v2 首次运转:GPT-5.4 “High cyber” 案例(2026-03)”

2026-03 GPT-5.4 发布时,OpenAI 官方 blog 《Deploying GPT-5.4 under Preparedness Framework v2》宣布:

Following Preparedness evaluations, GPT-5.4 has been assessed at High capability in the Cybersecurity category.

响应措施:

  1. 部署分层
    • ChatGPT 面:阻断逆向工程、漏洞利用请求
    • API:Trusted Access Program(TAP),面向经人工核验的安全研究员开放
    • GPT-5.4-Cyber(2026-04-14):独立 endpoint,完整 cyber 能力
  2. 异步监控
    • ZDR(Zero Data Retention)客户:异步阻断 + 事后审计
  3. Trusted Access 核验机制
    • 身份验证 + 雇主证明 + 用途声明 + NDA
    • 核验通过者规模数量级尚未官方披露(仅有非正式报道估算)
  • Apollo Research 2026-04 博客:TAP 的核验强度低于 Anthropic Claude Opus 4.7 “safeguarded deployment” 的对应机制
  • SaferAI:High 触发后的缓解主要是访问控制层,模型本身的 uplift 未被削减
  • UK CAISI(原 AISI):在 pre-deployment 测试中已提出更严格的部署建议,但 OpenAI 选择了较弱版本

七、治理结构:Safety Advisory Group 与 Safety & Security Committee

Section titled “七、治理结构:Safety Advisory Group 与 Safety & Security Committee”
  • 组成:内部安全团队负责人 + 少量外部顾问(具体名单非完整公开
  • 职能:对 Preparedness 评估结论与部署决策出具建议
  • 权限边界非否决权——最终决策仍在 CEO 与 Safety & Security Committee

Safety & Security Committee(SSC,2024-05 设立)

Section titled “Safety & Security Committee(SSC,2024-05 设立)”
项目细节
设立背景Superalignment 团队解散(2024-05)、Jan Leike / Sutskever 离职后成立
首任主席Sam Altman(CEO 兼任)
2024-09 主席轮换Zico Kolter(CMU)接任主席;Altman 转为”成员”
成员Kolter、Bret Taylor(董事长)、Adam D’Angelo、Nicole Seligman
权限审查安全事项、向董事会报告
争议成员同时是董事会成员 → 独立性存疑

结构性批评(Helen Toner 2024 TED talk、Tim O’Reilly、Gary Marcus):

  • SSC “自评自”问题:与其说是独立监督,不如说是公司内部的安全汇报机制
  • 2023-11 董事会事件后,有外部独立判断能力的成员(Toner、McCauley)已离开
  • 相比之下,Anthropic Long-Term Benefit Trust 至少在正式权限上有”罢免董事”的路径;OpenAI 2024-2025 重组削弱了非营利主体对商业主体的制衡
维度OpenAI Preparedness v2Anthropic RSP v3Google DeepMind FSF v3xAI
发布日2025-04-152026-02-242026-04
架构风险类别 × 2 档阈值ASL 能力等级CCL + TCL
Pause 承诺(“必要时”)已撤销无明确
外部审查SAG(含外部)Risk Reports 外部审查FSF 报告发布
首次触发案例GPT-5.4 High cyber(2026-03)Claude Opus 4 ASL-3 生化(2025-05)Gemini 3 Pro TCL 操纵(2025-11)
学术批评核心arxiv 2509.24394放弃 pauseTCL 门槛模糊无框架

三家都经历了不同方向的承诺退却

  • Anthropic:撤销 pause,转向”行业共同义务”
  • OpenAI:合并阈值,降低 Nuclear/Persuasion 优先级
  • DeepMind:2024 删除 Gemini “military prohibition”,2025 扩大 CCL 但 pause 承诺缺失

结构性启示:自律框架在无硬法托底时,竞争压力会让最弱承诺成为共同底线(race-to-the-bottom 动力学)—— 这是 Mowshowitz、Anderljung、Toner 等一致的观察,也是加州 SB 53、EU AI Act 第 55 条、欲求立法的存在理由

法规衔接条款Preparedness 的角色
EU AI ActArt. 55 systemic risk mitigation作为”state-of-the-art”缓解实践的合规引证
EU GPAI Code of PracticeSafety & Security 章节OpenAI 部分保留(未全部接受 Chapter 义务)
加州 SB 53§22757.11 frontier developer protocolPreparedness 可作为”written protocol”
White House Voluntary Commitments (2023-07)能力评估承诺Preparedness 是合规证明
Seoul Commitments (2024-05)Frontier AI safety commitments16 家公司共同框架,Preparedness 作为 OpenAI 的对应文件

十、产业实务:Preparedness 如何影响部署决策

Section titled “十、产业实务:Preparedness 如何影响部署决策”

以下是从公开信息归纳的实际决策链条

  1. 模型预训练完成 → 内部 eval + 基础能力基准
  2. Preparedness Team 评估 → 对 3 tracked + 5 watched 类别打分
  3. 外部红队(METR / Apollo / UK CAISI / US CAISI)独立评估 → 提交报告
  4. SAG 审议 → 写建议书
  5. SSC 审批 + CEO 签字 → 决定部署范围
  6. 发布 System Card + Preparedness 表格 → 对外披露结论
  7. 持续监控 → 部署后再评估(如 GPT-5.4 → 增补 v2.2)

观察到的 gating 案例

  • o1 发布(2024-12):Apollo 披露的”scheming”结论导致部署方式调整(禁用某些 tool use、增加 CoT 监控)
  • Sora 2(2025-09):Safety Systems 在影响力操作、儿童安全方面的评估导致数周级发布推迟
  • GPT-5.4(2026-03):因 High cyber 触发,部署从默认 ChatGPT 全量延后数周转 TAP 模式

这些说明 Preparedness 确实影响了日程,但未影响最终是否发布——与 Anthropic 对 Opus 4 延后 ASL-3 激活、 DeepMind Gemini 3 对 CBRN 类 rollout 分阶段的对比中,OpenAI 的 Preparedness 在”停止”上依然是最弱的。