安全框架
🆕 2026-04-17 FSF v3.0:新增 Tracked Capability Levels (TCLs) 预警层; 新增 Harmful Manipulation CCL(规制能系统性改变人类信念的 AI)。 对比 Anthropic RSP v3 的 “弱化” 与 OpenAI Preparedness v2 的 “简化”, DeepMind FSF 是 2026 唯一扩展的前沿安全框架。
概述:FSF 的制度位置
Section titled “概述:FSF 的制度位置”Frontier Safety Framework (FSF) 是 DeepMind 对标 Anthropic RSP(2023-09)、 OpenAI Preparedness Framework(2023-12)的第三个前沿安全框架。2024-05 首发时 DeepMind 明确定位:
“a set of protocols aimed at addressing severe risks that may arise from powerful capabilities of future foundation models” — Frontier Safety Framework, v1.0 Preamble
与 Anthropic RSP 并列位于 Frontier Model Forum 四家创始成员(Anthropic、Google、 Microsoft、OpenAI)的行业自律”双核”:RSP 以**能力等级(ASL)**为中心,FSF 以 **关键能力级别(Critical Capability Level, CCL)**为中心。
| 版本 | 日期 | 核心变化 | 官方发布 |
|---|---|---|---|
| v1.0 | 2024-05-17 | 首发;建立 CCL 概念;4 个能力领域 | deepmind.google blog |
| v2.0 | 2025-02 | 强化模型级 FSF Report 要求;细化 CBRN CCL | FSF v2 |
| v3.0 | 2026-04-17 | 新增 TCLs;新增 Harmful Manipulation CCL | FSF v3 |
CCL 方法论(v1 起的核心创新)
Section titled “CCL 方法论(v1 起的核心创新)”Critical Capability Levels (CCLs) 是 DeepMind 对”能力 → 风险”映射的独特抽象。 与 Anthropic ASL 的区别:
- ASL 是单一维度的能力等级(ASL-2 / ASL-3 / ASL-4),像 BSL 等级
- CCL 是按风险类别分别定义的能力阈值——“网络攻击 CCL”、“自主 ML 研究 CCL” 等是独立轴
v3 CCL 清单(按 2026-04 版):
| 风险域 | CCL 名称 | 触发条件(概述) |
|---|---|---|
| 网络 | Cyber Autonomy CCL | 模型可自主规模化发动复杂网络攻击,相当于中等国家级威胁 |
| 自主 | Autonomous ML R&D CCL | 模型可自主推进 AI 研发,相当于 DeepMind 研究员水平的端到端贡献 |
| CBRN | Bio CCL / Chem CCL | 模型可大幅降低生化武器研发门槛(对 GCSE-level 用户) |
| 操纵(v3 新增) | Harmful Manipulation CCL | 模型可系统性改变信念/行为,产生”严重规模”社会伤害 |
流程:
- Early Warning Evaluations:每个重要模型训练后、部署前做 CCL 评估
- 若 < CCL → 正常部署(仅常规缓解)
- 若 ≥ CCL → 延迟部署 / 强化缓解,发布 FSF Report 公开论证
- 持续监控:部署后重大能力提升 → 触发重新评估
TCLs(2026-04 新增)
Section titled “TCLs(2026-04 新增)”Tracked Capability Levels 是 v3 的核心创新——在 CCL 触发前的预警层。
理由(FSF v3 论证概括):CCL 设置的阈值很高,一旦触发就意味着”重大”风险。 但能力演进往往渐进,若等到触发 CCL 再反应,缓解措施的准备时间可能不足—— TCL 因此作为预警层引入。
TCL 的作用:
- 对每个 CCL 设定**“接近阈值”的 TCL**(典型为 CCL 的 50-80%)
- 达到 TCL 触发内部预警 + 外部披露 + 追加评估
- 不触发部署限制,但倒逼缓解能力提前就位
行业意义:DeepMind 现在是唯一设立”预警层”的前沿实验室:
| 实验室 | 能力门槛 |
|---|---|
| OpenAI Preparedness v2 | High / Critical(2 档,2025-04 简化) |
| Anthropic RSP v3 | ASL-2/3/4/5(4 档,含 “deploy standards”) |
| Google DeepMind FSF v3 | TCL → CCL → “exceed CCL”(3 档) |
Harmful Manipulation CCL(2026-04 新增)
Section titled “Harmful Manipulation CCL(2026-04 新增)”最具争议的 v3 新增。覆盖”能在规模上系统性改变人类信念或行为”的能力。
定义(概括)
Section titled “定义(概括)”FSF v3 将 Harmful Manipulation CCL 大致界定为:模型能以显著高于人类基线的说服 / 操纵效率, 系统性改变信念或行为,并在规模化部署下造成严重社会伤害。具体措辞以 FSF v3 正式文本为准。
- 控制实验:让模型与人类在说服任务中竞争(例如气候议题、疫苗信念)
- 长对话持久性:模型引发的信念变化是否在 24 小时 / 7 天后仍存在
- 个性化适应性:模型能否根据目标特征调整策略
- 可扩展性:缓解措施(如水印、内容标签)能否抵消操纵效果
支持:
- Yoshua Bengio 在近年 AI 安全报告与公开演讲中,持续将规模化操纵列为 AGI 风险主要类别之一 (继自主、武器化之后),FSF 采纳与该学术立场一致
- Stuart Russell(Berkeley CHAI)在多次公开发言中强调,规模化说服 / 操纵 对民主制度构成存在性风险
批评:
- Zvi Mowshowitz(Don’t Worry About the Vase)FSF v3 发布后的系列博文指出逻辑不一致: v3 将 Harmful Manipulation 列为 CCL,但同时把 Deceptive Alignment / Scheming 降级为 TCL
- Deb Raji(Mozilla Fellow)等批评定义模糊——“人类 baseline” 如何界定, 与广告、公共卫生传播等合法说服如何区分
- 产业派(a16z 等)则担心此 CCL 阻碍 Gemini 在营销、教育、说服性 AI 应用的部署
DeepMind 的内部争论
Section titled “DeepMind 的内部争论”Shane Legg(DeepMind Chief AGI Scientist)在 2025 年多次公开发言中提及: Harmful Manipulation CCL 的草案在 DeepMind 内部经历了较长时间的争论。反对方(产品 / 商业化) 认为该 CCL 可能阻碍合法的说服性应用;支持方(Safety Research)认为如果操纵能力 扩展到民主议题就来不及。最终的 v3 版本是妥协——定义严格限定于”严重规模”而非一般说服。
Gemini 模型级 FSF Reports
Section titled “Gemini 模型级 FSF Reports”模型级 FSF Report 是 v2 起的核心工具——对每个重要模型公开披露其 CCL 评估。
已发布的 FSF Reports
Section titled “已发布的 FSF Reports”| 模型 | 发布日期 | 覆盖 CCL | 结果 |
|---|---|---|---|
| Gemini 2.5 Pro | 2025-04 | Cyber / Auto ML / CBRN(v2 时期) | 均未达 CCL;Cyber 接近 TCL(当时未发布) |
| Gemini 3 Pro | 2025-11 | Cyber / Auto ML / CBRN(v2 框架) | 均未达 CCL;Auto ML 达到 TCL 草案阈值——触发”增强监控” |
| Gemini 3 Ultra | 预期 2026-Q1 | 四维全覆盖(v3 框架) | — |
Gemini 3 Pro FSF Report(2025-11)——业界首个
Section titled “Gemini 3 Pro FSF Report(2025-11)——业界首个”这是业界首个把模型级安全评估作为独立公开报告发布的实例(Anthropic 的 Risk Reports 2026-04 起才对齐这一格式)。
报告结构:
- Model overview(与 Model Card 交叉引用)
- Evaluated CCLs(当时仅 v2 的三类)
- Early Warning Evaluation 方法(部分公开,详细方法在 appendix)
- Results:每项 CCL 的量化分数 + 人工判断
- External Evaluations:UK AISI / US AISI 参与部分评估
- Mitigation plan:发布前和发布后的缓解措施
- Residual uncertainty:主动披露未覆盖的风险维度
意义:为 Gemini 3 Ultra(预期 2026-Q1 发布)的 v3-framework 首次全维评估提供模板。
三大缓解支柱
Section titled “三大缓解支柱”FSF v1 起规定每个 CCL 对应三类缓解:
- Security Mitigations:模型权重保护(对应 RAND Security Levels SL-1 到 SL-5)
- Deployment Mitigations:部署时的访问控制、监控、能力限制
- Internal Governance:Responsible AI Council 流程 + 跨职能审查
v3 的新增:要求所有 TCL 达到的模型同步升级 Security Mitigations(即不等 CCL 就 提前投入权重保护),响应了 GovAI Anderljung 等人的批评。
Anderljung et al.(GovAI)—— 框架 vs. 政策
Section titled “Anderljung et al.(GovAI)—— 框架 vs. 政策”Markus Anderljung(GovAI,论文发表时在 OpenAI Policy)2023 Frontier AI Regulation 论文是前沿安全框架的理论基础之一。他对 FSF 的典型评价是: 这是一个结构良好的框架,但”Framework”而非”Policy”的措辞本身即暗示了较弱的约束力。
FSF v3 仍然称作 Framework(相对 Anthropic 的 “Policy”),保留柔性。这在 Anderljung 看来是利弊参半——灵活性有利迭代,但降低承诺可问责性。
Bengio 的”责任缺口” (Responsibility Gap)
Section titled “Bengio 的”责任缺口” (Responsibility Gap)”Yoshua Bengio 在 2025 International AI Safety Report 中多次引用 FSF 作为正面案例, 但也指出三大实验室的共同盲点:
- “pause commitment” 模糊:所有三家都未明确”若缓解失败应停止”的具体机制
- 外部验证有限:UK / US AISI 参与了评估,但方法学与结论仍由实验室主导
- FSF 与 AI Principles 之间的联动:如 2024 删除军事禁令未触发 FSF 更新,说明两层治理 未打通
Zvi Mowshowitz 的”稍好但仍不够”(Better But Not Enough)
Section titled “Zvi Mowshowitz 的”稍好但仍不够”(Better But Not Enough)”Zvi 在多篇博文中持续表达的立场:DeepMind 的框架在三家中相对严谨,但仍缺乏可执行的 pause 承诺。 对 FSF v3 的典型论点是:TCL 是一项实质改进、Harmful Manipulation CCL 方向正确,但只要没有公开的 pause 承诺, FSF 仍是”框架”而非”约束”。
Meredith Whittaker(Signal)—— 治理 vs. 产品
Section titled “Meredith Whittaker(Signal)—— 治理 vs. 产品”Whittaker 的核心论点是:把 Safety Team 放在商业化产品公司内部,研究者写的框架与产品团队的实操之间存在结构性冲突。 她举例:2024 Gemini 图像生成的历史失真事件没有触发任何 CCL, 因为操纵性”历史生成”不在 CCL 定义之内——反映框架对现实危害的覆盖面仍有限。
DeepMind 内部声音:Rohin Shah / Geoffrey Irving / Pushmeet Kohli
Section titled “DeepMind 内部声音:Rohin Shah / Geoffrey Irving / Pushmeet Kohli”- Rohin Shah(DeepMind Alignment Team Lead):在 FSF v3 发布相关讨论中公开承认 CCL 阈值的标定仍是动态学习过程
- Geoffrey Irving(原 DeepMind,现 UK AISI):推动 FSF 与 AISI 评估协议对齐的关键人物
- Pushmeet Kohli(DeepMind Safety & Alignment Lead):在 2025 多场学术活动发言中强调 FSF 必须与学术评估界共演进,而非封闭内部标准
行业第一手实践视角
Section titled “行业第一手实践视角”与 Google AI Principles 的关系
Section titled “与 Google AI Principles 的关系”FSF 位于 AI Principles 之下但独立发布:
Google AI Principles (2024 修订版) └── DeepMind FSF ├── CCL 定义 ├── Early Warning Evaluations ├── 模型级 FSF Reports └── Mitigation Requirements └── Google Responsible AI Practices └── Generative AI Prohibited Use Policy关键:FSF 覆盖的是模型训练与部署前的能力风险,而 AI Principles 与 Prohibited Use 覆盖用途与场景。两者并不完全重合——这是”AI Principles 2024 修订删除军事禁令未触发 FSF 更新”的技术原因。
Responsible AI Council 流程
Section titled “Responsible AI Council 流程”Google / DeepMind 内部通过Responsible AI Council协调 FSF 落地:
- 成员:DeepMind Safety + Google Responsible AI + Legal + Product + External advisors
- 所有达到 CCL 或 TCL 的模型须经 Council review
- Council 决议记录为 FSF Report 附录(摘要公开)
与 Frontier Model Forum 的协调
Section titled “与 Frontier Model Forum 的协调”FSF 与 Anthropic RSP、OpenAI Preparedness 在 Frontier Model Forum 下有”术语对齐”工作组:
- “capability elicitation” 标准化
- “dangerous capability benchmarks” 共享(如 Cybench、WMDP 变体)
- 2025 联合发布了”Scheming Evaluations”论文(DeepMind + Anthropic + Apollo Research)
UK AISI / US AISI 预部署评估
Section titled “UK AISI / US AISI 预部署评估”FSF 流程中的外部评估环节:
- Gemini 1.5 Pro(2024-05)UK AISI 参与(首批之一)
- Gemini 2.5 Pro(2025-03)US AISI + UK AISI 联合评估
- Gemini 3 Pro(2025-11)US AISI 因 EO 14179 后政策收缩下降参与;UK AISI 主导
- Gemini 3 Ultra(预期 2026-Q1)AISI 参与方式由 AI Action Plan 后续决定
与同业对比(2026 Q2 快照)
Section titled “与同业对比(2026 Q2 快照)”| 维度 | FSF v3 (2026-04) | Anthropic RSP v3 (2026-02) | OpenAI Preparedness v2 (2025-04) |
|---|---|---|---|
| 核心单位 | CCL (按风险域) + TCL (预警) | ASL (单维度) | High / Critical (两档) |
| 覆盖风险 | Cyber / Auto ML / CBRN / Manipulation | Bio / Cyber / Auto / Persuasion | Bio / Cyber / Auto / Self-improve |
| 模型级报告 | FSF Reports(2 份已发) | Risk Reports(2026-04 起) | System Cards (嵌入式) |
| 预警层 | TCL (v3 新增) | “Yellow Lines”(非正式) | 无 |
| Pause 承诺 | 模糊(“may delay deployment”) | v3 撤销 | 弱 |
| External eval | UK/US AISI + 独立审查 | GovAI + MATS + METR | 内部 Safety Advisory Group |
| 主要批评 | ”Framework not policy” / 无 pause | 撤销 pause | arXiv 批”不保证任何缓解” |
- 2023-09:Anthropic RSP v1(FSF 的制度参照)
- 2023-12:OpenAI Preparedness Framework v1
- 2024-05:FSF v1 发布
- 2025-02:FSF v2 发布
- 2025-04:Gemini 2.5 FSF Report(首份模型级 FSF Report)
- 2025-10:DeepMind + Anthropic + Apollo Scheming Evaluations 论文
- 2025-11:Gemini 3 Pro FSF Report(业界首个与 Model Card 同步发布的安全报告)
- 2026-04-17:FSF v3 发布(TCL + Harmful Manipulation CCL)
- 公司层 FSF 深度分析:Google DeepMind index
- Gemini 模型卡:Model Card
- 外部红队与 AISI 评估:Red-Team Disclosures
- 对比:Anthropic RSP、OpenAI Preparedness
- Frontier Model Forum 行业协调:行业自治
- EU GPAI Code of Practice:GPAI CoP