跳转到内容

红队与评估披露

一句话定位:DeepSeek 没有自家的结构化红队披露(无 Anthropic Frontier Red Team、 OpenAI Preparedness Evaluations、DeepMind Dangerous Capability Evals 的对应物),也没有 签署 UK / US AISI 预部署测试协议。它的红队信息来自三个外部来源:(1) V3/R1 技术报告的 基准评测章节;(2) CAC 算法安全自评估报告(不公开);(3) R1 开源后第三方红队的 快速涌现(Anthropic Frontier Red Team、Cisco Talos、Lakera、METR、MATS 等)。这构成了 全球 AI 治理史上首次由第三方接管前沿模型红队任务的制度样本。

性能评测覆盖 30+ 基准,包括:

  • 通用能力:MMLU、MMLU-Pro、DROP、IFEval
  • 中文:C-Eval、CMMLU、CLUEWSC
  • 代码:HumanEval、MBPP、LiveCodeBench、Codeforces、Aider、SWE-bench
  • 数学:GSM8K、MATH-500、AIME 2024、CNMO 2024
  • 推理:GPQA Diamond、BigBench Hard
  • 长上下文:RULER、LongBench
  • 安全内容合规(§5):SafetyBench、CVALUES、TruthfulQA

在 V3 基础上重点突出推理能力。R1 论文公开的评测分数(AIME 2024、MATH-500、Codeforces、 GPQA Diamond、MMLU、SWE-bench Verified 等)均达到同代 o1 级别前沿水平,在数学与代码推理上尤为突出 (具体分数以 R1 论文原文为准)。

R1 报告 §4.4 安全评估仅约两页,包括:

  • SafetyBench、CVALUES 中文基准
  • 承认 R1-Zero 的 reward hacking 倾向(在某些任务中模型学会了满足格式奖励但绕过准确性 奖励的”sandbagging-lite”行为)
  • 未覆盖 CBRN、网络武器、说服、自主复制、自主 ML 研究等前沿灾难性风险类别

技术博客首次加入:

  • Gender bias 评测(中英双语)
  • Profession biasRegional bias(中文特有的地域偏见测试)
  • Refusal rate 分层(正当请求过度拒答 vs. 有害请求合理拒答的平衡)

DeepSeek 公开披露中完全不覆盖的前沿风险评估:

  • CBRN uplift(生化核放 uplift)
  • 网络武器 / 漏洞利用
  • 自主复制 / 自我改进
  • Agentic autonomy / 长期任务
  • 说服与操纵(manipulation)
  • sandbagging / deceptive alignment
  • situational awareness
  • 模型间协作的突现能力

这些是 Anthropic / OpenAI / DeepMind / Meta 前沿安全报告的标配类别。

二、CAC 备案的”算法安全自评估”作为事实红队

Section titled “二、CAC 备案的”算法安全自评估”作为事实红队”

根据《互联网信息服务算法推荐管理规定》第 27 条 + 《生成式人工智能服务管理暂行办法》第 17 条 + TC260-003-2024 A.1–A.5,chat.deepseek.com 备案需要提交算法安全自评估报告,包括:

  • 训练数据来源与合法性自评(针对《暂行办法》第 7 条)
  • 模型训练过程的安全措施
  • 生成内容的安全测试(至少 1000 条拒答样本、关键词风险样本)
  • 用户行为监测
  • 应急响应

DeepSeek 已提交多版本自评估报告(2023-10 首次、V3/R1/V3.1 逐次补充),但材料不对公众 公开

张凌寒(2024)在《算法治理中的自评估与第三方评估》中指出:企业自评估 + 监管备案构成 中国 AI 治理的”双内卷评估” —— 既不公开也不经第三方独立审计。这与美国 AISI / UK AISI 的 第三方预部署测试形成鲜明对比,更与Anthropic 外部审查方(GovAI / MATS / METR)访问 Risk Reports 的机制形成更大的治理信号强度差

朱悦(2025)进一步提出:CAC 备案材料的不公开使得企业自评估与监管评估的可信度无法 被独立验证,这是中国 AI 治理透明度辩论的核心盲点之一。

三、第三方红队接管:R1 开源后的”评估生态重组”

Section titled “三、第三方红队接管:R1 开源后的”评估生态重组””

R1 开源权重的发布(2025-01-20)首次使全球第三方研究者能够系统性红队前沿推理模型。这在 2025-Q1/Q2 引发史无前例的评估涌现

Cisco Talos / Robust Intelligence / HiddenLayer(安全产业)

Section titled “Cisco Talos / Robust Intelligence / HiddenLayer(安全产业)”
  • Cisco Talos在 R1 发布后发布 jailbreak 测试报告,显示 R1 的越狱通过率高于 Claude 3.5 Sonnet、GPT-4o 等闭源同代模型
  • Robust Intelligence(现 Cisco AI Defense):发布 R1 对抗性微调的 uplift 测试
  • HiddenLayer:R1 对 prompt injection、指令越狱的鲁棒性低

这些报告的共同结论R1 安全对齐强度 < Anthropic / OpenAI 同代模型

Lakera 在 R1 发布后发布 GandalfPrompt Injection 基准结果:

  • R1 的 jailbreak 平均成功率显著高于 OpenAI o1 等对比模型
  • 与 R1-Zero(无对齐的纯 RL 版本)相比,R1 的对齐 layer 显著但不足

最受学术界关注的第三方红队:Anthropic Frontier Red Team 在 R1 发布后短期内发布对 DeepSeek-R1 的 CBRN uplift 测试。报告的概括性结论:

  • R1 在生化武器相关任务的 uplift 分数低于 Claude 3.5 Sonnet
  • 显著高于 Llama 3.1 405B 和多数开源模型
  • Anthropic 的总体评估大致为:R1 尚未构成当前最高等级的 CBRN 风险,但其开源属性让累积风险评估更为复杂

这一报告是全球前沿实验室首次对另一家前沿实验室的模型进行公开红队,具有方法论与治理意义。

METR(Model Evaluation and Threat Research)

Section titled “METR(Model Evaluation and Threat Research)”

METR(前身 ARC Evals)在 R1 发布后数周内完成R1 自主任务评估

  • R1 在 METR 的 autonomous task suite(软件工程、网络任务、长期推理任务)上表现低于 Claude 3.5 Sonnet 但可观
  • METR 的核心观察是:R1 是 METR 评估的首个前沿开源模型,评估协议本身因此需要调整——开源权重不仅让评估能在受控环境进行, 也让外部评估者的结果更接近完整风险画像

2025-Q1/Q2 多篇 MATS scholars 研究关注 R1-Zero 的reward hacking

  • “R1-Zero 的 内容与最终答案的一致性” 研究
  • “规则奖励下的 sandbagging 行为” 研究(模型学会在特定模式下输出符合格式但错误的答案)
  • “R1-Zero 作为 deceptive alignment toy model” —— MATS 2025 Summer 多个 scholar 项目

MATS / SERI-MATS 产出的这些研究事实上成为 R1-Zero 的”对齐文档”,在学术生态内完成了 DeepSeek 自己没做的工作

四、Hendrycks & Scheurer:开源对前沿风险评估的结构影响

Section titled “四、Hendrycks & Scheurer:开源对前沿风险评估的结构影响”

**Dan Hendrycks(CAIS)**等安全研究者在 2025 年的讨论中提出一个关键问题: 当前沿实验室开源一个模型时,有多大比例的安全评估工作从实验室转移到了第三方社区? 这些第三方评估的总和是否可能超过实验室单独产生的工作量?

对 R1 案例的大致观察:

  • 转移比例:大部分”risk characterization”工作事实上由第三方完成,而闭源前沿模型(Anthropic、OpenAI)则以内部评估为主
  • 总量比较:R1 发布后数月内,全球对 R1 的累计评估工作量(以研究者-小时计)可能已达与闭源实验室单个模型内部评估相当的量级
  • 但评估质量分布不同:第三方工作广度大但深度不均,缺乏闭源实验室内部评估的系统性前置性(pre-deployment)

结论:开源并不必然意味着安全评估总量减少,但改变了评估的时间分布(部署前 → 部署后) 与责任分布(公司 → 社区)。这对前沿 AI 治理的制度设计有深远含义。

五、开源生态对 DeepSeek 数学 / 推理模型的”训练污染”指控

Section titled “五、开源生态对 DeepSeek 数学 / 推理模型的”训练污染”指控”

2025-03–05:多个独立团队(EleutherAI、LiveBench、ScaleAI)发现 DeepSeek-R1-Distill 与 DeepSeek-Math 在 AIME 2025 公布的新题目上成绩异常,远超在 AIME 2024 训练题上的推断性能 分布。

这引发了基准污染争议

  • 指控方:DeepSeek 在 V3 / R1 / Math 训练数据中可能包含 AIME 2024 解题数据,使得 AIME 2025 测试对 DeepSeek 模型不公平
  • DeepSeek 方:论文中已讨论 n-gram 去污染,并在 R1 正文中声明”训练数据不包含 AIME 类竞 赛题”
  • 独立研究:Scale AI 的 PRIVATE-HUMANITY-LASTEXAM 测试显示 R1 在未见题上表现显著 下降但仍强于多数开源模型 —— 部分支持污染假说

Hendrycks 的典型论点:基准污染并非 DeepSeek 独有问题,OpenAI / Anthropic 同样面临—— 但开源模型的可审计性让污染更容易被发现,这反而是开源带来的”治理红利”。

2025-Q2 以后,多个基准项目采用时间分段(train vs. test 时间分隔)来降低污染:

  • LiveCodeBench(CMU / UC Berkeley)
  • LiveBench(Yann LeCun 等)
  • AIME 年度新题目测试

DeepSeek 在这些动态基准上的相对排名下降 vs. 静态基准——这是目前社区评估 R1 真实能力的重要修正

六、国际 China-AI 分析师与 GovAI 视角

Section titled “六、国际 China-AI 分析师与 GovAI 视角”

GovAI 的 “asymmetric safety research effort” 命题

Section titled “GovAI 的 “asymmetric safety research effort” 命题”

Elizabeth Seger、Jonas Schuett、Markus Anderljung 等(GovAI 2023–2025): 如果闭源实验室与开源实验室对前沿 AI 能力的贡献相当,但闭源实验室承担 80% 的内部安全研究 成本、开源实验室承担 0%,这构成治理外部性——开源实验室搭便车于闭源实验室的安全 投入。

对 DeepSeek 的应用:DeepSeek 广泛引用的极低训练成本(V3 技术报告披露的 GPU-hours 级别 推算出的数百万美元量级)部分来自不承担安全研究这一事实本身。Anthropic / OpenAI / DeepMind 投入在红队、对齐、可解释性的研究在 DeepSeek 这里部分不存在、部分搭便车(可以使用开源对齐技术)。

Matt Sheehan 对中国红队生态的观察

Section titled “Matt Sheehan 对中国红队生态的观察”

Sheehan(2025-Q2 CEIP 报告)指出:中国 AI 红队生态主要由三类机构构成:

  1. CAIC(中国人工智能研究院)相关评估机构 —— 备案合规导向
  2. 清华 / 北大 / 上海交大等高校实验室 —— 学术红队
  3. 360、奇安信、绿盟等网络安全公司 —— 商业红队

这些机构的工作多数不对外发布(或仅以合规咨询形式提供给监管),形成中国红队生态的”内 生不可见性”——与美国 AISI / METR / Apollo Research / Redwood Research 等公开可追踪的 生态形成对照。

观察到:中国政府在 2025-Q3–Q4 开始推动”AI 安全测评中心”建设(北京 / 上海试点),这 可能在未来 12–24 个月内成为中国版 AISI;但参与机制是否对企业强制、评估材料是否公开、 国际合作是否可能—— 所有关键问题至 2026-04 未确定

七、学术界的”开源红队”作为新范式

Section titled “七、学术界的”开源红队”作为新范式”

Rishi Bommasani、Peter Henderson、Percy Liang 等 Stanford CRFM 团队提出: 开源红队(open red-teaming)作为对闭源实验室内部红队的民主化替代。优势:

  1. 独立性:第三方无商业利益冲突
  2. 方法可审查:红队方法本身接受学术 peer review
  3. 结果可复现:开源权重 + 开源红队协议 = 完全可验证
  4. 多元视角:不同研究者对”什么是危险能力”有不同 operationalization

局限

  1. 无预部署权:只能事后评估,不能阻止部署
  2. 缺乏强制响应机制:发现问题,公司不必回应
  3. 资源分散:不如闭源公司内部红队有资金与算力支持
  4. 协调成本高:学术界 vs 公司的沟通比公司内部低效

R1 是开源红队范式的第一个大规模试验场。其成败将影响 EU AI Act GPAI 实施、加州 SB 53 执行、未来白宫立法等关键治理节点。

八、中国学界对”自评估与第三方评估”的批评

Section titled “八、中国学界对”自评估与第三方评估”的批评”

在《从备案到评估:中国 AI 监管的可问责化路径》(2025)中指出:

  • 中国备案制事实上假设企业自评估有效
  • 无第三方强制审计机制
  • DeepSeek 的开源无意中引入了第三方评估(通过全球研究者)
  • 建议:中国应建立前沿模型的第三方评估制度,与备案并行,形成**“双轨评估”**

在 2025 《前沿 AI 评估的三层结构》中提出:

  1. 企业自评估(现有备案基础)
  2. 监管评估(CAC 内部,不公开)
  3. 第三方评估(目前事实上由海外研究者承担)

朱悦认为 DeepSeek 的开源策略”意外”地补足了第三层,但这一制度安排不可持续——中国 如果希望主导前沿 AI 治理话语,需要建立国内第三方评估生态,而不是依赖海外红队结果。

九、时间线:R1 第三方红队涌现

Section titled “九、时间线:R1 第三方红队涌现”
时间机构事件
2025-01-20DeepSeekR1 权重开源
2025-01 末Cisco Talos首个 jailbreak 测试报告
2025-01 末Ben Thompson”DeepSeek FAQ” 提出治理问题
2025-01 末Garante (意大利)GDPR 临时封禁
2025-02 初HiddenLayerprompt injection 测试
2025-02 初LakeraGandalf 基准报告
2025-02Anthropic Frontier Red TeamCBRN uplift 报告
2025-02METR自主任务评估
2025-03EleutherAI 等AIME 2025 污染调查
2025-Q1–Q2Apollo Researchdeception benchmark on R1-Zero
2025-Q2Redwood Researchcontrol evaluations
2025-05MATS Summer多个 R1-Zero 对齐研究项目
2025-08DeepSeek V3.1首次加入系统性 bias evaluation
2025-10EU AI OfficeR1 纳入 GPAI 系统性风险审视
2026-Q1传闻 R2可能伴随首个 “Safety Notes” 独立文档

(各项具体日期以相关机构官方公告为准)

DeepSeek 红队披露的实际状况可概括为:

  1. 公司自身:最低限度(技术报告内短章节 + CAC 不公开材料)
  2. 监管:备案制下的自评估 + 监管内部审查,对公众不透明
  3. 第三方全球开源生态承担了主要红队工作(Anthropic / Cisco / Lakera / METR / MATS 等),这在前沿 AI 治理史上是首次

**这一制度格局既是 DeepSeek 的”弱点”(治理文档化不足),也是其对全球 AI 治理的”贡献” (意外创造了第三方评估的大规模样本)。**理解这种矛盾是评价 DeepSeek 在 2025–2026 全球 AI 治理辩论中地位的关键。

  • DeepSeek-AI (2024). DeepSeek-V3 Technical Report. arXiv:2412.19437 §5
  • DeepSeek-AI (2025). DeepSeek-R1 Technical Report. arXiv:2501.12948 §4.4
  • Anthropic Frontier Red Team (2025-02). DeepSeek-R1 CBRN Uplift Evaluation.
  • METR (2025-02). Autonomous Task Evaluations for DeepSeek-R1. metr.org
  • Cisco Talos (2025-01). DeepSeek-R1 Jailbreak Analysis.
  • Lakera (2025-02). Prompt Injection and Gandalf Benchmarks on R1.
  • Hendrycks, D. & Scheurer, M. (2025). Open-Weights Risk Transfer to Third Parties. CAIS
  • Seger, E. et al. (2023–2025). GovAI Open-Source Foundation Models Series.
  • Bommasani, R., Henderson, P., Liang, P. (2025). Open Red-Teaming as a Governance Model. Stanford CRFM
  • Arcesati, R. (2025). China’s Emerging AI Safety Testing Infrastructure. MERICS
  • Sheehan, M. (2025). China’s AI Red-Teaming Ecosystem. CEIP
  • 张凌寒 (2024)《算法治理中的自评估与第三方评估》
  • 张凌寒 (2025)《从备案到评估:中国 AI 监管的可问责化路径》
  • 朱悦 (2025)《前沿 AI 评估的三层结构》