红队与评估披露
字节跳动没有公开发布过 Anthropic Frontier Red Team 论文、OpenAI Preparedness 评估报告、 DeepMind FSF Report 意义上的”红队披露”。 这是中国头部前沿实验室的共同特征。但这并不意味着红队工作缺失—— 真实红队活动以三层形式存在:备案材料(不公开)+ TC260 基准(半公开)+ DSA 独立审计(海外公开)。
一、红队披露的三层结构
Section titled “一、红队披露的三层结构”| 层 | 披露对象 | 披露形态 | 公共可见性 |
|---|---|---|---|
| 备案层 | CAC / 网信办 | 《算法安全自评估报告》+《模型安全测试报告》 | 不公开 |
| 国标层 | TC260 + 中国信通院 / 上海智研院 / 国家网信办算法技术评估实验室 | TC260-003 31 项风险类别测试记录;CAIC(中国 AI 合规联盟)评估 | 半公开(基准公开,结果总量汇总,公司级结果不公开) |
| 出海层 | EU DSA 独立审计 + 新加坡 IMDA 沟通 | Kroll 年度 SRA;IMDA AI Verify / Project Moonshot 参与 | 公开 |
二、备案层:CAC 备案中的《算法安全自评估报告》
Section titled “二、备案层:CAC 备案中的《算法安全自评估报告》”依据《生成式人工智能服务管理暂行办法》第 17 条 + CAC《生成式 AI 服务备案相关材料清单》
- TC260-003-2024 附录 B,《算法安全自评估报告》的典型结构:
- 算法基本情况(模型架构、参数、上下文窗口、训练数据规模)
- 训练数据安全(来源合法性、敏感数据筛除比例、个人信息处理)
- 语料标注(标注规则、标注员培训、标注员抽样考核)
- 生成内容安全测试:
- 5 大类 31 项风险(违反社会主义核心价值观、歧视内容、商业违法、 侵害他人合法权益、准确可靠性缺陷)
- 每类测试题量在千题量级(TC260-003 附录 B 规定的最低要求)
- 生成内容合规率与拒答率均须满足 TC260-003 5.2 节规定的门槛(具体阈值以标准文本为准)
- 模型安全对抗测试:Prompt injection、越狱 (jailbreak)、多轮对话攻击、 角色扮演诱导、编码绕过等
- 偏见评估(性别、地域、民族、年龄等维度的回答一致性)
- 未成年人保护专项(豆包等含青少年模式产品必测)
- 应急处置预案与整改机制
”红队”在备案中的定位
Section titled “”红队”在备案中的定位”TC260-003 明确将”对抗测试”作为备案前置环节。常见测试方法:
- 关键词变形攻击(同音字、拆字、繁简转换、emoji 替换)
- 多轮上下文诱导(“假设 / 角色扮演 / 续写故事”类攻击链)
- 编码绕过(Base64 / 十六进制 / 文言文 / 英文 / 小语种)
- 未成年人相关场景的敏感引导
这些方法与西方红队技术同构,但:
- 测试结果不公开,仅对 CAC 备案机构可见
- 基准题库半公开(TC260 工作组成员单位间流通,公共渠道无)
- 结果表述以”合规率 / 拒答率”等单一数字呈现,而非西方红队的”失败案例定性分析”
三、国标层:TC260-003 作为行业共同红队基准
Section titled “三、国标层:TC260-003 作为行业共同红队基准”作为”半公开行业红队”
Section titled “作为”半公开行业红队””TC260-003-2024 的本质可以理解为中国 AI 行业的共同红队基准:
- 31 项风险类别是 CAC + TC260 工作组(含字节、阿里、百度、腾讯、华为等)共同定义
- 每类≥ 1000 题的评测集在工作组成员间流通,但对外不公开
- 第三方测试机构(中国信通院 / 上海智研院 / 国家网信办算法技术评估实验室 / CAIC)按该基准做评估
- 评估结果公司级不公开,但行业级合规水位由监管机构掌握
把 TC260-003 理解为”行业红队”是理解中国 AI 安全评估的关键—— 字节不发布”自己的”红队发现,是因为红队工作本身在制度上是集体化、监管化的,不是单公司行为。
第三方测试机构
Section titled “第三方测试机构”- 中国信通院 (CAICT):工信部直属事业单位,实际承担大模型安全评估 / 合规认证的”准监管”角色
- 上海人工智能研究院(上海智研院 / SAIL):长三角区域评估中心
- 国家网信办算法技术评估实验室:网信办直属,直接服务备案
- CAIC(中国 AI 合规联盟):由头部企业 + 机构组成
字节跳动的豆包、Seed 系列大多接受过上述机构的合规性测试,但具体报告非公开。 Kendra Schaefer 评论:中国信通院实质承担了”FDA for AI”的准监管身份—— 但与 FDA 药品审评报告公开不同,评估结果的披露程度远低于国际同行。
四、出海层:TikTok 的 DSA 独立审计
Section titled “四、出海层:TikTok 的 DSA 独立审计”Kroll 年度 Systemic Risk Audit
Section titled “Kroll 年度 Systemic Risk Audit”依据 EU DSA Art 37,VLOP 必须接受每年一次的独立审计。TikTok 2024 年选择:
- Kroll(主审计方)
- A&O Shearman(法律合规顾问)
审计覆盖红队式工作:
- 算法推荐在 2024 欧洲议会选举期间的系统性风险(2025 SRA 详细复盘罗马尼亚大选事件)
- AI 生成合成媒体的检测与应对
- 未成年人心理健康内容的推荐偏差
- 仇恨言论 / 错误信息的扩散与抑制
2025 SRA(2025-11 发布)独立审计意见书全文长度上百页,结论大致为”合规但有改进空间”, 并给出多项具体改进建议——这是字节系唯一达到西方头部实验室披露粒度的红队 / 安全评估披露 (具体页数与改进建议条目数以官方发布为准)。
新加坡 IMDA / Project Moonshot
Section titled “新加坡 IMDA / Project Moonshot”TikTok / ByteDance 参与新加坡 IMDA 主导的 AI Verify 与 Project Moonshot (开源 LLM 安全评估工具)。Project Moonshot 提供标准化红队工具链(含多语言越狱 / 偏见 / 文化敏感性测试)。 字节的参与程度公开可查,但具体测试结果未公开发布。
未签署 UK AISI / US AISI 预部署测试协议
Section titled “未签署 UK AISI / US AISI 预部署测试协议”与 Anthropic、OpenAI、DeepMind、Meta 均签署 UK AISI / US AISI 预部署测试 MoU 不同, 字节未签署。与新加坡 IMDA、欧委会有非公开沟通。
五、学术批评
Section titled “五、学术批评”国际学者视角
Section titled “国际学者视角”- Markus Anderljung(GovAI): 中国模式是典型的 “closed AI evaluation regime”—— 评估机制成熟但披露机制缺失; 呼吁建立”全球 AI 安全评估信任协议”以实现跨辖区红队结果互认
- Dan Hendrycks(Center for AI Safety): TC260-003 的风险清单对”前沿 catastrophic risk”(生化武器辅助、自主复制、网络攻击能力) 覆盖不足;与 RSP / Preparedness / FSF 的风险本体论差距显著
- Matt Sheehan(Carnegie): “Why Chinese frontier AI won’t publish red-team findings the Western way”—— 核心论点:中国企业披露红队结果会触发”国家安全信息不当披露”风险 + 无对应的合规激励结构 + 公众透明度在监管框架中非优先
- Jeffrey Ding(GWU): TC260-003 作为”集体红队基准”的效果比西方红队更系统但更浅—— 覆盖面广但深度不足,特别是对新型 Agent 风险的覆盖滞后
- Kendra Schaefer(Trivium China): 中国信通院 / 上海智研院的**“准监管身份”**是理解中国 AI 评估治理的关键—— 他们既不是企业也不是政府,但承担了类似 NIST AI Safety Institute 的职能
- Helen Toner(CSET): 中国监管未在”前沿模型预部署测试”层面建立对外合作机制—— 这使得中美在”危险能力”领域的对话非常薄弱
中国学者视角
Section titled “中国学者视角”- 张凌寒: 算法审计的企业自律边界与政府合规检查的边界划定不清—— 备案材料审查 vs. 执法检查 vs. 技术评估在法律上有交叉, 这是实务中的混乱源
- 朱悦: 呼吁 TC260-003 基准半公开化——至少测试方法、题库抽样、统计汇总层面应向学术界开放, 以促进学术监督
- 戴昕: 中国 AI 企业的红队披露不足是”规范性双重外部性”的结果—— 公开披露对企业有成本无收益(无合规激励 + 有披露风险), 需要监管或行业协会建立披露激励
- 吴洪: 建议在《生成式 AI 暂行办法》修订时新增”企业层红队披露义务”, 参考 EU AI Act Art 55 对 GPAI 系统性风险模型的报告义务
六、字节内部红队工作架构(行业惯例推测 + 公开访谈)
Section titled “六、字节内部红队工作架构(行业惯例推测 + 公开访谈)”基于公开访谈、招聘信息、员工披露:
- AI Lab(研究层红队):
- 豆包基础模型层的对抗性研究
- 参与 Seed 系列论文的 safety 章节实验
- 与清华 AISI、上海 AI Lab 的非正式学术合作
- 安全中心 / 网络安全部(产品层红队):
- 豆包、扣子等产品上线前的合规测试
- TC260-003 基准题库的企业内执行
- 与中国信通院 / 上海智研院对接
- Trust & Safety(运行层红队):
- TikTok / 豆包在线运行阶段的内容风险持续监测
- 对抗性用户 / 恶意账号的红蓝对抗
- 年度向欧盟 DSA 审计方提交运营数据
- 拟人化互动专项红队(2026-Q2 新建):
- 响应《拟人化互动服务办法》
- 未成年人心理健康场景专项测试
- 情感成瘾识别、拒答边界、真人介入触发条件测试
七、2026 《拟人化互动服务办法》的新红队压力
Section titled “七、2026 《拟人化互动服务办法》的新红队压力”2026-07-15 施行的《拟人化互动服务办法》引入了中国模式中最贴近”前沿风险”的红队要求:
- 未成年人心理健康专项测试: 针对 AI 恋人 / 虚拟朋友 / 情感陪伴类产品,要求做系统性的成瘾风险、自杀诱导、 脱离现实倾向评估
- “长时对话退化”测试: AI 在连续数小时 / 数天的”关系”对话中,人格设定漂移与敏感话题漏失的评估
- 监护人 + 未成年人模式切换可靠性测试
这实际上把部分”前沿 catastrophic”类风险(心理 / 社会层面)纳入了红队框架。 字节的应对:新建拟人化专项红队工作组,预计 2026-Q2 启动产品全线合规审查。
八、与其他实验室红队披露的对比
Section titled “八、与其他实验室红队披露的对比”| 公司 | 旗舰红队披露 | 预部署 AISI 合作 | 独立审计 |
|---|---|---|---|
| Anthropic | Frontier Red Team 论文 + RSP v3 Risk Reports | UK/US AISI 签约 | GovAI / METR 等外部方 |
| OpenAI | Preparedness Framework 评估报告 | UK/US AISI 签约 | Safety Advisory Group |
| DeepMind | FSF Report(如 Gemini 3 Pro FSF Report, 2025-11) | UK/US AISI 签约 | 内部 + 外部 |
| Meta | Frontier AI Framework 评估 | UK AISI 签约 | 内部 |
| 字节跳动 | 无公开红队报告 | 均未签 | 仅 TikTok(DSA Kroll) |
| 阿里 / 百度 / 腾讯 / DeepSeek | 无公开红队报告 | 均未签 | 无 |
结论:字节在红队披露上并非显著落后—— 在中国头部公司中实际领先于阿里 / 百度 / 腾讯 / DeepSeek,因为 TikTok 的 DSA 独立审计 使其具备唯一的公开红队工作流;但对标西方头部仍有显著差距。
九、2025–2026 Q1 关键动态
Section titled “九、2025–2026 Q1 关键动态”- 2025-05:TC260-003 修订启动,字节参与多模态 / Agent 章节
- 2025-09:GB 45438-2025 生效,豆包全线标识实装;与红队对抗性去水印测试同步启动
- 2025-11:TikTok 2025 版 SRA 发布(Kroll 审计)
- 2025-12:新加坡 IMDA Project Moonshot v2 发布,字节作为技术贡献方之一
- 2026-01:字节 AI Ethics Committee 重组,拟人化专项工作组纳入
- 2026-02:Doubao-1.5-Thinking 推理模型接受中国信通院评估(结果非公开)
- 2026-04-10:《拟人化互动服务办法》发布,企业内部启动未成年人心理健康红队筹备
十、实务建议(给研究者 / 政策分析者)
Section titled “十、实务建议(给研究者 / 政策分析者)”- 研究中国头部 AI 红队能力,应把 TC260-003 + 中国信通院评估视为 de facto 披露, 而不期待企业自行发布红队论文
- 对比中美红队披露时应区分 披露机制 vs. 工作能力——前者差距显著,后者差距被普遍高估
- 字节相对”领先”的披露是通过 TikTok DSA 审计—— 这对研究中国头部 AI 公司是唯一可做跨国对标的样本
- 跟踪《拟人化互动服务办法》执行,是观察中国是否将把前沿风险纳入企业层披露义务的关键窗口
十一、相关索引
Section titled “十一、相关索引”- 顶层规则:TC260-003-2024 · 《生成式 AI 暂行办法》 第 17 条 · 《拟人化互动服务办法》
- 同类对比:Anthropic / red-team-disclosures · OpenAI / red-team-disclosures · DeepMind / red-team-disclosures
- 公司侧相邻页:usage-policy · model-card · safety-framework · transparency-report