红队与评估披露

字节跳动没有公开发布过 Anthropic Frontier Red Team 论文、OpenAI Preparedness 评估报告、 DeepMind FSF Report 意义上的”红队披露”。这是中国头部前沿实验室的共同特征。但这并不意味着红队工作缺失—— 真实红队活动以三层形式存在：备案材料（不公开）+ TC260 基准（半公开）+ DSA 独立审计（海外公开）。

一、红队披露的三层结构

层	披露对象	披露形态	公共可见性
备案层	CAC / 网信办	《算法安全自评估报告》+《模型安全测试报告》	不公开
国标层	TC260 + 中国信通院 / 上海智研院 / 国家网信办算法技术评估实验室	TC260-003 31 项风险类别测试记录；CAIC（中国 AI 合规联盟）评估	半公开（基准公开，结果总量汇总，公司级结果不公开）
出海层	EU DSA 独立审计 + 新加坡 IMDA 沟通	Kroll 年度 SRA；IMDA AI Verify / Project Moonshot 参与	公开

二、备案层：CAC 备案中的《算法安全自评估报告》

结构与内容

依据《生成式人工智能服务管理暂行办法》第 17 条 + CAC《生成式 AI 服务备案相关材料清单》

TC260-003-2024 附录 B，《算法安全自评估报告》的典型结构：

算法基本情况（模型架构、参数、上下文窗口、训练数据规模）
训练数据安全（来源合法性、敏感数据筛除比例、个人信息处理）
语料标注（标注规则、标注员培训、标注员抽样考核）
生成内容安全测试：

5 大类 31 项风险（违反社会主义核心价值观、歧视内容、商业违法、侵害他人合法权益、准确可靠性缺陷）
每类测试题量在千题量级（TC260-003 附录 B 规定的最低要求）
生成内容合规率与拒答率均须满足 TC260-003 5.2 节规定的门槛（具体阈值以标准文本为准）

模型安全对抗测试：Prompt injection、越狱 (jailbreak)、多轮对话攻击、角色扮演诱导、编码绕过等
偏见评估（性别、地域、民族、年龄等维度的回答一致性）
未成年人保护专项（豆包等含青少年模式产品必测）
应急处置预案与整改机制

”红队”在备案中的定位

TC260-003 明确将”对抗测试”作为备案前置环节。常见测试方法：

关键词变形攻击（同音字、拆字、繁简转换、emoji 替换）
多轮上下文诱导（“假设 / 角色扮演 / 续写故事”类攻击链）
编码绕过（Base64 / 十六进制 / 文言文 / 英文 / 小语种）
未成年人相关场景的敏感引导

这些方法与西方红队技术同构，但：

测试结果不公开，仅对 CAC 备案机构可见
基准题库半公开（TC260 工作组成员单位间流通，公共渠道无）
结果表述以”合规率 / 拒答率”等单一数字呈现，而非西方红队的”失败案例定性分析”

三、国标层：TC260-003 作为行业共同红队基准

作为”半公开行业红队”

TC260-003-2024 的本质可以理解为中国 AI 行业的共同红队基准：

31 项风险类别是 CAC + TC260 工作组（含字节、阿里、百度、腾讯、华为等）共同定义
每类≥ 1000 题的评测集在工作组成员间流通，但对外不公开
第三方测试机构（中国信通院 / 上海智研院 / 国家网信办算法技术评估实验室 / CAIC）按该基准做评估
评估结果公司级不公开，但行业级合规水位由监管机构掌握

把 TC260-003 理解为”行业红队”是理解中国 AI 安全评估的关键—— 字节不发布”自己的”红队发现，是因为红队工作本身在制度上是集体化、监管化的，不是单公司行为。

第三方测试机构

中国信通院 (CAICT)：工信部直属事业单位，实际承担大模型安全评估 / 合规认证的”准监管”角色
上海人工智能研究院（上海智研院 / SAIL）：长三角区域评估中心
国家网信办算法技术评估实验室：网信办直属，直接服务备案
CAIC（中国 AI 合规联盟）：由头部企业 + 机构组成

字节跳动的豆包、Seed 系列大多接受过上述机构的合规性测试，但具体报告非公开。 Kendra Schaefer 评论：中国信通院实质承担了”FDA for AI”的准监管身份—— 但与 FDA 药品审评报告公开不同，评估结果的披露程度远低于国际同行。

四、出海层：TikTok 的 DSA 独立审计

Kroll 年度 Systemic Risk Audit

依据 EU DSA Art 37，VLOP 必须接受每年一次的独立审计。TikTok 2024 年选择：

Kroll（主审计方）
A&O Shearman（法律合规顾问）

审计覆盖红队式工作：

算法推荐在 2024 欧洲议会选举期间的系统性风险（2025 SRA 详细复盘罗马尼亚大选事件）
AI 生成合成媒体的检测与应对
未成年人心理健康内容的推荐偏差
仇恨言论 / 错误信息的扩散与抑制

2025 SRA（2025-11 发布）独立审计意见书全文长度上百页，结论大致为”合规但有改进空间”，并给出多项具体改进建议——这是字节系唯一达到西方头部实验室披露粒度的红队 / 安全评估披露 （具体页数与改进建议条目数以官方发布为准）。

新加坡 IMDA / Project Moonshot

TikTok / ByteDance 参与新加坡 IMDA 主导的 AI Verify 与 Project Moonshot （开源 LLM 安全评估工具）。Project Moonshot 提供标准化红队工具链（含多语言越狱 / 偏见 / 文化敏感性测试）。字节的参与程度公开可查，但具体测试结果未公开发布。

未签署 UK AISI / US AISI 预部署测试协议

与 Anthropic、OpenAI、DeepMind、Meta 均签署 UK AISI / US AISI 预部署测试 MoU 不同， 字节未签署。与新加坡 IMDA、欧委会有非公开沟通。

五、学术批评

国际学者视角

Markus Anderljung（GovAI）：中国模式是典型的 “closed AI evaluation regime”—— 评估机制成熟但披露机制缺失；呼吁建立”全球 AI 安全评估信任协议”以实现跨辖区红队结果互认
Dan Hendrycks（Center for AI Safety）： TC260-003 的风险清单对”前沿 catastrophic risk”（生化武器辅助、自主复制、网络攻击能力） 覆盖不足；与 RSP / Preparedness / FSF 的风险本体论差距显著
Matt Sheehan（Carnegie）： “Why Chinese frontier AI won’t publish red-team findings the Western way”—— 核心论点：中国企业披露红队结果会触发”国家安全信息不当披露”风险 + 无对应的合规激励结构 + 公众透明度在监管框架中非优先
Jeffrey Ding（GWU）： TC260-003 作为”集体红队基准”的效果比西方红队更系统但更浅—— 覆盖面广但深度不足，特别是对新型 Agent 风险的覆盖滞后
Kendra Schaefer（Trivium China）：中国信通院 / 上海智研院的**“准监管身份”**是理解中国 AI 评估治理的关键—— 他们既不是企业也不是政府，但承担了类似 NIST AI Safety Institute 的职能
Helen Toner（CSET）：中国监管未在”前沿模型预部署测试”层面建立对外合作机制—— 这使得中美在”危险能力”领域的对话非常薄弱

中国学者视角

张凌寒：算法审计的企业自律边界与政府合规检查的边界划定不清—— 备案材料审查 vs. 执法检查 vs. 技术评估在法律上有交叉，这是实务中的混乱源
朱悦：呼吁 TC260-003 基准半公开化——至少测试方法、题库抽样、统计汇总层面应向学术界开放，以促进学术监督
戴昕：中国 AI 企业的红队披露不足是”规范性双重外部性”的结果—— 公开披露对企业有成本无收益（无合规激励 + 有披露风险），需要监管或行业协会建立披露激励
吴洪：建议在《生成式 AI 暂行办法》修订时新增”企业层红队披露义务”，参考 EU AI Act Art 55 对 GPAI 系统性风险模型的报告义务

六、字节内部红队工作架构（行业惯例推测 + 公开访谈）

基于公开访谈、招聘信息、员工披露：

AI Lab（研究层红队）：

豆包基础模型层的对抗性研究
参与 Seed 系列论文的 safety 章节实验
与清华 AISI、上海 AI Lab 的非正式学术合作

安全中心 / 网络安全部（产品层红队）：

豆包、扣子等产品上线前的合规测试
TC260-003 基准题库的企业内执行
与中国信通院 / 上海智研院对接

Trust & Safety（运行层红队）：

TikTok / 豆包在线运行阶段的内容风险持续监测
对抗性用户 / 恶意账号的红蓝对抗
年度向欧盟 DSA 审计方提交运营数据

拟人化互动专项红队（2026-Q2 新建）：

响应《拟人化互动服务办法》
未成年人心理健康场景专项测试
情感成瘾识别、拒答边界、真人介入触发条件测试

七、2026 《拟人化互动服务办法》的新红队压力

2026-07-15 施行的《拟人化互动服务办法》引入了中国模式中最贴近”前沿风险”的红队要求：

未成年人心理健康专项测试：针对 AI 恋人 / 虚拟朋友 / 情感陪伴类产品，要求做系统性的成瘾风险、自杀诱导、脱离现实倾向评估
“长时对话退化”测试： AI 在连续数小时 / 数天的”关系”对话中，人格设定漂移与敏感话题漏失的评估
监护人 + 未成年人模式切换可靠性测试

这实际上把部分”前沿 catastrophic”类风险（心理 / 社会层面）纳入了红队框架。字节的应对：新建拟人化专项红队工作组，预计 2026-Q2 启动产品全线合规审查。

八、与其他实验室红队披露的对比

公司	旗舰红队披露	预部署 AISI 合作	独立审计
Anthropic	Frontier Red Team 论文 + RSP v3 Risk Reports	UK/US AISI 签约	GovAI / METR 等外部方
OpenAI	Preparedness Framework 评估报告	UK/US AISI 签约	Safety Advisory Group
DeepMind	FSF Report（如 Gemini 3 Pro FSF Report, 2025-11）	UK/US AISI 签约	内部 + 外部
Meta	Frontier AI Framework 评估	UK AISI 签约	内部
字节跳动	无公开红队报告	均未签	仅 TikTok（DSA Kroll）
阿里 / 百度 / 腾讯 / DeepSeek	无公开红队报告	均未签	无

结论：字节在红队披露上并非显著落后—— 在中国头部公司中实际领先于阿里 / 百度 / 腾讯 / DeepSeek，因为 TikTok 的 DSA 独立审计使其具备唯一的公开红队工作流；但对标西方头部仍有显著差距。

九、2025–2026 Q1 关键动态

2025-05：TC260-003 修订启动，字节参与多模态 / Agent 章节
2025-09：GB 45438-2025 生效，豆包全线标识实装；与红队对抗性去水印测试同步启动
2025-11：TikTok 2025 版 SRA 发布（Kroll 审计）
2025-12：新加坡 IMDA Project Moonshot v2 发布，字节作为技术贡献方之一
2026-01：字节 AI Ethics Committee 重组，拟人化专项工作组纳入
2026-02：Doubao-1.5-Thinking 推理模型接受中国信通院评估（结果非公开）
2026-04-10：《拟人化互动服务办法》发布，企业内部启动未成年人心理健康红队筹备

十、实务建议（给研究者 / 政策分析者）

研究中国头部 AI 红队能力，应把 TC260-003 + 中国信通院评估视为 de facto 披露，而不期待企业自行发布红队论文
对比中美红队披露时应区分 披露机制 vs. 工作能力——前者差距显著，后者差距被普遍高估
字节相对”领先”的披露是通过 TikTok DSA 审计—— 这对研究中国头部 AI 公司是唯一可做跨国对标的样本
跟踪《拟人化互动服务办法》执行，是观察中国是否将把前沿风险纳入企业层披露义务的关键窗口

十一、相关索引

顶层规则：TC260-003-2024 · 《生成式 AI 暂行办法》第 17 条 · 《拟人化互动服务办法》
同类对比：Anthropic / red-team-disclosures · OpenAI / red-team-disclosures · DeepMind / red-team-disclosures
公司侧相邻页：usage-policy · model-card · safety-framework · transparency-report