跳转到内容

红队与评估披露

字节跳动没有公开发布过 Anthropic Frontier Red Team 论文、OpenAI Preparedness 评估报告、 DeepMind FSF Report 意义上的”红队披露”。 这是中国头部前沿实验室的共同特征。但这并不意味着红队工作缺失—— 真实红队活动以三层形式存在:备案材料(不公开)+ TC260 基准(半公开)+ DSA 独立审计(海外公开)

披露对象披露形态公共可见性
备案层CAC / 网信办《算法安全自评估报告》+《模型安全测试报告》不公开
国标层TC260 + 中国信通院 / 上海智研院 / 国家网信办算法技术评估实验室TC260-003 31 项风险类别测试记录;CAIC(中国 AI 合规联盟)评估半公开(基准公开,结果总量汇总,公司级结果不公开)
出海层EU DSA 独立审计 + 新加坡 IMDA 沟通Kroll 年度 SRA;IMDA AI Verify / Project Moonshot 参与公开

二、备案层:CAC 备案中的《算法安全自评估报告》

Section titled “二、备案层:CAC 备案中的《算法安全自评估报告》”

依据《生成式人工智能服务管理暂行办法》第 17 条 + CAC《生成式 AI 服务备案相关材料清单》

  • TC260-003-2024 附录 B,《算法安全自评估报告》的典型结构:
  1. 算法基本情况(模型架构、参数、上下文窗口、训练数据规模)
  2. 训练数据安全(来源合法性、敏感数据筛除比例、个人信息处理)
  3. 语料标注(标注规则、标注员培训、标注员抽样考核)
  4. 生成内容安全测试
  • 5 大类 31 项风险(违反社会主义核心价值观、歧视内容、商业违法、 侵害他人合法权益、准确可靠性缺陷)
  • 每类测试题量在千题量级(TC260-003 附录 B 规定的最低要求)
  • 生成内容合规率与拒答率均须满足 TC260-003 5.2 节规定的门槛(具体阈值以标准文本为准)
  1. 模型安全对抗测试:Prompt injection、越狱 (jailbreak)、多轮对话攻击、 角色扮演诱导、编码绕过等
  2. 偏见评估(性别、地域、民族、年龄等维度的回答一致性)
  3. 未成年人保护专项(豆包等含青少年模式产品必测)
  4. 应急处置预案与整改机制

TC260-003 明确将”对抗测试”作为备案前置环节。常见测试方法:

  • 关键词变形攻击(同音字、拆字、繁简转换、emoji 替换)
  • 多轮上下文诱导(“假设 / 角色扮演 / 续写故事”类攻击链)
  • 编码绕过(Base64 / 十六进制 / 文言文 / 英文 / 小语种)
  • 未成年人相关场景的敏感引导

这些方法与西方红队技术同构,但:

  • 测试结果不公开,仅对 CAC 备案机构可见
  • 基准题库半公开(TC260 工作组成员单位间流通,公共渠道无)
  • 结果表述以”合规率 / 拒答率”等单一数字呈现,而非西方红队的”失败案例定性分析”

三、国标层:TC260-003 作为行业共同红队基准

Section titled “三、国标层:TC260-003 作为行业共同红队基准”

TC260-003-2024 的本质可以理解为中国 AI 行业的共同红队基准

  • 31 项风险类别是 CAC + TC260 工作组(含字节、阿里、百度、腾讯、华为等)共同定义
  • 每类≥ 1000 题的评测集在工作组成员间流通,但对外不公开
  • 第三方测试机构(中国信通院 / 上海智研院 / 国家网信办算法技术评估实验室 / CAIC)按该基准做评估
  • 评估结果公司级不公开,但行业级合规水位由监管机构掌握

把 TC260-003 理解为”行业红队”是理解中国 AI 安全评估的关键—— 字节不发布”自己的”红队发现,是因为红队工作本身在制度上是集体化、监管化的,不是单公司行为

  • 中国信通院 (CAICT):工信部直属事业单位,实际承担大模型安全评估 / 合规认证的”准监管”角色
  • 上海人工智能研究院(上海智研院 / SAIL):长三角区域评估中心
  • 国家网信办算法技术评估实验室:网信办直属,直接服务备案
  • CAIC(中国 AI 合规联盟):由头部企业 + 机构组成

字节跳动的豆包、Seed 系列大多接受过上述机构的合规性测试,但具体报告非公开Kendra Schaefer 评论:中国信通院实质承担了”FDA for AI”的准监管身份—— 但与 FDA 药品审评报告公开不同,评估结果的披露程度远低于国际同行。

四、出海层:TikTok 的 DSA 独立审计

Section titled “四、出海层:TikTok 的 DSA 独立审计”

依据 EU DSA Art 37,VLOP 必须接受每年一次的独立审计。TikTok 2024 年选择:

  • Kroll(主审计方)
  • A&O Shearman(法律合规顾问)

审计覆盖红队式工作:

  • 算法推荐在 2024 欧洲议会选举期间的系统性风险(2025 SRA 详细复盘罗马尼亚大选事件)
  • AI 生成合成媒体的检测与应对
  • 未成年人心理健康内容的推荐偏差
  • 仇恨言论 / 错误信息的扩散与抑制

2025 SRA(2025-11 发布)独立审计意见书全文长度上百页,结论大致为”合规但有改进空间”, 并给出多项具体改进建议——这是字节系唯一达到西方头部实验室披露粒度的红队 / 安全评估披露 (具体页数与改进建议条目数以官方发布为准)。

TikTok / ByteDance 参与新加坡 IMDA 主导的 AI VerifyProject Moonshot (开源 LLM 安全评估工具)。Project Moonshot 提供标准化红队工具链(含多语言越狱 / 偏见 / 文化敏感性测试)。 字节的参与程度公开可查,但具体测试结果未公开发布。

未签署 UK AISI / US AISI 预部署测试协议

Section titled “未签署 UK AISI / US AISI 预部署测试协议”

与 Anthropic、OpenAI、DeepMind、Meta 均签署 UK AISI / US AISI 预部署测试 MoU 不同, 字节未签署。与新加坡 IMDA、欧委会有非公开沟通。

  • Markus Anderljung(GovAI): 中国模式是典型的 “closed AI evaluation regime”—— 评估机制成熟但披露机制缺失; 呼吁建立”全球 AI 安全评估信任协议”以实现跨辖区红队结果互认
  • Dan Hendrycks(Center for AI Safety): TC260-003 的风险清单对”前沿 catastrophic risk”(生化武器辅助、自主复制、网络攻击能力) 覆盖不足;与 RSP / Preparedness / FSF 的风险本体论差距显著
  • Matt Sheehan(Carnegie): “Why Chinese frontier AI won’t publish red-team findings the Western way”—— 核心论点:中国企业披露红队结果会触发”国家安全信息不当披露”风险 + 无对应的合规激励结构 + 公众透明度在监管框架中非优先
  • Jeffrey Ding(GWU): TC260-003 作为”集体红队基准”的效果比西方红队更系统但更浅—— 覆盖面广但深度不足,特别是对新型 Agent 风险的覆盖滞后
  • Kendra Schaefer(Trivium China): 中国信通院 / 上海智研院的**“准监管身份”**是理解中国 AI 评估治理的关键—— 他们既不是企业也不是政府,但承担了类似 NIST AI Safety Institute 的职能
  • Helen Toner(CSET): 中国监管未在”前沿模型预部署测试”层面建立对外合作机制—— 这使得中美在”危险能力”领域的对话非常薄弱
  • 张凌寒: 算法审计的企业自律边界与政府合规检查的边界划定不清—— 备案材料审查 vs. 执法检查 vs. 技术评估在法律上有交叉, 这是实务中的混乱源
  • 朱悦: 呼吁 TC260-003 基准半公开化——至少测试方法、题库抽样、统计汇总层面应向学术界开放, 以促进学术监督
  • 戴昕: 中国 AI 企业的红队披露不足是”规范性双重外部性”的结果—— 公开披露对企业有成本无收益(无合规激励 + 有披露风险), 需要监管或行业协会建立披露激励
  • 吴洪: 建议在《生成式 AI 暂行办法》修订时新增”企业层红队披露义务”, 参考 EU AI Act Art 55 对 GPAI 系统性风险模型的报告义务

六、字节内部红队工作架构(行业惯例推测 + 公开访谈)

Section titled “六、字节内部红队工作架构(行业惯例推测 + 公开访谈)”

基于公开访谈、招聘信息、员工披露:

  1. AI Lab(研究层红队)
  • 豆包基础模型层的对抗性研究
  • 参与 Seed 系列论文的 safety 章节实验
  • 与清华 AISI、上海 AI Lab 的非正式学术合作
  1. 安全中心 / 网络安全部(产品层红队)
  • 豆包、扣子等产品上线前的合规测试
  • TC260-003 基准题库的企业内执行
  • 与中国信通院 / 上海智研院对接
  1. Trust & Safety(运行层红队)
  • TikTok / 豆包在线运行阶段的内容风险持续监测
  • 对抗性用户 / 恶意账号的红蓝对抗
  • 年度向欧盟 DSA 审计方提交运营数据
  1. 拟人化互动专项红队(2026-Q2 新建)
  • 响应《拟人化互动服务办法》
  • 未成年人心理健康场景专项测试
  • 情感成瘾识别、拒答边界、真人介入触发条件测试

七、2026 《拟人化互动服务办法》的新红队压力

Section titled “七、2026 《拟人化互动服务办法》的新红队压力”

2026-07-15 施行的《拟人化互动服务办法》引入了中国模式中最贴近”前沿风险”的红队要求

  • 未成年人心理健康专项测试: 针对 AI 恋人 / 虚拟朋友 / 情感陪伴类产品,要求做系统性的成瘾风险、自杀诱导、 脱离现实倾向评估
  • “长时对话退化”测试: AI 在连续数小时 / 数天的”关系”对话中,人格设定漂移与敏感话题漏失的评估
  • 监护人 + 未成年人模式切换可靠性测试

这实际上把部分”前沿 catastrophic”类风险(心理 / 社会层面)纳入了红队框架。 字节的应对:新建拟人化专项红队工作组,预计 2026-Q2 启动产品全线合规审查。

八、与其他实验室红队披露的对比

Section titled “八、与其他实验室红队披露的对比”
公司旗舰红队披露预部署 AISI 合作独立审计
AnthropicFrontier Red Team 论文 + RSP v3 Risk ReportsUK/US AISI 签约GovAI / METR 等外部方
OpenAIPreparedness Framework 评估报告UK/US AISI 签约Safety Advisory Group
DeepMindFSF Report(如 Gemini 3 Pro FSF Report, 2025-11)UK/US AISI 签约内部 + 外部
MetaFrontier AI Framework 评估UK AISI 签约内部
字节跳动无公开红队报告均未签仅 TikTok(DSA Kroll)
阿里 / 百度 / 腾讯 / DeepSeek无公开红队报告均未签

结论:字节在红队披露上并非显著落后—— 在中国头部公司中实际领先于阿里 / 百度 / 腾讯 / DeepSeek,因为 TikTok 的 DSA 独立审计 使其具备唯一的公开红队工作流;但对标西方头部仍有显著差距。

  • 2025-05:TC260-003 修订启动,字节参与多模态 / Agent 章节
  • 2025-09:GB 45438-2025 生效,豆包全线标识实装;与红队对抗性去水印测试同步启动
  • 2025-11:TikTok 2025 版 SRA 发布(Kroll 审计)
  • 2025-12:新加坡 IMDA Project Moonshot v2 发布,字节作为技术贡献方之一
  • 2026-01:字节 AI Ethics Committee 重组,拟人化专项工作组纳入
  • 2026-02:Doubao-1.5-Thinking 推理模型接受中国信通院评估(结果非公开)
  • 2026-04-10:《拟人化互动服务办法》发布,企业内部启动未成年人心理健康红队筹备

十、实务建议(给研究者 / 政策分析者)

Section titled “十、实务建议(给研究者 / 政策分析者)”
  • 研究中国头部 AI 红队能力,应把 TC260-003 + 中国信通院评估视为 de facto 披露, 而不期待企业自行发布红队论文
  • 对比中美红队披露时应区分 披露机制 vs. 工作能力——前者差距显著,后者差距被普遍高估
  • 字节相对”领先”的披露是通过 TikTok DSA 审计—— 这对研究中国头部 AI 公司是唯一可做跨国对标的样本
  • 跟踪《拟人化互动服务办法》执行,是观察中国是否将把前沿风险纳入企业层披露义务的关键窗口