跳转到内容

安全框架

字节跳动没有一份对标 Anthropic RSP v3、OpenAI Preparedness v2、DeepMind FSF v3 的独立”前沿 AI 安全框架”文档。 这是中国头部 AI 公司的共同特征。本页要说的核心结论: 不是字节在安全框架上”缺位”,而是企业层安全被国家层吸收——国家监管把风险管理位阶提高到了行业/国家层面, 企业层的”自律文档”在制度上变得冗余。

一、字节 AI 安全的制度架构(2026-04 视角)

Section titled “一、字节 AI 安全的制度架构(2026-04 视角)”
内容对接规则
算法备案层豆包、扣子、火山方舟等产品的 CAC 备案 + 变更备案《生成式 AI 暂行办法》 第 17 条、《算法推荐规定》
国标合规层TC260-003 (基本要求) + GB 45438-2025 (标识) 全线合规TC260-003-2024 · GB 45438-2025
治理框架对齐层《人工智能安全治理框架》1.0 / 2.0 指引企业层执行安全治理框架 1.0/2.0
出海合规层TikTok DSA Art 34 系统性风险评估;CapCut C2PA;按辖区本地化 Trust & SafetyEU DSA、加州 AB 2013 / 2655、新加坡 IMDA Model AI Governance Framework 等

党委 + 合规部 + Trust & Safety 三层

Section titled “党委 + 合规部 + Trust & Safety 三层”

依据字节 2024 起正式设立党委后的公开信息 + 行业访谈,企业层安全治理大致结构:

  1. 党委(顶层方向): 重大技术路线(如开源/闭源)、价值观对齐、涉敏话题红线—— 参考 Olivia 毕业论文《中国 AI 企业党委对算法价值观的嵌入机制》中提出的 **“党委—算法—产品三级协同”**观察
  2. 网络安全合规部 / 法务: CAC / 工信部 / 公安部多头对接;备案材料准备;专项执法响应;跨境合规
  3. AI Ethics Committee(2024 设立): 跨部门议事机构,典型成员包括 AI Lab 研究负责人、法务总监、Trust & Safety 负责人、 内部独立审计。重大产品上线前过会(如豆包”虚拟朋友”2025-Q4 上线前明确过会)
  4. Trust & Safety: 数千人规模的国内 + 海外审核与内容安全团队;国内主要在天津 / 成都 / 济南; 海外在都柏林 / 洛杉矶 / 新加坡 / 伦敦

二、没有 RSP:与前沿实验室的结构对比

Section titled “二、没有 RSP:与前沿实验室的结构对比”
维度Anthropic RSP v3 (2026-02)OpenAI Preparedness v2DeepMind FSF v3字节跳动
框架形态公司自律文档公司自律文档公司自律文档无独立文档
风险分级ASL-2/3/4High / CriticalCCL / TCL无公司层级(由国家 GB 39724、TC260-003 代偿)
能力阈值公开公开公开无公开阈值
外部审查第三方审查员(GovAI / MATS / METR)Safety Advisory GroupFSF ReportCAC + 中国信通院 + 国家网信办技术评估实验室(半监管第三方)
Pause 承诺v3 已撤销措辞弱不适用(监管可强制下线)
前沿自愿合作签 2023 美国自愿承诺 + UK AISI MoU + GPAI CoP均未签

关键观察:西方”公司自律 → 外部审查 → 监管压力”三段式,在中国被压缩成**“监管直接主导 → 企业执行”两段式**。 前沿模型层面没有公司自律文档,并非意味着安全工作缺失,而是制度位阶不同

三、字节在国家标准与框架中的参与

Section titled “三、字节在国家标准与框架中的参与”

字节是全国信息安全标准化技术委员会(TC260)生成式 AI 安全工作组成员单位之一。 TC260-003-2024《生成式人工智能服务安全基本要求》的两大核心内容:

  • 31 项安全风险清单(按 5 大类:违反社会主义核心价值观、歧视性内容、商业违法违规、 侵害他人合法权益、准确可靠性缺陷)
  • 训练数据安全 / 语料标注 / 模型安全 / 服务透明度 / 应急处置等 7 大类 34 项具体要求

字节在 TC260 工作组贡献的实践案例(公开可查自 TC260 会议纪要摘要)包括: 豆包大模型的内容安全评测方法、拟人化场景的红线词识别、多轮对话上下文风险管理。

2025–2026 TC260-003 第一次修订已启动,草案主要新增: 多模态(视觉、语音、视频)的安全要求、Agent / 工具调用场景、拟人化交互场景。 字节与阿里、百度、腾讯、华为、中国电信共同牵头多个章节。

《人工智能安全治理框架 2.0》(2025)

Section titled “《人工智能安全治理框架 2.0》(2025)”

2025 年网信办 / TC260 联合发布 2.0 版本,新增针对前沿模型的系统性风险治理章节(对标 EU AI Act GPAI 章节), 但在企业层并无”必须发布 RSP”的强制要求。字节的落地方式是: 将 2.0 版要求拆解为备案材料 + 内部流程,不产出对外独立文档。

四、2026 《拟人化互动服务办法》:对字节最大的新合规压力

Section titled “四、2026 《拟人化互动服务办法》:对字节最大的新合规压力”

2026-04-10 发布、2026-07-15 生效的《人工智能拟人化互动服务管理暂行办法》对字节豆包 “虚拟朋友 / AI 人设 / AI 恋人”类产品提出专项要求

  • 未成年人夜间禁用(22:00 – 次日 6:00)
  • 敏感话题拒答(自杀 / 自残 / 极端情绪疏导需介入真人 / 转接热线)
  • 情感成瘾识别与干预机制
  • “AI 身份”显著提示(每次会话开始时必须明确”我是 AI”;禁止持续让用户误认为真人)
  • 拟人化虚拟人定期换壳备案(改变外观 / 人格设定触发变更备案)

字节的应对:2026-Q2 豆包”角色”功能预计将进行一轮重大调整,部分 AI 人设将下线或限制。 产品层 / 备案层 / Trust & Safety 层的同步调整周期估计 3–6 个月。

五、出海:TikTok DSA 第 34 条系统性风险评估

Section titled “五、出海:TikTok DSA 第 34 条系统性风险评估”

TikTok 作为 VLOP,依据 DSA Art 34/35,每年需发布系统性风险评估报告 (Systemic Risk Assessment)。 TikTok 已发布:

  • 2024 版 SRA(2024-11 发布)—— 覆盖 4 大类风险: 非法内容传播、基本权利损害、公共议题的民主进程、未成年人与公共健康。 由 Kroll(独立审计方)共同出具
  • 2025 版 SRA(2025-11)—— 新增 AI 生成内容专章;对 2024 欧洲议会选举期的”亲俄账号”事件做专门复盘 (与欧委会 DSA 正式程序挂钩)

这是字节系产品唯一面向国际公众发布的结构化风险评估——在国内对应的算法备案材料是不公开的, 但 DSA 法律义务强制 TikTok 公开。这一”海外透明度 > 国内透明度”的倒挂,是字节合规架构的持续张力。

  • 张凌寒:国家 AI 安全治理框架的”层级吸收”既是效率优势也是风险—— 企业内部风控能力可能外生退化,因为”合规达标即最高义务”
  • 戴昕:中国模式的”结构性双重合规”—— 字节同时满足 CAC 备案 + 全球监管,反而形成独特的合规肌肉,但也带来内部政策逻辑的碎片化
  • 薛澜:敏捷协同治理需警惕”敏捷到过度”—— 规则迭代速度过快企业难以规划长期安全投入
  • 朱悦:企业层缺少独立安全框架文档,不利于第三方学术监督与独立评估
  • Matt Sheehan(Carnegie):在 ChinAI 相关写作与公开发言中,其典型论点是—— 中国前沿 AI 公司之所以没有 RSP 式文档,不是能力问题而是制度问题, 国家把风险管理位阶拉到了行业 / 国家层面,企业层的自律文档因此制度性冗余。 这是理解中美自律文档差异的核心论点
  • Jeffrey Ding(GWU): ChinAI Newsletter 反复指出:缺少 RSP 不等于缺少安全投入—— 字节的内容安全团队规模比多数前沿实验室的红队 + 政策部总和还大
  • Rebecca Arcesati(MERICS): 中国企业 AI Safety 呈**“可执行性优先,理论化落后”**特征—— 能做 31 项风险的逐项防御,但缺乏”frontier risk”概念框架
  • Helen Toner(CSET): 中国监管吸收的风险类型(内容、价值观、未成年人)与西方 RSP 关注的风险 (CBRN、自主复制、网络攻击能力)在本体论层面不同—— 这使中美在前沿 AI 风险上的沟通非常困难
  • Markus Anderljung(GovAI): 即便国家位阶强大,仍需企业层前沿风险自律作为补充; 中国模式在”当下可见风险”上有效,在”未来尚未出现的 catastrophic risk”上覆盖不足
  • Paul Triolo(DGA): 字节的”嵌入式安全”是其他新兴市场(东南亚、中东)愿意接纳的中国模式出海路径, 与美国模式形成全球竞争
公司旗舰模型是否发布独立安全框架备案节奏开源策略
字节跳动豆包 / Seed首批 2023-08;多产品多次变更备案克制开源(Seed 小参数)
阿里巴巴Qwen(仅开发者文档层面有 safety)首批 2023-08;全系多次激进开源(0.5B–72B Apache-2.0)
百度文心一言(有文心 AI 治理白皮书,非 RSP 结构)首批 2023-08部分开源
腾讯混元(有《腾讯 AI 治理白皮书》)首批 2023-08部分开源
DeepSeekV3 / R1多批次备案最激进开源(MIT)

共同结论:中国前沿实验室无一产出对标 RSP 的企业级安全框架文档。 这是制度性特征(国家位阶吸收 + GPAI CoP 不签 + TC260-003 事实覆盖), 不是偶然的个别公司选择。

八、为什么字节不签 GPAI Code of Practice?

Section titled “八、为什么字节不签 GPAI Code of Practice?”

EU GPAI CoP(2025-08-01 首批签署方开放)字节未签。同样未签的中国公司:阿里、百度、腾讯、DeepSeek、 智谱、月之暗面等——中国头部前沿模型公司无一签署

原因结构:

  1. 不进入欧盟市场的模型不触发 GPAI CoP 签署激励 (豆包 / Qwen / 文心一言 / 混元 / DeepSeek 主要消费者市场不在欧盟)
  2. TikTok 已是 VLOP,字节在欧盟合规压力集中在 DSA 而非 AI Act GPAI 章
  3. 签署意味着接受 EU AI Act 系统性风险义务—— 对尚未决定是否大规模进入欧盟的公司而言增加合规成本
  4. 地缘政治信号:签署 EU 框架可能被解读为”选边站”,中国头部公司多数选择保持合规中立
  • 2026-01:字节 AI Ethics Committee 重组,扩展拟人化互动、Agent 安全、 多模态深度伪造专项工作组
  • 2026-02:TC260-003 修订工作启动,字节参与多模态 + Agent 章节
  • 2026-03:TikTok EU 团队与欧委会就 DSA Art 40 研究人员数据访问落地协议谈判
  • 2026-04:拟人化办法发布,企业内部启动豆包”角色”功能全面合规审查