跳转到内容

模型卡

字节跳动没有一份对标 Anthropic / OpenAI / Google DeepMind 英文社区意义上的 “Model Card”。 豆包大模型的”说明书”功能由两套平行材料承担: (1) 火山方舟技术博客 + 偶发 arXiv 论文(产业透明); (2) CAC 算法备案中的《算法安全自评估报告》+《训练数据来源说明》(监管透明,非公开)。 二者合起来也无法覆盖西方 Model Card 的”风险 / 偏见 / 评估 / 限制”标准章节—— 这就是本页的核心观察:不对称透明

一、豆包大模型谱系(2024–2026 Q1)

Section titled “一、豆包大模型谱系(2024–2026 Q1)”
模型发布类型公开信息层级
豆包大模型 1.0(Pro / Lite / Character)2024-05,火山引擎 Force 大会首发通用 LLM,多规格火山引擎博客 + 产品页;无独立论文
Doubao-1.5-Pro2025-01通用 LLM,MoE 架构火山引擎技术博客(稀疏激活细节披露有限)
Doubao-1.5-Pro-256k2025-02长上下文版本火山引擎博客
Doubao-1.5-Vision-Pro2025-03多模态(图像理解)火山引擎博客 + arXiv 技术报告(Seed-VL 系列)
Doubao-1.5-Thinking2025-Q3推理专用(对标 o1 / R1)博客级披露,部分基准成绩
模型发布许可证
Seed-ASR2024研究许可
Seed-TTS2024研究许可
Seed-Coder(小参数)2025Apache-2.0(部分规格)
Seed-Thinking(小参数预览)2025Apache-2.0(部分规格)
Seed-Seedance 1.0(视频生成)2025-06闭源商用,对标可灵 / Vidu / Sora

与 DeepSeek / Qwen 的对比:DeepSeek V3 / R1 全线权重开源(MIT),Qwen 从 0.5B 到 72B 全尺寸开源(Apache-2.0)。 字节明显更克制——仅小参数 Seed 系列开源,主力豆包 Pro / Pro-256k / Vision-Pro 全部闭源。 这一选择与字节”商业化为先”的公司基因一致,也与 TikTok 全球数据资产的地缘敏感性相关。

二、CAC 算法备案:豆包系产品的”监管版 Model Card”

Section titled “二、CAC 算法备案:豆包系产品的”监管版 Model Card””

备案清单中的字节系产品(多批次累积)

Section titled “备案清单中的字节系产品(多批次累积)”

依据 CAC 定期公示的”已备案生成式 AI 服务目录”,截至 2026-04-22 字节系已备案主要产品:

  • 豆包 (App + Web):2023-08-31 首批(第一批备案),服务主体”北京春田知韵科技有限公司”
  • 扣子 Coze:2024 批次
  • 火山方舟(面向 B 端):作为 MaaS 平台,单独备案并按模型分别登记
  • 豆包国际化版本 Cici:国内未备案(仅出海)
  • 多款行业应用(教育、客服、电商版 AI 助手等):分别备案

备案材料的”监管可见、公众不可见”结构

Section titled “备案材料的”监管可见、公众不可见”结构”

依据《生成式人工智能服务管理暂行办法》第 17 条与 CAC《生成式人工智能服务备案相关材料清单》, 备案需提交但不对外公开的材料包括:

  1. 《算法安全自评估报告》(通常为上百页长度量级)—— 核心内容:
    • 算法基本原理与技术路线描述
    • 训练语料数据来源、规模、清洗流程
    • 安全对抗测试结果(TC260-003 规定的 31 项安全风险类别抽样,每类≥ 1000 条测试题)
    • 人工标注与 RLHF 价值观对齐流程
    • 违法违规内容防御机制
    • 未成年人保护专项
  2. 《训练数据来源说明》
  3. 《语料标注规则》
  4. 《应急处置预案》
  5. 《用户投诉处理机制说明》

CAC 仅公开备案清单(产品名 + 备案号 + 主体公司 + 备案时间),不公开上述材料正文。 学术上也无法通过合法渠道获得。这是与 OpenAI 发 GPT-4 Technical Report、 Anthropic 发 Claude Opus Model Card 的结构性差异—— 不是”有还是没有”,而是**“披露给谁”**。

三、学术批评:中国模式的 Model Card 问题

Section titled “三、学术批评:中国模式的 Model Card 问题”
  • 张凌寒《算法备案制度研究》(2024):备案清单公开化解决了存在性可见, 但材料不公开导致内容不可见。这种”部分公开”在行政法上开创了新形态, 但对公众、研究者、用户赋权有限
  • 戴昕(北京大学):提出 “regulatory intimacy vs. public transparency”—— 监管机构可以深入穿透企业技术细节,但公众透明度反而低于完全市场化的美国模式
  • 朱悦(同济大学):算法备案的公开维度不够,导致第三方学术评估几乎不可能。 研究者只能对终端产品做黑盒评测,无法核验训练数据合规性声明
  • 吴洪(清华):相较美国模型卡的 “Intended Use / Out-of-Scope Use” 框架, 中国的备案材料更重”国家安全 + 内容合规”而非”使用者赋权”——两套 Model Card 的设计哲学不同
  • Marietje Schaake(Stanford Cyber Policy):“Asymmetric transparency” 是 理解中国头部 AI 公司披露策略的关键——面向国内监管深度透明,面向国际社会高度隐形
  • Jeffrey Ding(ChinAI / GWU):火山方舟的技术博客偶发披露比想象中更丰富—— 特别是 Doubao-1.5-Pro MoE 架构、Seed-Thinking 推理时 scaling 细节—— 但格式非标准、分散、不承担问责功能
  • François Chollet(ARC Prize / 前 Google):质疑 Doubao 系列在 MMLU / GSM8K / MATH 等英文基准上异常高分——“训练数据对齐” (training-on-benchmark)嫌疑在中国头部模型中普遍存在,需要第三方 held-out 评测
  • Gary Marcus:中国前沿模型在英文 OOD 任务上下降明显——说明基准分数的”中文可转移性”有限
  • Helen Toner(Georgetown CSET):中国头部实验室没有 Model Card 不是能力问题而是制度激励问题—— 在 CAC 备案的激励下,详细披露反而增加法律暴露
  • Paul Triolo(DGA):豆包的闭源 + 商业化路线与 DeepSeek 的开源路线代表中国 AI 产业的两种生存策略, 字节的路线更贴近全球头部商业实验室

四、实务洞察:字节如何发布技术报告

Section titled “四、实务洞察:字节如何发布技术报告”

字节的”Model Card 功能等价物”主要是火山引擎公众号 + 火山方舟开发者博客发布的技术博文。 通常覆盖:

  • 新模型发布时的能力简介(MMLU / C-Eval / GSM8K / MATH / HumanEval / MMBench 等基准成绩)
  • 架构与训练基础设施简述(参数量 / 上下文窗口 / MoE 结构 / 训练 token 数等)
  • 应用案例(汽车语音、教育、电商)
  • 定价与 API 调用示例

缺失

  • 偏见 / 毒性评估的系统性披露
  • 训练数据版权合规细节
  • 误用风险与 out-of-scope 使用警告
  • 红队结果(只有合规评测的简要成绩)
  • 预部署评估的独立第三方验证

Seed 系列会发表 arXiv 论文,近一两年代表性工作:

  • Seed-TTS(语音合成)、Seed-ASR(语音识别)
  • Seed-Coder(代码)
  • Seed-VL(视觉语言)
  • Seed-Thinking(推理模型预览)

这些论文披露质量接近学术标准,但旗舰模型 Doubao-1.5-Pro / Pro-256k 没有对应的 arXiv 报告

五、基准对比表(基于火山引擎博客 + 独立评测汇总)

Section titled “五、基准对比表(基于火山引擎博客 + 独立评测汇总)”

⚠ 本表为公开博客与第三方评测汇总的近似值,非官方 Model Card。 字节未对国际学术界的重测请求做集中响应。

基准Doubao-1.5-ProClaude Opus 4.7GPT-4.5Gemini 3 ProDeepSeek V3
MMLU≈ 8788+88+89+87+
C-Eval(中文)88+82838588+
GSM8K95+95+95+95+95+
HumanEval8992+90+92+89
MMBench(多模态)84(Vision-Pro)868688

观察:豆包在中文基准(C-Eval、CMMLU、GaoKao-Bench)强势;英文基准与头部闭源模型接近但略低; 在 held-out 或新发布基准(如 FrontierMath、HLE)上评测参与度远低于西方实验室—— 这是研究社区反复提出的透明度痛点。

  • 2025-05:Doubao-1.5-Vision-Pro 火山方舟上线,作为多模态商用主力; 配套发布 Seed-VL 技术报告
  • 2025-06:Seed-Seedance 1.0(视频生成)发布,对标可灵 / Vidu / Sora
  • 2025-09:配合《标识办法》生效,豆包输出开始默认添加符合 GB 45438-2025 的隐式水印
  • 2025-Q4:字节参与 TC260-003 修订工作组,提交大模型内容安全评测实践案例
  • 2026-02:豆包大模型 2.0 预发,据火山引擎公告目标为”推理 + 多模态统一 SOTA”, 但截至 2026-04-23 未见独立技术报告
  • 2026-04:《拟人化互动服务办法》发布,豆包”虚拟朋友 / AI 人设”类功能将触发 模型变更备案——在中国制度下这是继”新模型发布”之后最重要的 Model Card 时刻

七、实务建议(给研究者 / 从业者)

Section titled “七、实务建议(给研究者 / 从业者)”
  • 研究豆包能力,优先查火山引擎公众号 + 火山方舟开发者博客,其次是 arXiv Seed 系列论文
  • 关注CAC 备案清单更新,可推断字节系产品线的迭代节奏(虽不披露内容)
  • 第三方评测建议用held-out 中文基准(避开 C-Eval 等已在训练集内嫌疑的基准), 如 FinEval、SuperCLUE-Math 私测集
  • 对标西方 Model Card 的标准章节(Intended Use / Risks / Evaluation / Limitations), 可发现字节披露在”Intended Use”与”Evaluation”上相对完整,在 “Risks” 与 “Limitations” 上显著缺失