跳转到内容

数据与训练

训练数据是 LLM 时代 AI 治理的核心战场——数据决定能力,决定版权风险,决定个人信息合规, 决定跨境合规。三个辖区在这一议题上的答案差异最大,诉讼和立法双轨并行

  1. 谁的数据可以用?(合法基础 / 版权 / 同意)
  2. 数据的质量怎么保证?(代表性、偏见、质量要求)
  3. 要不要披露?(训练数据摘要、透明度)
  4. 跨境怎么处理?(数据出境、Brussels Effect)
维度🇨🇳 中国🇺🇸 美国🇪🇺 欧盟
综合隐私法PIPL (2021)无联邦法(州法拼图)GDPR (2018)
AI 专项数据条款生成式 AI 办法第 7 条AI Act 第 10 条
强制训练数据摘要AI Act 第 53 条(全球首个)
版权处理无明确 TDM 例外Fair Use 抗辩(诉讼中)DSM TDM 例外(可 opt-out)
儿童数据PIPL 第 31 条COPPA(联邦)GDPR 第 8 条
生物特征PIPL 第 28 条Illinois BIPA 等州法GDPR 第 9 条
跨境PIPL + DSL + CSLEO 14179 后宽松Schrems II + DPF
  • Solove (2006) “A Taxonomy of Privacy”(隐私保护的理论基石)
  • Westin (1967) Privacy and Freedom(信息隐私经典)
  • Nissenbaum (2010) Privacy in Context语境完整性理论——训练 LLM “重新用途化” 数据是否违反语境?
  • Kaminski (Colorado) & Urban (Berkeley) (2021) “The Right to Contest AI”
  • Edwards & Veale (2017) “Slave to the Algorithm”
  • Helberger, Diakopoulos et al. (2023) 对 AI Act 数据治理的系统评论
  • Leiser & Schneider (2024) “Scraping and Fair Use in AI Training”
  • CNIL 2025 两份核心推荐GDPR 对 AI 系统全生命周期适用(France CNIL 权威立场)
  • Lemley & Casey (2021) “Fair Learning”Texas Law Review)——对 LLM 训练主张 fair use
  • Henderson, Li, Jurafsky et al. (2023) “Foundation Models and Fair Use” (Stanford CRFM):技术视角的 fair use 分析
  • Samuelson (Berkeley) 对 AI 版权持续批判
  • Grimmelmann (Cornell)NYT v. OpenAI 等案件的持续分析
  • Matthew Sag “The New Legal Landscape for Text Mining and Machine Learning”Journal of Copyright Society 2019)
  • Lehman & Johnson 对生成式 AI 输出版权归属的分析
  • Bender, Gebru, McMillan-Major, Shmitchell (2021) “On the Dangers of Stochastic Parrots”FAccT 最有影响的论文之一)——LLM 训练数据的偏见、能耗、责任问题
  • Birhane, Prabhu et al. “Multimodal datasets: misogyny, pornography, and malignant stereotypes”
  • Buolamwini & Gebru (2018) “Gender Shades”(人脸识别偏见的奠基论文)
  • AI Now Institute 系列报告:训练数据中的结构性偏见
  • Gebru, Morgenstern et al. (2021) “Datasheets for Datasets”(数据集文档化的标准)
  • Mitchell et al. (2019) “Model Cards for Model Reporting”
  • Diakopoulos & Koliska (2017) 对算法透明度的系统研究
  • Almada & Petit (2023) 对 AI Act 第 53 条”足够详细摘要”含义的分析
  • Kuner (Oxford) 数据跨境经典工作
  • Greenleaf 亚太数据保护持续追踪(含中国 PIPL 的国际比较)
  • Matt Sheehan (Carnegie) 对中国《数据出境安全评估办法》实施的持续分析

1. “公开可获取” ≠ “可用于训练”

Section titled “1. “公开可获取” ≠ “可用于训练””
  • EDPB 2024-12 Opinion on ChatGPT:合法利益可以作为训练基础,但需严格 LIA
  • CNIL 2025 指引公开不等于合法处理,特别是对特殊类别数据(生物识别、政治观点等)
  • Hamburg DPA (2024):模型权重不构成个人数据处理(争议立场)
  • 美国:Fair Use 抗辩 + hiQ Labs v. LinkedIn 判例
  • 中国 PIPL 第 13 条:公开信息处理需”在合理范围内”;2024 年多起诉讼涉及训练抓取
  • EU DSM 第 4 条:允许商业 TDM 但版权人可 opt-out
  • 实务手段:robots.txt / ai.txt / TDMRep 标准 / 2025 RSL (Robots Exclusion Standard for LLMs)
  • AI Act 第 53 条:GPAI 提供者必须尊重 opt-out(即使对欧盟外训练的模型)
  • 争议:机器可读的”权利保留”在法律上是否有效?多数民法法系国家未明确认可
  • GDPR 第 17 条 / PIPL 第 47 条:数据主体有权要求删除
  • 技术障碍模型权重不可分离删除;Machine Unlearning 研究远未实用
  • 立场分歧
    • Hamburg DPA 2024:权重不构成个人数据 → 删除义务不触发
    • Italy Garante:对 OpenAI 执法要求用户数据的删除和更正权利
    • CNIL 2025:要求模型设计阶段即考虑删除可行性

4. 训练数据摘要的”详细程度”

Section titled “4. 训练数据摘要的”详细程度””
  • EU AI Act 第 53 条:要求”足够详细”摘要,由 AI Office 2024-07 发布模板
  • Almada & Petit (2023) 批评:模板弹性大,GPAI 提供方可做最小披露
  • 实务:OpenAI / Anthropic / Google DeepMind 等在 2025-2026 开始公开”数据源类别”但不公开具体数据集
公司主要来源开源披露版权许可欧盟第 53 条响应
OpenAI互联网 + 许可(FT、Axel Springer、News Corp)多家付费许可计划发布数据摘要
Anthropic互联网 + 授权中(含部分细节)较少公开许可交易发布数据摘要
Google DeepMindGoogle 搜索索引 + YouTube + 许可既有媒体关系计划发布
Meta Llama互联网 + Meta 平台数据(争议)技术报告含相当细节少付费许可已有披露
Mistral互联网 + 合作方欧盟版权合规已发布(GPAI CoP 要求)
阿里 Qwen中文优先 + 合作技术报告含详细不明确未签 CoP
百度 ERNIE中文优先 + 合作部分不明确未签 CoP
DeepSeek互联网技术报告详细不明确未签 CoP
  • NYT v. OpenAI & Microsoft (2023-12 起):最具指标意义的版权诉讼,2026 持续
  • Bartz v. Anthropic / Kadrey v. Meta / Tremblay v. OpenAI:作家群体诉讼
  • Andersen v. Stability AI:文生图版权
  • Getty Images v. Stability AI(英国 + 美国):图片版权
  • Clearview AI 全球:BIPA(Illinois)+ 多国 DPA 执法
  • Italy Garante vs ChatGPT(2023-03 封禁;2024-12 €15M 罚款)
  • Italy Garante vs Replika(2023-02 禁令,AI 陪伴 × 未成年人)
  • Italy Garante vs DeepSeek(2025-01 临时封禁)
  • CNIL vs Clearview AI(2022 €20M 罚款)
  • DPC Ireland 对 Meta LLaMA 的调查
  • Hamburg DPA 关于权重立场的争议(2024)
  • AI Act 第 53 条的训练数据摘要义务于 2025-08-02 生效,首批 GPAI 提供者 2026 Q1 开始披露
  • GPAI Code of Practice Chapter 2 版权 2025-08-01 签署,Meta 对版权章节公开异议
  • 美国 fair use 诉讼持续,部分法院初步裁定对 OpenAI 有利(2026-Q1 Bartz v. Anthropic 部分胜诉)

参见各公司页的”训练数据”分析:OpenAI / Anthropic / Mistral(欧盟合规样板)/ DeepSeek(开源透明样板)/ 阿里 Qwen(中文 + 开源)