数据与训练
训练数据是 LLM 时代 AI 治理的核心战场——数据决定能力,决定版权风险,决定个人信息合规, 决定跨境合规。三个辖区在这一议题上的答案差异最大,诉讼和立法双轨并行。
议题的四个核心问题
Section titled “议题的四个核心问题”- 谁的数据可以用?(合法基础 / 版权 / 同意)
- 数据的质量怎么保证?(代表性、偏见、质量要求)
- 要不要披露?(训练数据摘要、透明度)
- 跨境怎么处理?(数据出境、Brussels Effect)
| 维度 | 🇨🇳 中国 | 🇺🇸 美国 | 🇪🇺 欧盟 |
|---|---|---|---|
| 综合隐私法 | PIPL (2021) | 无联邦法(州法拼图) | GDPR (2018) |
| AI 专项数据条款 | 生成式 AI 办法第 7 条 | 无 | AI Act 第 10 条 |
| 强制训练数据摘要 | 无 | 无 | AI Act 第 53 条(全球首个) |
| 版权处理 | 无明确 TDM 例外 | Fair Use 抗辩(诉讼中) | DSM TDM 例外(可 opt-out) |
| 儿童数据 | PIPL 第 31 条 | COPPA(联邦) | GDPR 第 8 条 |
| 生物特征 | PIPL 第 28 条 | Illinois BIPA 等州法 | GDPR 第 9 条 |
| 跨境 | PIPL + DSL + CSL | EO 14179 后宽松 | Schrems II + DPF |
- Solove (2006) “A Taxonomy of Privacy”(隐私保护的理论基石)
- Westin (1967) Privacy and Freedom(信息隐私经典)
- Nissenbaum (2010) Privacy in Context:语境完整性理论——训练 LLM “重新用途化” 数据是否违反语境?
训练数据 × 个人信息
Section titled “训练数据 × 个人信息”- Kaminski (Colorado) & Urban (Berkeley) (2021) “The Right to Contest AI”
- Edwards & Veale (2017) “Slave to the Algorithm”
- Helberger, Diakopoulos et al. (2023) 对 AI Act 数据治理的系统评论
- Leiser & Schneider (2024) “Scraping and Fair Use in AI Training”
- CNIL 2025 两份核心推荐:GDPR 对 AI 系统全生命周期适用(France CNIL 权威立场)
训练数据 × 版权
Section titled “训练数据 × 版权”- Lemley & Casey (2021) “Fair Learning”(Texas Law Review)——对 LLM 训练主张 fair use
- Henderson, Li, Jurafsky et al. (2023) “Foundation Models and Fair Use” (Stanford CRFM):技术视角的 fair use 分析
- Samuelson (Berkeley) 对 AI 版权持续批判
- Grimmelmann (Cornell) 对 NYT v. OpenAI 等案件的持续分析
- Matthew Sag “The New Legal Landscape for Text Mining and Machine Learning”(Journal of Copyright Society 2019)
- Lehman & Johnson 对生成式 AI 输出版权归属的分析
数据质量与偏见
Section titled “数据质量与偏见”- Bender, Gebru, McMillan-Major, Shmitchell (2021) “On the Dangers of Stochastic Parrots” (FAccT 最有影响的论文之一)——LLM 训练数据的偏见、能耗、责任问题
- Birhane, Prabhu et al. “Multimodal datasets: misogyny, pornography, and malignant stereotypes”
- Buolamwini & Gebru (2018) “Gender Shades”(人脸识别偏见的奠基论文)
- AI Now Institute 系列报告:训练数据中的结构性偏见
训练数据披露与透明度
Section titled “训练数据披露与透明度”- Gebru, Morgenstern et al. (2021) “Datasheets for Datasets”(数据集文档化的标准)
- Mitchell et al. (2019) “Model Cards for Model Reporting”
- Diakopoulos & Koliska (2017) 对算法透明度的系统研究
- Almada & Petit (2023) 对 AI Act 第 53 条”足够详细摘要”含义的分析
跨境数据与 AI
Section titled “跨境数据与 AI”- Kuner (Oxford) 数据跨境经典工作
- Greenleaf 亚太数据保护持续追踪(含中国 PIPL 的国际比较)
- Matt Sheehan (Carnegie) 对中国《数据出境安全评估办法》实施的持续分析
1. “公开可获取” ≠ “可用于训练”
Section titled “1. “公开可获取” ≠ “可用于训练””- EDPB 2024-12 Opinion on ChatGPT:合法利益可以作为训练基础,但需严格 LIA
- CNIL 2025 指引:公开不等于合法处理,特别是对特殊类别数据(生物识别、政治观点等)
- Hamburg DPA (2024):模型权重不构成个人数据处理(争议立场)
- 美国:Fair Use 抗辩 + hiQ Labs v. LinkedIn 判例
- 中国 PIPL 第 13 条:公开信息处理需”在合理范围内”;2024 年多起诉讼涉及训练抓取
2. 版权 opt-out 的机器可读性
Section titled “2. 版权 opt-out 的机器可读性”- EU DSM 第 4 条:允许商业 TDM 但版权人可 opt-out
- 实务手段:
robots.txt/ai.txt/TDMRep标准 / 2025 RSL (Robots Exclusion Standard for LLMs) - AI Act 第 53 条:GPAI 提供者必须尊重 opt-out(即使对欧盟外训练的模型)
- 争议:机器可读的”权利保留”在法律上是否有效?多数民法法系国家未明确认可
3. 训练后”删除权”的实施
Section titled “3. 训练后”删除权”的实施”- GDPR 第 17 条 / PIPL 第 47 条:数据主体有权要求删除
- 技术障碍:模型权重不可分离删除;Machine Unlearning 研究远未实用
- 立场分歧:
- Hamburg DPA 2024:权重不构成个人数据 → 删除义务不触发
- Italy Garante:对 OpenAI 执法要求用户数据的删除和更正权利
- CNIL 2025:要求模型设计阶段即考虑删除可行性
4. 训练数据摘要的”详细程度”
Section titled “4. 训练数据摘要的”详细程度””- EU AI Act 第 53 条:要求”足够详细”摘要,由 AI Office 2024-07 发布模板
- Almada & Petit (2023) 批评:模板弹性大,GPAI 提供方可做最小披露
- 实务:OpenAI / Anthropic / Google DeepMind 等在 2025-2026 开始公开”数据源类别”但不公开具体数据集
行业实践视角
Section titled “行业实践视角”主要 AI 公司的训练数据策略
Section titled “主要 AI 公司的训练数据策略”| 公司 | 主要来源 | 开源披露 | 版权许可 | 欧盟第 53 条响应 |
|---|---|---|---|---|
| OpenAI | 互联网 + 许可(FT、Axel Springer、News Corp) | 低 | 多家付费许可 | 计划发布数据摘要 |
| Anthropic | 互联网 + 授权 | 中(含部分细节) | 较少公开许可交易 | 发布数据摘要 |
| Google DeepMind | Google 搜索索引 + YouTube + 许可 | 低 | 既有媒体关系 | 计划发布 |
| Meta Llama | 互联网 + Meta 平台数据(争议) | 技术报告含相当细节 | 少付费许可 | 已有披露 |
| Mistral | 互联网 + 合作方 | 中 | 欧盟版权合规 | 已发布(GPAI CoP 要求) |
| 阿里 Qwen | 中文优先 + 合作 | 技术报告含详细 | 不明确 | 未签 CoP |
| 百度 ERNIE | 中文优先 + 合作 | 部分 | 不明确 | 未签 CoP |
| DeepSeek | 互联网 | 技术报告详细 | 不明确 | 未签 CoP |
关键诉讼(2023-2026)
Section titled “关键诉讼(2023-2026)”- NYT v. OpenAI & Microsoft (2023-12 起):最具指标意义的版权诉讼,2026 持续
- Bartz v. Anthropic / Kadrey v. Meta / Tremblay v. OpenAI:作家群体诉讼
- Andersen v. Stability AI:文生图版权
- Getty Images v. Stability AI(英国 + 美国):图片版权
- Clearview AI 全球:BIPA(Illinois)+ 多国 DPA 执法
关键 DPA 执法(2023-2026)
Section titled “关键 DPA 执法(2023-2026)”- Italy Garante vs ChatGPT(2023-03 封禁;2024-12 €15M 罚款)
- Italy Garante vs Replika(2023-02 禁令,AI 陪伴 × 未成年人)
- Italy Garante vs DeepSeek(2025-01 临时封禁)
- CNIL vs Clearview AI(2022 €20M 罚款)
- DPC Ireland 对 Meta LLaMA 的调查
- Hamburg DPA 关于权重立场的争议(2024)
2026 Q1 重要变化
Section titled “2026 Q1 重要变化”- AI Act 第 53 条的训练数据摘要义务于 2025-08-02 生效,首批 GPAI 提供者 2026 Q1 开始披露
- GPAI Code of Practice Chapter 2 版权 2025-08-01 签署,Meta 对版权章节公开异议
- 美国 fair use 诉讼持续,部分法院初步裁定对 OpenAI 有利(2026-Q1 Bartz v. Anthropic 部分胜诉)
相关规则与公司
Section titled “相关规则与公司”- 🇪🇺 欧盟:GDPR、AI Act 第 10 / 53 条、GPAI Code of Practice Chapter 2、DSM 版权指令
- 🇨🇳 中国:PIPL · DSL · CSL、生成式 AI 办法 第 7 条、TC260-003-2024(语料合法性 ≤5% 非法)
- 🇺🇸 美国:NIST AI RMF;州法(CCPA/CPRA、Illinois BIPA、Tennessee ELVIS Act 等);无联邦 AI 专项数据法
参见各公司页的”训练数据”分析:OpenAI / Anthropic / Mistral(欧盟合规样板)/ DeepSeek(开源透明样板)/ 阿里 Qwen(中文 + 开源)