跳转到内容

欧盟 — 数据与训练

规则与训练数据的关系
GDPR个人数据合法基础、目的限制
EU AI Act第 10 条数据治理 + 第 53 条训练数据摘要
GPAI Code of PracticeChapter 2 版权 + 训练数据摘要标准化
DSM Copyright Directive (2019/790)TDM 例外(第 3、4 条)
DSAVLOP 对用于训练的内容的可见性
France CNIL AIGDPR × AI 训练数据合规指引(12+ 份)
  • 合法基础(第 6 条):同意 / 合同 / 法律义务 / 合法利益(常用)
  • 特殊类别(第 9 条):生物识别、健康、政治观点 — 更严格
  • 目的限制(第 5 条):收集目的能否涵盖”训练 AI 模型”?持续争议
  • 透明度(第 13-14 条):向数据主体告知
  • 删除权 / 被遗忘权(第 17 条):已嵌入模型权重后如何”删除”?

DPA 行动

  • Garante (IT) vs. ChatGPT(2023-03 封禁 / 罚款)
  • CNIL (FR) AI 行动计划(多份指引)
  • DPC (IE) vs. Meta LLaMA
  • Hamburg DPA 关于”权重嵌入是否构成个人数据处理”的立场

高风险 AI 系统的训练 / 验证 / 测试数据:

  • 相关、充分代表性、无错误、完整
  • 考虑预期用途的地理、行为、功能特征
  • 偏见检测与缓解
  • 特殊类别数据:为消除偏见可处理,但需匹配 GDPR 例外

第 10 条与 GDPR 并行,不替代。企业需两套文档。

第 3 条:科研机构为科研目的的 TDM 不可被排除(研究例外)

第 4 条商业 TDM 可由版权人通过机器可读方式 opt-out排除

  • “Reservation of rights” 的机器可读形式是争议焦点
  • robots.txt、ai.txt、TDMRep 标准都是候选

AI Act 第 53 条引用 DSM 第 4 条:GPAI 提供者必须遵守版权人的 opt-out。

所有 GPAI 提供者:

  • 发布训练数据”足够详细”的摘要
  • 模板由 AI Office 于 2024-07 发布
  • 含:主要数据来源类别(互联网 / 许可 / 用户生成 / 合成等)、语言、大致规模
  • 不要求列出每个数据集

这是全球首个强制训练数据披露要求。

CNIL、Hamburg DPA、EDPB 2024-12 意见:

  • “公开可获取” 不等于 “合法使用”
  • 合法利益路径需通过三步测试(LIA)
  • 特殊类别数据(第 9 条)原则上不可仅因公开而处理

EDPB 2024-12 关于 ChatGPT 等模型合法利益的意见:

  • 合法利益可以作为基础,但需严格 LIA
  • 数据主体的反对(第 21 条)有权要求删除或停止使用

当前实务:

  • 部分媒体公司通过 robots.txt / ai.txt 发布 opt-out
  • 大型出版商通过许可协议(OpenAI × Axel Springer, Financial Times, News Corp 等)
  • 2025 RSL (Robots Exclusion Standard for LLMs) 标准发展中
  • GDPR 第 17 条的”被遗忘权”对已训练模型的技术难题
  • 机器遗忘 (machine unlearning) 研究与法律期望的落差
  • Hamburg DPA 2024 立场:模型权重不构成”个人数据”(有争议)
维度EU中国美国
综合隐私法GDPRPIPL无(州法拼图)
AI 专项数据条款AI Act 第 10 条生成式 AI 办法第七条
训练数据摘要强制公开
版权 TDM 例外是,可 opt-out无明确Fair Use 抗辩
儿童数据GDPR 第 8 条PIPL 第三十一条COPPA
生物特征GDPR 第 9 条PIPL 第二十八条Illinois BIPA 等州法

EU 是三辖区中对训练数据治理最体系化的。