中国 — 数据与训练
| 规则 | 与训练数据的关系 |
|---|---|
| PIPL (2021) | 个人信息合法基础、敏感信息、跨境 |
| CSL (2017) | 数据本地化(CII) |
| DSL (2021) | 重要数据风险评估 / 出境 |
| TC260-003-2024 | 语料合法性 5% 阈值、来源多样性 |
| 《生成式 AI 办法》 (2023) | 第七条训练数据专条 |
中国训练数据合规的三层结构
Section titled “中国训练数据合规的三层结构”法律层(PIPL + DSL + CSL)
Section titled “法律层(PIPL + DSL + CSL)”- 个人信息:合法基础、告知同意、敏感信息单独同意、未成年人
- 重要数据:识别、风险评估、出境审查
- 数据本地化:CII 运营者收集的境内数据原则上境内存
部门规章层(《生成式 AI 办法》第七条)
Section titled “部门规章层(《生成式 AI 办法》第七条)”生成式人工智能服务提供者应当依法开展预训练、优化训练等训练数据处理活动, 遵守以下规定: (一)使用具有合法来源的数据和基础模型; (二)涉及知识产权的,不得侵害他人依法享有的知识产权; (三)涉及个人信息的,应当取得个人同意或者符合法律、行政法规规定的其他情形; (四)采取有效措施提高训练数据质量,增强训练数据的真实性、准确性、客观性、多样性; (五)《网络安全法》《数据安全法》《个人信息保护法》等法律、行政法规的其他有关规定和 有关主管部门的相关监管要求。
核心量化要求:
- 语料抽样 4000 条,非法不良信息比例 ≤ 5%
- 来源多样性(中文 / 英文)
- 标注人员培训与测试
- 31 类风险覆盖
1. 合法来源 & 公开可获取
Section titled “1. 合法来源 & 公开可获取”《生成式 AI 办法》第七条”合法来源”+ PIPL 第十三条”合法基础”的叠加:
- 公开可获取(互联网抓取)≠ 可用于训练
- 用户生成内容 (UGC):用户协议中的训练授权条款越来越普遍,但PIPL 的单独同意要求是否满足存争议
2. 知识产权
Section titled “2. 知识产权”- 版权:《著作权法》修改未明确引入”文本数据挖掘 (TDM) 例外”
- 实务:训练数据引发的版权诉讼(如 2024 上海某案例涉及文生图模型)
- 合理使用的边界不清
3. 数据跨境
Section titled “3. 数据跨境”训练数据涉及跨境场景:
- 境内训练 / 境外存储:数据出境(安全评估 / SCCs / 认证三路径)
- 境外训练 / 服务境内:境外模型本身不直接适用,但服务落地需独立评估
- 跨境共享训练数据集:可能触发 DSL 第三十六条阻断条款
4. 合成数据 / 人类反馈 (RLHF)
Section titled “4. 合成数据 / 人类反馈 (RLHF)”- 合成数据:由模型生成的训练数据,法规未特殊化;真实性 / 多样性要求不变
- RLHF 标注数据:TC260-003 有专门章节;标注员的劳动和数据权利有单独关注
与 EU / US 的对比
Section titled “与 EU / US 的对比”| 维度 | 中国 | EU | US |
|---|---|---|---|
| 个人数据 | PIPL 单独同意(敏感)+ 合法基础 | GDPR 合法基础 + 第 9 条特殊类别 | 无联邦隐私法(州法拼图) |
| 版权 / TDM | 无明确 TDM 例外 | 有 DSM TDM 例外(opt-out 机制) | Fair Use 原则下处理 |
| 数据质量 | TC260-003 量化(5%/90%) | AI Act 第 10 条质量要求 | NIST RMF 原则性 |
| 跨境 | PIPL + DSL + CSL 三重机制 | Schrems II + DPF | EO 14179 后相对宽松 |
| 训练数据摘要 | 无强制公开 | AI Act 第 53 条强制 | 无 |