跳转到内容

中国 — 数据与训练

规则与训练数据的关系
PIPL (2021)个人信息合法基础、敏感信息、跨境
CSL (2017)数据本地化(CII)
DSL (2021)重要数据风险评估 / 出境
TC260-003-2024语料合法性 5% 阈值、来源多样性
《生成式 AI 办法》 (2023)第七条训练数据专条
  • 个人信息:合法基础、告知同意、敏感信息单独同意、未成年人
  • 重要数据:识别、风险评估、出境审查
  • 数据本地化:CII 运营者收集的境内数据原则上境内存

部门规章层(《生成式 AI 办法》第七条)

Section titled “部门规章层(《生成式 AI 办法》第七条)”

生成式人工智能服务提供者应当依法开展预训练、优化训练等训练数据处理活动, 遵守以下规定: (一)使用具有合法来源的数据和基础模型; (二)涉及知识产权的,不得侵害他人依法享有的知识产权; (三)涉及个人信息的,应当取得个人同意或者符合法律、行政法规规定的其他情形; (四)采取有效措施提高训练数据质量,增强训练数据的真实性、准确性、客观性、多样性; (五)《网络安全法》《数据安全法》《个人信息保护法》等法律、行政法规的其他有关规定和 有关主管部门的相关监管要求。

核心量化要求

  • 语料抽样 4000 条,非法不良信息比例 ≤ 5%
  • 来源多样性(中文 / 英文)
  • 标注人员培训与测试
  • 31 类风险覆盖

《生成式 AI 办法》第七条”合法来源”+ PIPL 第十三条”合法基础”的叠加:

  • 公开可获取(互联网抓取)≠ 可用于训练
  • 用户生成内容 (UGC):用户协议中的训练授权条款越来越普遍,但PIPL 的单独同意要求是否满足存争议
  • 版权:《著作权法》修改未明确引入”文本数据挖掘 (TDM) 例外”
  • 实务:训练数据引发的版权诉讼(如 2024 上海某案例涉及文生图模型)
  • 合理使用的边界不清

训练数据涉及跨境场景:

  • 境内训练 / 境外存储:数据出境(安全评估 / SCCs / 认证三路径)
  • 境外训练 / 服务境内:境外模型本身不直接适用,但服务落地需独立评估
  • 跨境共享训练数据集:可能触发 DSL 第三十六条阻断条款
  • 合成数据:由模型生成的训练数据,法规未特殊化;真实性 / 多样性要求不变
  • RLHF 标注数据:TC260-003 有专门章节;标注员的劳动和数据权利有单独关注
维度中国EUUS
个人数据PIPL 单独同意(敏感)+ 合法基础GDPR 合法基础 + 第 9 条特殊类别无联邦隐私法(州法拼图)
版权 / TDM无明确 TDM 例外有 DSM TDM 例外(opt-out 机制)Fair Use 原则下处理
数据质量TC260-003 量化(5%/90%)AI Act 第 10 条质量要求NIST RMF 原则性
跨境PIPL + DSL + CSL 三重机制Schrems II + DPFEO 14179 后相对宽松
训练数据摘要无强制公开AI Act 第 53 条强制