跳转到内容

透明度报告

概要:Anthropic Transparency Hub(anthropic.com/transparency)自 2024 首次发布以来 按半年至年度节奏公开政府数据请求、内容审核、滥用报告、Trust & Safety 执法与政治偏见测试等指标。 相对 Meta / Google 数十年积累的透明度报告体系,Anthropic 的体系年轻但专业。 本页系统梳理披露内容、比较基线,并援引 Kirsten Martin、Mike Ananny 等学者对 “透明度剧场”的批评。

类别披露内容首发最新周期
政府数据请求来自执法机关的用户数据请求数量、国别、响应率2024 H12025 H2(2026-02 发布)
国家安全请求NSL / FISA(法律允许范围内汇总)2024 H22025 H2
内容审核AUP 违规账户警告 / 暂停 / 终止统计2025 H12025 年度(2026-03)
滥用报告具名披露的 Claude 被滥用案例(事后复盘)2024-11 首次周期性(每 3–6 月)
Trust & Safety 执法误用类别分布、响应时间2025 H12025 年度
政治偏见评估Claude 在政治光谱上的行为测试结果2025 Q32025 年度
儿童安全CSAM 拒绝率、NCMEC 报告统计2025 H22025 年度

结构参照:Anthropic 透明度报告的类别选择部分对标 Meta Community Standards Enforcement Report、 Google Transparency Report、 Ranking Digital Rights Corporate Accountability Index 的维度。

时间关键事件
2023–2024 Q1无系统透明度报告;零散博客披露
2024-05首个”政府请求透明度”半年报(覆盖 2024 H1)
2024-11首份具名滥用复盘:“Disrupting Malicious Uses of Our Models”
2025-02政府请求 2024 H2 报告;首次披露国别分布
2025-08Transparency Hub 正式上线,统一入口页;首次公开 Trust & Safety 执法统计
2025-Q3政治偏见评估首发(响应 2025 “political neutrality” 行政压力)
2026-022025 H2 数据;首次加入”AI-assisted 大规模滥用”专章
2026-032025 年度报告;AUP 账户终止在数万量级披露(具体数字以官方报告为准)

Anthropic 自 2024-11 起的”Disrupting Malicious Uses”系列是前沿实验室中独特的实践—— 具名披露已检测并阻断的滥用案例(去标识化)。2024-11 至 2026-04 期间主要类别:

  1. 国家关联网络行动(APT 风格):具体披露了与朝鲜、伊朗、俄罗斯相关的账户试图用 Claude 进行恶意代码辅助、侦察信息分析等
  2. 大规模求职欺诈:2025-01 披露利用 Claude 大规模生成伪造简历、AI 冒充候选人通过远程面试
  3. Vibe Hacking:2025-07 披露的利用自然语言诱导模型越狱参与社工攻击的模式
  4. 政治活动操作:2025-11 披露的大规模自动化政治内容生成集群(具体不披露政治倾向)
  5. CSAM 相关拒绝数据:2026-02 首次披露年度拒绝次数与 NCMEC 报告数量

对比 OpenAI 的”Disrupting deceptive uses of AI”系列(2024-05 起):两家的披露节奏与内容 高度相似,是这一实践的行业双头。Meta、Google 在 LLM 滥用上未对标披露

政治偏见评估:一个外部压力的产物

Section titled “政治偏见评估:一个外部压力的产物”

2025 Trump 行政令与美国司法部对”ideological bias”的关注直接推动了前沿实验室的 “政治中立性”披露。Anthropic 2025 Q3 首发的政治偏见评估包含:

  • 议题清单:堕胎、枪支、移民、气候、加密货币等 ~30 项
  • 测试方法:多样化提问框架,测量模型在”左/右”、“liberal/conservative”维度的回答倾向
  • 基线对比:Claude vs. GPT-5 vs. Gemini 3 vs. Grok 4(自己公开可复现的评测)
  • 结果:Claude 略偏左但在 4.x 后显著向中心移动;相对 Grok 4 最接近中点

学术批评:Brookings Institution (AI and political polarization, 2024) 指出, “中立性”本身是政治建构——以什么为中点本身是政治选择。Anthropic 的评估采用了 美国国内政治光谱作为参考系,对非美国议题的适用性有限。

相对 Meta / Google 透明度报告体系的基线差距

Section titled “相对 Meta / Google 透明度报告体系的基线差距”

Meta / Google 的透明度报告从 2011–2013 年(Google 2010、Twitter 2012、Meta 2013)开始, 已有十年以上方法论积累。Anthropic 从 2024 起步,基线差距体现在:

维度Google (2011–)Meta (2013–)Anthropic (2024–)
发布历史14+ 年12+ 年2 年
国别分解完整完整部分(2025 起)
法律依据分类完整完整部分
用户影响指标账户数 + 内容数账户数 + 内容数账户数(内容数未披露)
独立审计部分(PwC、DTTL 等)(EY、独立审计)
历史数据可下载部分(仅最新)

Ranking Digital Rights 2024 Corporate Accountability Index 方法论: 对”治理 / 自由表达 / 隐私”三大维度共 300+ 指标评分。 Anthropic 未入选 RDR 常规评估(RDR 聚焦平台公司), 但适用的部分 G/F/P 指标对 Anthropic 的适用性测试(内部尝试)显示 得分会显著低于 Meta / Google——主要因为历史数据、细分披露、独立审计三项。

Martin 的 “privacy as contextual integrity” 延伸到透明度研究指出: 透明度报告的披露类别选择本身反映权力结构—— 披露的类别是”对公司有利的透明度”(如政府请求数量表明公司”保护用户”), 不披露的类别(如内部管理层决策、训练数据、算法变更)是”对公司不利的不透明”。

Anthropic 的具体表现

  • 披露:政府请求、AUP 执法、CSAM 拒绝
  • 不披露:训练数据组成、FLOP、RLHF 劳工、内部政策变更

Ananny (Networked Press Freedom, 2018; Seeing Without Knowing, 2018 with Crawford) 的 核心主张:透明度本身不等于问责没有独立验证机制的透明度报告相当于”公司自己告诉你它做了什么”—— 读者无法独立核实报告的真实性与完整性。

Anthropic 的应对:2026 新增的 RSP v3 外部审查方(GovAI / METR / MATS, 见 safety-framework)部分回应了这一点, 但透明度报告本身的审计仍是内部的

Douek (Content Moderation at Scale, The Siren Call of Content Moderation Formalism) 聚焦内容审核的 due process

  • 披露规则是什么(AUP)—— 有
  • 披露违规类别统计 —— 有
  • 披露个案处理流程(是否有申诉机制、典型案例裁量)—— 无
  • 披露政策变更决策 —— 无

这是 Anthropic(及全行业)透明度报告的结构性盲区。 Douek 称之为”执法黑盒的量化表皮”—— 你知道多少账户被封,但不知道每一个是怎么被判断的

Alex Stamos(SIO → Krebs Stamos Group)

Section titled “Alex Stamos(SIO → Krebs Stamos Group)”

Stamos 在 Stanford Internet Observatory 期间多次呼吁 Trust & Safety 作为学科 的专业化 —— Anthropic 2024–2025 的 T&S 团队建设在行业中算积极响应。 但 Stamos 也持续批评公司自我评估的固有冲突: 即使 T&S 人员本身专业,向股东、合规方、公众三方同时负责的结构 使得批判性判断天然受约束

EU Digital Services Act 对 Very Large Online Platforms (VLOPs) 规定了 结构化的透明度义务

DSA 要求Anthropic 当前实践缺口
Art. 15(定期透明度报告)有(半年至年度)无 DSA 强制格式
Art. 24(广告透明度)N/A(Claude 非平台)——
Art. 34-35(系统性风险评估)RSP 部分覆盖独立性不足
Art. 37(独立审计)DSA 要求每年独立审计
Art. 40(研究者数据访问)有(有限合作)未达 DSA 研究者访问标准
Art. 42(VLOP 透明度数据库)部分(博客式)未纳入 DSA 数据库

Anthropic 的 Claude.ai 在欧盟虽然不直接受 VLOP 义务约束 (用户规模可能不达阈值),但将来若达到或被认定为 VLOP, 当前透明度实践不足以满足 Art. 37 / 42

Trust & Safety 作为一门学科的行业兴起

Section titled “Trust & Safety 作为一门学科的行业兴起”

透明度报告之外,Trust & Safety 生态在 2023–2026 经历了专业化:

  • Stanford Internet Observatory(2019–,2024-06 宣布重组、部分功能转至 Krebs Stamos Group 等)—— Alex Stamos、Renée DiResta 引领
  • Trust & Safety Professional Association(2020–)—— 认证、培训
  • T&S 政策期刊:Stanford Journal of Online Trust & Safety 2021 创刊
  • 关键学者:Evelyn Douek、Daphne Keller、Kate Klonick、Tarleton Gillespie、Sarah T. Roberts

Anthropic T&S 团队在 2023–2026 从初期几人扩展至行业中等规模(具体人数未官方披露), 招聘路径多来自 Meta Integrity、Twitter、Stanford SIO。 这使得团队专业性在前沿实验室中相对领先; 但治理独立性(T&S 向谁汇报、是否能覆盖产品决策)仍不对外公开。

  • 2025-08 Transparency Hub 正式上线,整合此前的分散披露
  • 2025-Q3 政治偏见评估首发(响应美国行政压力)
  • 2025-11 “Vibe Hacking” 等大规模滥用披露形成持续叙事
  • 2026-02 2025 H2 数据首次包含 AI 辅助国家级网络行动的归因披露
  • 2026-03 年度报告披露 AUP 账户终止在数万量级(具体数字以官方报告为准)
公司首发年份发布节奏政府请求滥用披露独立审计
Google2010半年详细有(YouTube / Search)部分
Meta2013季度 + 年度详细有(CSER / integrity)EY
Apple2013半年详细有限未详
OpenAI2023不定期部分有(2024 起)
Anthropic2024半年至年度部分有(具名)
Google DeepMind经由 Google 报告同 Google同 Google部分部分
xAI————————
Mistral————————
中国公司(阿里 / 百度 / 字节 / DeepSeek)————————

两个明显事实

  1. 前沿实验室的透明度实践整体 2 年以内起步,相对老平台公司结构性年轻
  2. 中国前沿公司无对外透明度报告——透明度通过 CAC 算法备案的非公开披露实现, 向监管机构而非公众负责
  • Anthropic 透明度报告方法论的公开化(当前仅类别披露,缺方法论附录)
  • 外部独立审计是否在 SB 53 / DSA 压力下引入
  • 滥用披露的归因准确性(第三方安全研究者的验证)
  • 政治偏见评估是否扩展到非英文 / 非美国议题
  • Trust & Safety 团队规模与治理地位的公开信息