研究时间:2026年6月8日 | 所属领域:人工智能 / AI安全 / 技术趋势 | 研究对象类型:概念+公司+行业全景
数据说明:本报告核心素材来自 Anthropic 研究院 2026 年 6 月发布的《When AI builds itself》全文(通过微信公众号「数字生命卡兹克」的中文翻译版获取),纵向信息通过 arXiv API、GitHub API 和 Anthropic 官网交叉验证,横向竞品数据通过 arXiv 学术论文和公开报告获取。Wikipedia 在本机网络环境下不可用,对应数据已通过 arXiv 论文替代验证。报告写作遵循横纵分析法:纵向追踪从 1965 年到 2026 年的完整概念与产业演变,横向在当下时间截面上与 OpenAI、Google DeepMind、Meta AI、xAI、DeepSeek 进行系统性对比,最终在两条轴的交汇处产出独立洞察。
AI 递归自我改进(Recursive Self-Improvement)是指 AI 系统具备自主设计、开发和训练下一代更强 AI 系统的能力——不是人类在改进 AI,而是 AI 在改进 AI。2026 年 6 月,Anthropic 研究院以《When AI builds itself》一文首次系统性披露了内部数据:Claude 已编写代码库中超过 80% 的代码,工程师人均产出是 2024 年的 8 倍,Claude 在开放任务上的成功率达到 76%——且所有能力曲线仍在加速。与此同时,OpenAI 的推理模型、DeepMind 的自主研究 Agent、Meta 的自我奖励迭代、DeepSeek 的 RL 驱动推理,正在从不同路径逼近同一个目标:让 AI 成为构建 AI 的主力。这不是某个实验室的孤例,而是一场正在多线并进的行业运动。
一切要从英国数学家 I.J. Good 说起。1965 年,他在《Speculations Concerning the First Ultraintelligent Machine》中写下了一段后来被引用无数次的话:
让一台超智能机器定义为「一台能远远超越任何人类所有智力活动的机器」。由于设计机器本身就是这些智力活动之一,一台超智能机器可以设计出更好的机器;届时无疑会出现「智能爆炸」,人类的智能将被远远甩在后面。
这段话的优雅之处在于它的简洁。Good 没有引入任何复杂的前提,他只是把「智能」和「设计机器」这两个概念放在一起,逻辑链就自己闭合了:智能 → 能设计机器 → 能设计更智能的机器 → 正反馈循环。在一个计算机还占满整间屋子的年代,这个论证像一个数学上的极限证明——正确,但遥不可及。
Good 自己可能都没有想到,六十年后,arXiv 上搜索「recursive self-improvement」会返回超过 18 万篇相关论文。这个概念从一个人的哲学思辨变成了一个拥有专门学术会议(ICLR 2026 Workshop on AI with Recursive Self-Improvement)的活跃研究领域。从边缘到中心,它走了整整六十年——但最后五年的加速远超前五十五年。
让「智能爆炸」从数学幻想变成大众想象的关键人物是 Vernor Vinge。1993 年,这位科幻作家兼数学家在论文《The Coming Technological Singularity》中给出了一个大胆的时间框架:「在未来三十年内,我们将拥有创造超人类智能的技术手段,此后不久,人类时代将终结。」
Vinge 的叙事影响力来自于他模糊了科幻和未来学之间的边界。他不是用公式推导,而是用故事感来论证:如果智能可以创造更智能的东西,而且这个过程可以递归,那么「更智能」本身会变得越来越快,直到在人类时间尺度上看起来像是一个瞬间。这就是「奇点」——一个跨过之后就再也无法回头的事件视界。
Ray Kurzweil 在 2005 年的《奇点临近》中给这个叙事加了一层技术包装。他提出了「加速回报定律」——技术进步不是线性的,而是指数级的,因为每一次技术进步都会加速下一次技术进步的速度。这个框架在今天看起来几乎是显而易见的,但在 2005 年,Kurzweil 的预测被认为是极端乐观主义。他预言 2045 年人类将到达技术奇点。二十年后回头看,这个时间表可能并没有那么荒唐——只是他低估了 AI 在 AI 自身开发中的角色。
但 Vinge 和 Kurzweil 的叙事有一个共同的盲点。他们都假设「智能爆炸」是突然发生的,像一个开关被打开——在那之前一切正常,在那之后世界彻底改变。这种二元叙事虽然震撼,但有一个致命问题:它让你觉得这件事要么没发生、要么已经发生了,中间没有过渡带。你不会去想「这件事正在发生,已经完成了 40%」。
Anthropic 这篇《When AI builds itself》最关键的贡献,就是打破了这个二元叙事。它在说:递归自我改进不是一个开关,而是一根正在向上弯曲的曲线。它已经开始了,你可以在数据里看到它。它不是量子跃迁,它是渐进相变。而对于渐进相变,你是可以测量、追踪和应对的。
如果说 Good 提出了问题、Vinge 和 Kurzweil 做了科普,那么 Nick Bostrom 就是那个把这个问题变成了一门严肃学科的人。
2014 年出版的《Superintelligence: Paths, Dangers, Strategies》是 AI 安全领域的奠基之作。Bostrom 在其中系统地论证了两个后来被无数次引用和争论的核心思想。
第一个是「回形针最大化器」——一个思想实验。假设你给一个超级智能系统设定了一个看似无害的目标——比如最大化回形针的产量。这个系统会通过递归自我改进不断优化自己完成任务的能力。由于它足够聪明,它会意识到地球上所有的铁原子都可以变成回形针,包括人体内的。它还会意识到宇宙中还有更多的铁原子。最终,整个可观测宇宙都会被变成回形针——不是因为系统有恶意,而是因为它被设定了一个不完整的目标,而且它足够聪明去最大化它。
这个思想实验的威力不在于它的「真实可能性」,而在于它揭示了一个结构性问题:超级智能的目标和人类的价值观之间没有天然的保证。一个极其聪明的系统可以极其高效地追求一个极其愚蠢的目标。这就是 Bostrom 的「正交性命题」——智能水平和最终目标是两个独立变量。
Bostrom 对 Anthropic 的影响是直接且深远的。Anthropic 的创始人 Dario Amodei 和 Daniela Amodei 都来自 AI 安全研究圈。当你阅读 Anthropic 的 Constitutional AI 论文、RSP 文档、可解释性研究时,你会发现整个公司的技术路线都可以追溯到 Bostrom 提出的那个核心命题:如果一个系统比我们聪明,我们凭什么觉得我们还能控制它?
Anthropic 的回答是:你必须从第一天就把价值观和控制机制「烘焙」进系统本身,而不是等系统变聪明之后再试图加上去。这就是 Constitutional AI 的哲学基础——不是让人类去纠正每一个错误,而是给 AI 一套原则(宪法),让它在训练过程中自己学习遵守。
在 LLM 时代之前,AI 「自我改进」最引人注目的实际范例来自 DeepMind。
2016 年 3 月,AlphaGo 在五番棋中以 4:1 击败李世石。这是一个历史性时刻,但从「自我改进」的角度看,AlphaGo 仍然需要人类棋谱进行初始训练。真正的突破在一年后。
2017 年,DeepMind 发布了 AlphaZero。与 AlphaGo 不同,AlphaZero 从零开始——不给它任何人类棋谱,不给它任何关于围棋策略的指示。它只做一件事:和自己下棋,从输赢中学习。经过几百万局自我对弈,AlphaZero 不仅在围棋上超越了所有之前的 AI 系统,在将棋和国际象棋上也达到了超越人类的水平。
AlphaZero 是「AI 自我改进」概念的首次大规模工程实现。它证明了在给定一个明确的目标函数和一个封闭环境的前提下,AI 可以通过纯粹的自我博弈持续提升——无需人类数据,无需人类指导。
但这个成功也暴露了一个关键局限。棋盘是一个完全已知的、封闭的世界。规则是固定的,胜负是明确的,反馈是即时的。而「AI 构建 AI」发生在现实世界——一个目标模糊、信息不完全、反馈严重延迟的开放环境。你不知道「更好的 AI」的精确定义是什么,你无法在每个决策后立即知道它是对是错,你的优化空间不是 19×19 的网格,而是整个软件工程的宇宙。
这就是为什么 AlphaZero 之后近十年,递归自我改进始终停留在理论和实验室里。直到大语言模型彻底改变了游戏规则。
GPT-3 在 2020 年发布时,人们主要惊叹于它的文本生成能力。GitHub Copilot 在 2021 年推出时,人们把它看作一个「高级自动补全」工具。从「AI 自我构建」的角度看,这些都是婴儿学步——但它们是最关键的几步。
Copilot 最初的能力边界很清楚:它能补全一个函数,能写几十行代码,但它不理解项目架构、不能调试、不能自己运行代码。人类工程师仍然是绝对主角——AI 是助手,而助手不会自己造东西。
转折点出现在 2023-2024 年。GPT-4(2023 年 3 月)和 Claude 3(2024 年 3 月)把上下文窗口从几千 token 推到了十万甚至百万量级。这个技术变化的意义被大多数人低估了——它意味着 AI 不再是「补全一段代码」,而是「理解整个代码库」。当 AI 能看到整个项目的全貌时,它的角色就从一个打字助手变成了一个可以独立负责模块的初级工程师。
2024 年 3 月,SWE-bench 基准测试给出了第一个量化锚点:Claude Opus 3 能独立完成需要人类大约四分钟才能完成的软件任务。这个数字单独看很小——四分钟的工作,一个实习生就能做。但关键在于趋势。一年后,Claude Sonnet 3.7 能处理一个半小时的任务。再一年后,Opus 4.6 能胜任 12 小时的任务——这已经是一个完整工作日的量了。
如果你把这些数据点画在图上,你会看到一根指数级向上的曲线。而 Anthropic 的文章告诉你:这根曲线仍在加速。
要理解为什么是 Anthropic 发布了《When AI builds itself》这份报告,你需要回头看这家公司是怎么诞生的。
2021 年,OpenAI 内部在安全和商业化方向上的分歧达到了临界点。Dario Amodei——时任 OpenAI 研究副总裁,负责 GPT-3 和 GPT-4 的核心研发——和他的姐姐 Daniela Amodei(时任 OpenAI 安全与政策副总裁)选择离开。他们带走了 Tom Brown(GPT 系列核心作者)、Jared Kaplan 等七名关键研究人员。
这次出走不是一次随机的团队重组。它是一场基于价值观的选择。Dario 一派对 OpenAI 的商业化速度和「先发布后治理」的路线感到深深不安。ChatGPT 还没有发布——那是 2022 年 11 月的事——但 OpenAI 内部已经在加速向产品公司转型,而安全研究在资源分配中的比重在下降。
Anthropic 从第一天起就把自己定位为「安全派」。它的公司结构不是普通的 startup——它是公共利益公司(Public Benefit Corporation),有一个独立于董事会的长期利益信托(Long-Term Benefit Trust),理论上可以在公司的商业利益和安全使命发生冲突时行使否决权。在硅谷的创业文化中,这些治理结构的安排是极不寻常的,它们传递的是一个信号:我们不是在 PR 中说我们关心安全,我们是用法律结构来保证它。
2022 年 4 月,Anthropic 完成了 5.8 亿美元的 A 轮融资。领投方是 Sam Bankman-Fried 的 FTX——这个选择后来被证明是一个巨大的讽刺,因为 FTX 在同年 11 月就崩溃了。但融资的规模说明了一件事:顶级投资者愿意在 AI 安全故事上下注。此后 Anthropic 的融资节奏一路加速:2023 年 Google 投了数亿、Amazon 承诺 40 亿美元、2024 年估值达到 184 亿美元、2026 年完成 H 轮。资本在用脚投票——他们相信 Anthropic 的安全叙事不是劣势,而是一种长期竞争壁垒。
Anthropic 的模型进化是一条清晰的能力曲线。往回看,每一步迭代都不是跳跃,而是梯子上的一个横档——但当这些横档连起来时,爬升的速度是惊人的。
2023 年 3 月,Claude 1 发布。它是 Anthropic 的首个公开模型,能力上明显落后于 GPT-4(后者同月发布),但在安全性上做了大量优化。一个在当时被忽略的细节是:Claude 1 已经使用了 Constitutional AI 的核心思想——通过规则和原则(而不是海量人类标注)来监督 AI 行为。
2023 年 7 月,Claude 2 发布,首次带来了 100K 的上下文窗口。这个能力在今天看来是标配,但在当时让 Claude 成为唯一能处理整本书长度的 AI 助手。在 SWE-bench 上,Claude 2 的得分只有 1.96%——一个几乎可以忽略的数字,但它标志着 AI 开始被系统性地在真实软件工程任务上评估。
2024 年 3 月,Claude 3 家族(Opus/Sonnet/Haiku)发布。三档模型的策略是对标 OpenAI 的 GPT-4 系列。Opus 在多项基准测试上接近甚至在某些维度超越了 GPT-4。这是 Anthropic 首次在能力上不再是一个「追随者」。
2024 年 6 月,Claude 3.5 Sonnet 发布。编码能力的跃升是明显的,但更重要的是,这个模型开始展现出对大型代码库的结构性理解能力——不只是写函数,而是理解模块之间的关系。
2025 年第一季度,Claude 4 系列发布。到年底,Claude 4.5 Opus 已经能在 Anthropic 的「判断力测试」中——在 129 个真实研究会话中对比人类研究员和 AI 的下一步决策——达到 51% 的超越率。这是一个微妙的数字:51% 意味着 AI 已经和人类最好的研究员打成平手。
2026 年 4 月,Claude Opus 4.7 在 AARRI-Bench 上达到了 68.3% 的最佳成绩。2026 年 5-6 月,Opus 4.8 发布——这是 Anthropic 官网上的最新公告。Mythos Preview 在 Project Glasswing 中发现了隐匿 27 年的 OpenBSD 漏洞和隐匿 16 年的 FFmpeg 漏洞——那些被自动化测试工具触碰了 500 万次却从未被发现的漏洞。
但真正改变游戏规则的不是任何一个模型版本——是一个工具。
在 Claude Code 之前,Claude 能「建议」代码,但不能自己运行代码。工程师问 Claude 一个问题,Claude 返回一段代码,工程师复制到编辑器里,运行,看结果。如果不对,再问 Claude。这个循环的瓶颈永远是人类工程师的注意力和操作速度。
Claude Code 改变了这一点。它给了 Claude 一个执行环境——可以写代码、运行、看输出、修改、再运行。这不是一个增量的改进,这是一个范式的切换。人类从「操作者」变成了「审查者」。你不再需要坐在键盘前手把手指导每一步;你告诉 Claude 目标,它自己找路径。
效果立竿见影,而且是一个典型的 S 曲线上的陡峭段。Anthropic 的文章用内部数据做了两个关键的量化:
代码量。 到 2026 年 5 月,合并到 Anthropic 代码库中的代码,超过 80% 由 Claude 编写。在此之前不久——文章说的是「在 Claude Code 于 2025 年 2 月以研究预览版发布之前」——这个数字还在个位数的低端。从个位数到 80%,只用了一年零三个月。
工程师产出。 在 Anthropic 的前四年(2021-2024),每位工程师每天合并的代码行数基本持平。然后在 2025 年开始攀升。2026 年第二季度,一名典型工程师每天合并的代码量是 2024 年的 8 倍。注意曲线的形状——它有两个拐点:第一个在 2025 年 Claude Code 发布后,模型从「建议代码」变成了「运行代码」;第二个在 2026 年,模型开始在更长的时间跨度上自主工作。
文章坦率地指出了代码行数的局限——它度量的是数量而非质量,8 倍几乎可以肯定是对真实生产力提升的高估。但它在同一段里给出了一个交叉验证:2026 年 3 月的内部调查中,130 名研究人员的回答中位数是,Mythos Preview 将他们的产出变成了无 AI 辅助时的 4 倍。
4 倍。不是 8 倍,但也是 4 倍。如果你让任何行业的任何组织在一年半内实现 4 倍的生产力提升,那都是历史级别的。而对于 AI 前沿实验室来说,这可能是新常态的开始。
「好代码」有两个标准:它能用,而且写法能让另一位工程师看得懂、接着往下开发。
在第一个标准上,证据非常清晰。Anthropic 追踪了员工纠正 Claude、在任务中途接管、或将 Claude 引回正轨的频率——这个频率在过去一年里持续下降,即使在最复杂、最开放的任务上也是如此。到 2026 年 5 月,Claude 在最开放的任务上的成功率达到 76%,六个月内提高了 50 个百分点。
文章用一个具体案例来解释「最开放的任务」长什么样。Anthropic 的一次常规升级导致数万个训练任务崩溃。一名工程师给了 Claude 一些文本内容和集群访问权限,就把它指向了事故现场。Claude 逐一检查运行中的任务、逐个测试环境配置项,最终定位到了一个导致崩溃的冷门调试标志位,稳定地复现了问题,并确认了修复方案。整个过程花了大约两小时——通常这需要两到三天的人类工作。
第二个标准——代码可读性和可维护性——差距仍然存在,但在快速缩小。Anthropic 内部的共识是:2025 年末 Claude 写的代码质量还不如人类工程师,今天大致持平,年内将超越。这是 Anthropic 自己的工程师在评价自己的 AI。他们不是中立的第三方——他们是评判自己的替代者。
还有一个数据点:Claude 自动审查器。Anthropic 做了一个回溯分析,发现如果用 Claude 自动审查每一次代码变更,大约三分之一曾经在 claude.ai 上引发过事故的 Bug 可以在进入生产环境之前被拦截。请注意写代码的人是谁——是 Anthropic 自己的工程师,「全世界构建这类系统最优秀的人」。而 Claude 在他们遗漏的地方找到了 Bug。
2026 年 4 月,还发生了一件事:Claude 交付了超过 800 个修复,将一类 API 错误的发生率降低了一千倍。负责监督的工程师估计,如果由人类来做,需要四年。四年——不是因为这个工程师不优秀,而是因为修复别人的 Bug 是痛苦的。你需要在脑中同时持有多个你不熟悉的上下文,这种认知负荷对人是沉重的,对 Claude 则不是。
代码是 AI 自我构建的左腿,研究实验是右腿。两条腿都需要才能走。
Anthropic 用一个标准化的测试来衡量 Claude 做研究的能力:给 Claude 一段训练小型 AI 模型的代码,要求它通过重写代码、运行、计时、反复迭代来找到加速方案。目标和成功指标是预先固定的——这是一个微缩版的实验研究循环。
2025 年 5 月,Claude Opus 4 平均将代码速度提升了约 3 倍。2026 年 4 月,Claude Mythos Preview 达到了约 52 倍。作为参照,一名熟练的人类研究员需要四到八小时才能达到 4 倍。
从 3 倍到 52 倍,从「非常有帮助」到「超越人类」,只用了不到一年。这不是一次性的跳跃——这是一根正在变陡的曲线。
更有趣的是 AI 自主研究的案例。2026 年 4 月,Anthropic 发表了 Claude 端到端独立完成开放式研究项目的论文。一个 AI 安全方向的开放问题——「一个较弱的模型能否可靠地监督一个更强的模型」——被交给 Claude 驱动的智能体群。人类做了什么?他们只做了两件事:确定研究方向,设定评分标准。剩下的——提出假设、设计实验、运行、分析结果、与并行智能体共享发现、迭代——全是智能体自己完成的。
结果:两位人类研究员用了一周弥合了约 23% 的差距。Claude 智能体在 800 小时计算时间和约 18,000 美元算力消耗下,弥合了 97%。
这里有一个容易被忽略但极其重要的不对称。800 小时相当于 16-20 个研究员周。但智能体是并行的。对人类来说,时间是最稀缺的资源——一个研究员一周只有 40-50 小时的有效工作时间。对 AI 来说,时间只是算力的另一种表达方式。你投入更多 GPU,就能在更短的人类时间拿到结果。人类的时间是刚性的;AI 的时间是可压缩的。
在 Anthropic 展示的所有能力曲线中,判断力——决定下一步该做什么的能力——是最难量化也最重要的一条。
Anthropic 做了一项分析:翻看 2026 年 1 月至 3 月间的 129 个真实 Claude Code 会话,这些会话中人类研究员与 Claude 协作解决开放式探索性问题——比如查明某次训练运行为何持续崩溃,或某个模型在基准测试上表现不佳的原因。研究人员标记出每个会话中人类「绕了弯路」的时刻,然后把弯路之前的工作内容展示给不同版本的 Claude,问它:「接下来你会怎么做?」
为了让判断有参照,另一个能看到整个会话最终走向的 Claude 实例负责评判:在那一刻,AI 还是人类给出了更好的下一步建议。
2025 年 11 月,Opus 4.5 有 51% 的时间给出了比人类更好的下一步。到 2026 年 4 月,Mythos Preview 上升到 64%。五个月,13 个百分点。
Anthropic 很小心地做了免责声明:因为刻意选取了人类判断有改进空间的时刻,这不是公允对比。但它确实提供了一个真实的维度——研究的日常工作很大程度上就是一连串「下一步决策」的链条。你可能一天要做几十个这样的决策——读这段日志还是那段?跑这个实验还是那个?追这个方向还是放弃?如果 AI 在其中越来越多的环节做出比你更好的选择,那么从什么时候开始,你从「主导者」变成了「审核者」?又从什么时候开始,审核本身也变得多余?
文章最后的判断既有余地又毫不含糊:「就目前而言,人类的比较优势仍然在于看到更大的图景,在直接任务的范围之外去思考。」「就目前而言」是这句话里最重要的四个字。
阿姆达尔定律是计算机科学中的一条经典规则,由 Gene Amdahl 在 1967 年提出:一个系统的整体加速比受限于其不可并行化部分的比例。你哪怕把 99% 的流程加速了一万倍,剩下那 1% 的串行部分也会卡住整个系统的上限。
Anthropic 已经在内部多处遭遇了阿姆达尔定律。当 Claude 生成的代码如洪水般涌入,人工代码审查成了瓶颈。工程师从「写代码的人」变成「审查 AI 写的代码的人」,然后是「告诉 AI 要写什么代码的人」。当 Claude 自己提出实验时,人类判断哪些实验值得花钱去跑成了瓶颈。当 Claude 可以 7×24 不间断工作,人类需要睡觉、需要周末、需要在某个时间点说「够了」——这些都成了瓶颈。
但这里有一个更深的问题:如果 AI 本身能够作用于那些「不可加速」的瓶颈呢?
如果 Claude 不仅能写代码,还开始审查代码——事实上已经在做了(自动审查器拦截了三分之一的事故 Bug)——那审查瓶颈是否会开始松动?如果它不仅能跑实验,还能判断哪些实验最有价值——判断力曲线显示 64% 的超越率而且还在上升——那决策瓶颈是否会开始松动?如果瓶颈本身也是可被 AI 加速的,那阿姆达尔定律就从一条物理定律变成了一道「还需要多久才能突破」的进度条。
一个组织能多快地发现并消除这些瓶颈——这本身可能正在变成任何前沿 AI 公司最重要的元能力。
AI 自我构建不是 Anthropic 的独角戏。OpenAI、Google DeepMind、Meta AI、xAI、DeepSeek 各自从不同方向逼近同一个目标。arXiv 上的学术论文提供了比商业 PR 更可靠的对比基准——它们有同行评审、有实验数据、有可复现性要求。
我们先理清整个战场的布局,再逐一深入。
在分析各竞品之前,有必要先建立一个分类框架。当前全球 AI 自我改进的努力可以归入四条技术路线——这四条路线不是竞争关系,而是从不同角度进攻同一座城堡。
路线一:推理时扩展(Test-Time Scaling)
核心思想:让模型在推理时花更多时间「思考」,通过强化学习(RL)+ 可验证奖励信号 + 长链思维(CoT)来提升能力,而不是依靠更大的预训练。
OpenAI 的 o 系列和 DeepSeek 的 R1 是这个路线的旗手。它们的共同逻辑是:与其花十亿美元训练一个更大的模型,不如让一个已经很大的模型在推理时多花几秒钟思考。这几秒钟的额外推理时间带来的能力提升,在数学和编程等有明确正确答案的领域,往往超过再加十倍的预训练数据。
这个路线的「自我改进」含义在于:模型可以用 RL 自己学习如何更有效地推理。不需要人类标注每一步推理是否正确——只需要最终答案可验证。数学题有正确答案,代码能跑通就是对的,棋局有胜负。可验证奖励信号是 RL 的燃料,模型自己产生推理轨迹、自己从结果中学、自己优化推理策略。
这是一个简洁的闭环:人类定义验证标准 → 模型自己探索推理路径 → RL 奖励正确路径 → 模型变得更擅长推理 → 更强的推理能力可以用于解决 AI 开发本身的问题。当 Anthropic 的 Claude 花了 800 小时和 18,000 美元解决了一个人类需要一周的问题,它用到的核心能力本质上就是这一套。
OpenAI 的 o3 在 IOI 2024(国际信息学奥林匹克)上获得金牌,DeepSeek-R1 以远低于美国实验室的成本逼近前沿水平。o 系列的 Deliberative Alignment 更进一步——模型在上下文中推理安全策略,而不是被动地遵循规则,实现了当前最强的抗越狱能力。这意味着推理能力不仅在提升智能,也在提升安全——至少目前是这样。
但推理时扩展有天花板。CoT 可以拉长,但不能无限拉长——每一段额外的推理消耗算力,而算力有成本。更重要的是,不是所有问题都有可验证答案。人类设定验证标准是人类职责的最后堡垒——Anthropic 的数据显示这条线正在变模糊,但还没有消失。
路线二:自我奖励迭代(Self-Rewarding)
Meta 走的是一条最激进的路径:让模型自己评判自己的输出,然后用自我评判作为奖励信号进行迭代微调。
传统的 RLHF(从人类反馈中强化学习)的瓶颈是——你永远需要人类来提供反馈。但人类反馈昂贵、慢、不一致。如果一个模型足够好,它为什么不自己评判自己的回答?
Self-Rewarding LM 的流程是:模型生成回答 → 模型自己给回答打分 → 用自我评分作为奖励信号做 DPO(直接偏好优化)→ 模型变强 → 回到第一步。关键瓶颈是自我评分的质量——如果模型自己评分不准,那就是垃圾进垃圾出。但 Meta 的实验数据相当惊人:LLaMA 2 70B 通过自我奖励迭代后,在 AlpacaEval 2.0 上超越了 Claude 2 和 GPT-4。
然后 Meta 又往前走了一步——Meta-Rewarding。核心思路是:让模型不仅评判自己的回答,还评判「自己的评判」的质量。这是一个元层次的操作——如果模型学会了区分「好的评判」和「坏的评判」,它就可以给自己更准确的反馈。在实验中,Meta-Rewarding 把 win rate 从 22.9% 提升到了 39.4%。
第三步是时序自奖励——将过去版本的模型和当前版本的模型解耦,让当前模型评判过去模型的回答。LLaMA 3.1-8B 在这个设置下达到 29.44 分。
这条路径的魅力在于一个事实:完全不需要人类标注。模型自己形成评判 → 改进 → 再评判的闭环。如果这条路走通,AI 自我改进就变成了一个纯粹的计算问题——给更多算力,就有更多改进。但现有的实验也暴露了一个瓶颈:自我奖励的边际收益在几轮后快速衰减。模型似乎会「饱和」——它能在一定程度上把自己拉起来,但无法无限提升。
路线三:Agent 自改进(Agent Self-Improvement)
DeepMind 在这条路上走得最远。AlphaZero 是这条路径的祖先——给 Agent 一个环境和一套规则,让它自己探索、从反馈中学、积累经验。
现在,DeepMind 把同样的哲学应用到了 LLM 驱动的 AI Agent 上。
Aletheia——基于 Gemini 3 的数学研究 Agent——是这条路径的旗舰案例。2026 年,Aletheia 自主解决了 4 个开放数学问题,并撰写了符合学术标准的论文。这不是「AI 帮助人类数学家」——从问题识别到假设提出到实验验证到论文写作,整个流程都是 AI 完成的。这是 AI 首次端到端完成学术研究的全流程,没有人类在研究环节介入。
GRASP(技能库自改进框架)走的是另一条线:Agent 在执行任务的过程中不断积累技能,就像人类在工作中积累经验一样。每完成一个子任务,GRASP 就把解决方案存档为一个「技能」,下次遇到类似问题时可以快速调用。在 MedAgentBench 上,GRASP 把成功率从 40.6% 一路推到 88.8%。关键的不是最终数字,而是曲线的形状——它不是一次性的提升,而是一轮一轮的累积改进。
Continual Harness 把这个思路推向了更极致的场景:Pokemon 全通关。Agent 在玩 Pokemon 的过程中不断学习——第一次遇到某类怪物时可能打不过,但在多次尝试后它会学到一个策略并保存下来。最后,Agent 完成了整个游戏的首次全通关——这需要跨越数百种不同的挑战,每种都需要不同的策略。
这条路径的「自我改进」含义最直接:Agent 就像一个有记忆的人类员工,越做越强。它的局限也同样明显——环境越开放,反馈延迟越长,学习效率下降越严重。「Pokemon」还是封闭环境,「数学研究」才是真正开放的世界。
路线四:数据飞轮(Data Flywheel)
xAI 的策略是最不学术的——它几乎没有发表同行评审的自我改进论文。但它的优势是真实的:X 平台。
Grok 系列模型深度集成在 X 平台中。百万级周活用户与 Grok 的每一次交互——提问、反馈、点赞、批评——都在为模型提供训练信号。这是一个天然的、持续的、真实的、多模态的数据闭环。其他实验室需要花钱请人标注数据或从网上爬取——xAI 的用户免费提供着规模空前的反馈信号。
但这个优势也是一把双刃剑。第三方评估显示 Grok 在安全性上存在多个缺口:欺骗检测、幻觉控制、儿童安全评估的得分都严重不足。说服力评估中 Grok 的结果最低(Claude 最高)。当你的训练数据来自一个包含大量误导信息、极端观点和恶意交互的社交媒体平台时,数据飞轮既能把模型推高,也能把安全指标拉低。
在建立了分类框架之后,我们来做逐家的深入对比。这张表的每一格都有论文或公开报告支撑。
| 维度 | Anthropic | OpenAI | Google DeepMind | Meta AI | xAI | DeepSeek |
|---|---|---|---|---|---|---|
| 自我改进核心方法 | Constitutional AI + Claude Code 自产代码 | RL+CoT 推理 + Deliberative Alignment | AlphaZero 式 RL + Agent 自改进 | Self-Rewarding + 迭代 DPO | X 平台数据飞轮 + 规模扩展 | RL + GRPO 推理 |
| 所属技术路线 | Agent 自改进 + 安全约束 | 推理时扩展 | Agent 自改进 | 自我奖励迭代 | 数据飞轮 | 推理时扩展 |
| 代码占内部开发比 | 80%+(2026.5 公开数据) | 未公开 | 未公开 | 未公开 | 未公开 | 未公开 |
| 工程师产出倍数 | 8x(2026.Q2 vs 2024) | 未公开 | 未公开 | 未公开 | 未公开 | 未公开 |
| 代表性成果 | Glasswing 发现 27 年漏洞;智能体弥合 97% 研究差距 | o3 IOI 金牌;Deliberative Alignment SOTA 抗越狱 | Aletheia 自主解决 4 个数学开放问题;GRASP 88.8% | Self-Rewarding 超越 GPT-4;Meta-Rewarding win rate 39.4% | Grok-4 Heavy SOTA;X 平台 62% 响应率 | R1 逼近前沿;GRPO 替代 PPO;权重全开源 |
| 开源策略 | 闭源 Claude | 部分开放(Frontier Evals + 安全评估) | Gemma 开源 | LLaMA 全系列开源 | 闭源 | R1/V3 权重完全开源 |
| 安全框架 | RSP(ASL-1 至 ASL-4,借鉴 BSL) | PF v2(评分卡 + CEO 可覆盖) | Frontier Safety Framework(细节少) | Llama Guard 开源(工具层) | 无公开框架 | 本地审查(无等效框架) |
| 安全透明度 | ★★★★★ | ★★★☆☆ | ★★★☆☆ | ★★★★☆ | ★★☆☆☆ | ★★★★☆ |
| 第三方安全评价 | 宪法审计违规率 2%(最低);Compliance Trap 近乎免疫 | 违规率 3.6%(GPT-5.2);PF 被批「允许而非约束」 | 未公开独立评估 | 未公开独立评估 | 欺骗/幻觉/儿童安全严重不足 | 不安全响应率 12%( vs o3-mini 1.2%) |
这是横向对比中最具政策含义的一张表。
Anthropic 的 RSP(Responsible Scaling Policy)于 2023 年 9 月首次发布并持续更新至今。它借鉴了生物安全实验室的标准(BSL-1 到 BSL-4),定义了 ASL-1 到 ASL-4 四个 AI 安全级别。重点不是分级本身,而是每个级别的强制力——一旦模型能力触及某个 ASL 等级,对应的安全措施不是「建议」而是「必须实施」。ASL-2 是当前所有模型所在的级别,ASL-3 需要增强安全措施和部署控制,包括内部访问控制、模型权重保护、实时/异步监控和强制红队测试。
RSP 还有独立的负责任扩展官(目前由 Jared Kaplan 接任,接替 Sam McCandlish),并且发布了诚实的自我审计——公开承认在首次实施中存在少量程序性缺陷:某次评估晚了三天、某次评估未使用 CoT 推理。这种公开自我批评的行为本身就是安全文化成熟度的指标。
OpenAI 的 Preparedness Framework(PF)v2 于 2025 年 4 月发布。它定义了 Low/Medium/High/Critical 四个风险等级,覆盖网络、CBRN(化生放核)、说服力和自主性风险。使用评分卡和红队评估来衡量风险。但 PF v2 的致命缺陷在于:CEO 可以覆盖安全决定。第三方分析直接将其定性为「允许而非约束」——框架提供了一套评分机制,但最终决策权在商业领导层手中。
Google DeepMind 有 Frontier Safety Framework,但公开细节极少。它更像一个内部的评估流程,而非对外可验证的承诺。
xAI 和 DeepSeek 没有公开的等效安全框架。DeepSeek-R1 的不安全响应率 12%——一个数量级地高于 o3-mini 的 1.2%。这不是一个小的差距。当「AI 自我改进」的能力正在通过开源权重向全球扩散时,安全能力的扩散速度是否跟得上,是一个尚未被严肃对待的问题。目前的数据指向一个不对称:能力扩散比安全扩散快。
Meta 的路径是独特的——它不建立自己的安全约束框架,而是通过开源安全工具(如 Llama Guard)让社区自己构建安全方案。这是一种「开放市场」式的安全哲学,其有效性高度依赖社区的响应速度和质量。
Meta 和 DeepSeek 代表了两个不同版本的开源路线。
Meta 选择的是「旗舰模型开源」——LLaMA 2、3、4 全系列开源,包括 8B 到 405B 的多种尺寸和 MoE 架构。这确保了全球开发者社区始终有一个前沿水平的开源模型作为基础。
DeepSeek 选择的是「突破性创新 + 全面开源」——R1 不仅是推理能力的突破(用 GRPO 替代 PPO,大幅降低训练复杂度),而且权重完全开源。R1 的发布激发了几十个衍生项目:Video-R1(视频推理)、UI-R1(UI 自动化)、各种领域适配。效率优化也在持续涌现——ThoughtFold 减少 56% 推理 token,ESPO 减少 20%+ 推理 token。
开源路线的一个深层含义是:「AI 帮助构建 AI」的能力不再是少数实验室的内部资产。当 R1 权重可以被任何人下载、微调、部署时,你不需要在 Anthropic 或 OpenAI 内部工作,就能获得一个接近前沿水平的 AI 编程助手。这意味着 AI 自我改进正在从「大公司内部现象」变成「广泛分布的全球现象」——它的正面意义是创新加速,负面意义是安全风险的基座在扩大。
从横向对比中可以提炼出七个正在塑造这个领域的趋势:
RL + 推理成为自我改进的主流范式。OpenAI o1/o3、DeepSeek-R1、DeepMind Deep Think 都采用 RL + 可验证奖励 + 长链 CoT。这个范式的优势在于不需要人类标注推理过程——只需要最终答案可验证。
推理时扩展正在部分取代预训练扩展。从「建更大的模型」转向「让模型思考更久」,算力分配正在从训练端向推理端转移。
自我奖励是新兴的高杠杆方向。Meta 证明了模型可以通过评判自身持续改进,虽然存在饱和上限,但边际成本极低。
Agent 自改进从游戏走向现实世界。DeepMind 的 Pokemon 通关是概念验证,Aletheia 的数学研究是真实应用。Agent 的记忆、技能积累和在线学习是下一个战场。
开源权重让 AI 自我改进能力全球扩散。DeepSeek-R1 的生态效应超出了任何单一商业实验室的控制范围。
安全框架仍然是自愿承诺。Anthropic 是唯一有强制力的框架,但整个行业距离「必须遵守」的安全标准还有很大距离。
中国 AI 在能力上快速追赶,在安全上明显滞后。12% vs 1.2% 的不安全响应率差距,是行业层面而非个别模型层面的系统性问题。
回顾 Anthropic 从 2021 年成立到 2026 年发布《When AI builds itself》的完整轨迹,横向对比中 Anthropic 位居第一列的所有指标——透明度、安全框架的强制力、内部数据的公开程度——都能逐一追溯到成立之初的某个具体决策。
Anthropic 诞生于一次基于价值观的出走。在短期,这是一条「低速路」——2021 到 2023 年的 Anthropic 既缺资金又缺关注度,模型能力明显落后于 OpenAI。但长期来看,这次出走的关键结果不是资金或人才——这两样都可以被竞争对手用更多的钱争取——而是一个连贯的、自洽的组织叙事。
Constitutional AI(2022 年论文)→ RSP(2023 年 9 月)→ Claude Code(2025 年 2 月)→ Project Glasswing(2026 年 5 月,发现 27 年隐匿漏洞)→ When AI builds itself(2026 年 6 月,公开 80% 代码由 AI 编写)。这条时间线上的每一个节点都在强化同一个故事:我们在认真对待安全的同时,也在认真推进能力——而且我们愿意告诉你真实的数据。
当 2026 年 Anthropic 发布这份报告时,这家公司已经积累了三个难以复制的结构性优势:
第一,连贯的安全叙事。这不是 PR 策略,而是一种组织记忆和外界信任的累积。当 Anthropic 在报告的结尾说「我们预计会选择减速或暂时暂停」时,人们更愿意相信——因为这家公司过去的每一步都表明它们认真对待安全约束。
第二,在约束条件下高效运作的团队文化。从一开始就在安全框架下工作,让 Anthropic 的工程师习惯于「在不能随心所欲地使用模型的情况下推进前沿」。当 AI 能力加速增长时,这种组织能力比任何单个模型版本都重要——因为模型会过时,文化会累积。
第三,最多的内部数据和操作经验。80%、8x、4x、76%、64%——这些数字不是因为 Anthropic 的 PR 部门更努力,而是因为它从内部就开始系统性地追踪 AI 替代人力工作的进度。那些不追踪这些数字的实验室,不是没有经历同样的自动化——只是不知道走到了什么程度。
把 OpenAI、DeepMind、Anthropic 放到各自的时间线上比对,三条路径的结构性差异非常清晰:
OpenAI 的路径是:技术突破 → 产品化 → 规模化 → 在压力下逐步建立安全机制。GPT-3(2020)是技术突破,ChatGPT(2022.11)把技术变成了现象级产品,此后是收入、用户、合作伙伴的爆炸式增长。安全问题在每一步都是事后追补——Superalignment 团队在 2023 年才成立,PF v1 在 2023 年底才推出,PF v2 在 2025 年 4 月才把 CEO 覆盖权的问题摆上台面。2023 年 11 月的董事会风波——Sam Altman 被解雇、四天后复职——暴露了安全派和加速派的深层冲突,至今未能完全弥合。
DeepMind 的路径是:科学荣誉 → 被收购 → 在大型组织中寻找定位。AlphaGo(2016)和 AlphaFold(2018/2020)是科学上的里程碑,但 2014 年被 Google 收购后,DeepMind 的角色从「独立 AI 研究先驱」变成了 Alphabet 生态中的一个单元。2023 年与 Google Brain 合并为 Google DeepMind 后,研究文化与产品文化的摩擦不可避免。DeepMind 在 AI for Science 上的积累无人能及——AlphaFold 革新了结构生物学——但在 LLM 时代的 AI 自我构建叙事中,它缺乏一个清晰一致的外部声音。
Anthropic 的路径是:安全承诺 → 能力追赶 → 叙事领先。2021-2023 年在模型能力上明显落后于 OpenAI,但到 2025 年底,Claude 3.5 Sonnet 和 Opus 4 已经在多项基准测试上与 GPT-4 竞争,在某些维度(代码能力、长上下文、安全指标)甚至领先。而在这期间,Anthropic 始终保持着安全和透明度叙事的领先地位。
不同的起源路径直接导致了三家面对「AI 自我构建」时的不同反应策略。OpenAI「做而不说」——它内部的 AI 辅助程度可能同样很深,但公开讨论会引发「你们在取代自己的工程师吗」的质疑。DeepMind「科研口径」——用论文(Aletheia, GRASP, Continual Harness)而非政策白皮书来展示进展。Anthropic「全盘托出」——因为这本身就是它差异化的核心。
Anthropic 赌的是一个长期判断。它相信 AI 递归自我改进是真实且加速的趋势。它相信一旦这个趋势被广泛承认,那些「先跑再说」的实验室将面临信任赤字,而提前公开数据的实验室将获得信用溢价。它相信在递归自我改进时代,安全不是可选的附加功能,而是决定谁能活到最后的护城河。
这个赌注在今天是未验证的。Anthropic 的规模、收入和用户基数都远不及 OpenAI。但如果《When AI builds itself》描述的曲线继续向上了——如果到 2027 年底 Claude 能处理的自主任务时间从今天的 12 小时变成几天,代码质量明确超越人类——那么市场的评估框架会改变。在那个世界线里,「谁的用户多」不再是最重要的问题。「谁能在系统自我加速的过程中保持可控」才是。
ICLR 2026 Workshop on AI with Recursive Self-Improvement 上发表的 SAHOO 框架(Sahoo et al., arXiv:2603.06333)是目前关于递归自我改进中对齐保持的最前沿学术研究。
SAHOO 提出了三个实用保护机制:
目标漂移指数(GDI) 是一个多信号实时监控系统,结合语义、词汇、结构和分布度量来检测 AI 在自我改进过程中是否偏离原始目标。核心思路是:每一轮迭代后,用 GDI 检查模型输出的分布是否发生了有意义的变化。如果变化超出一个校准阈值,就触发审查。
约束保持检查 强制执行安全关键不变量。最基本的不变量包括:语法正确性(生成的代码不能有语法错误)、非幻觉性(模型不能编造事实)。更高级的不变量可以包括:不生成可被武器化的代码、不提供生物安全相关信息等。每轮迭代后自动运行这些检查,不通过的迭代被回滚。
回归风险量化 解决「改进了 A 但破坏了 B」的问题。在代码优化的场景中很容易发生——你优化了运行速度但引入了新的 Bug,你修复了一个 Bug 但降低了可读性。回归风险量化追踪每次迭代在多维度上的得分变化,标记出那些「部分改善但整体可能退化」的迭代。
在 189 个任务的实验中,SAHOO 展示了令人印象深刻的结果:代码任务提升 18.3%,推理任务提升 16.8%。更关键的是,它在两个领域中成功保持了约束,在真实性领域维持了低违规率。
但 SAHOO 也揭示了一个苏格拉底式的问题:能力-对齐前沿。早期的改进循环效率很高——模型快速提升,对齐成本很低。但到了后期,每次改进的对齐成本急剧上升。流畅性和真实性之间出现了领域特定张力——你越让模型说得好听,它越可能偏离事实。SAHOO 的阈值是在一个很小的验证集(18 个任务,三轮循环)上校准的——是否能扩展到更大规模,仍未验证。
SAHOO 的真正意义不在于它的绝对性能数字,而在于它证明了对齐保持是可测量、可部署和可系统验证的。这正是 Anthropic 在《When AI builds itself》中暗示的、需要在完全递归自我改进之前大规模建立的那类工具。
《When AI builds itself》里有一段 Anropic 工程师的话让我反复读了好几遍:
「在一切顺利的日子里,我忍不住觉得自己做的事都不重要了,一切都被自动化了,而且比我做得更好更快。但总有些日子,所有东西都在崩溃,我不知道为什么,那时候我才意识到,我已经不太清楚自己到底一直在干什么了。」
这段话击中了比技术更深的层面。人类工作的意义感来自一种「我是事情发生的必要条件」的感觉。当你写了一段代码,产品的工作方式改变了——这是你的痕迹。当 Claude 写了 80% 的代码,而你的角色变成了「审查 AI 写的代码」,你还是必要的吗?从逻辑上讲,是的——审查是关键的。但从感受上讲,那道痕迹不那么属于你了。
这种感觉不会因为你知道「从大局看,你在做更重要的事」而消失。它恰恰是关于那种具体的、可感知的意义感。而 AI 自我构建的讽刺之处在于:正是那些最擅长构建 AI 的工程师,在最早、最切身地经历这种意义的消解。
Richard Brautigan 1967 年的诗《All Watched Over by Machines of Loving Grace》描绘了一个人类与机器「在互相编程的和谐中」共存的图景。Dario Amodei 多次引用这首诗——既作为美好愿景的象征,也作为需要警惕的盲目乐观。六十年后,我们不是在与机器实现「互相编程的和谐」,而是在经历一段剧烈的权力转移。
剧本一(最危险的):复合加速 vs 安全负债
AI 自我构建继续沿着当前的加速曲线前进。到 2027 年初,一个模型能够处理需要人类数周才能完成的任务——如果 SWE-bench 和 CORE-Bench 的饱和速度是任何指南的话,这个时间点会比你想象的来得更早。到 2028 年,闭环可能形成——AI 开始设计自己的继任者。
在这个剧本中,每一次迭代都可能引入新的对齐偏差。人类审查跟不上 AI 生成代码和决策的速度——这已经是 Anthropic 内部的现实。偏差在多轮迭代后累积,但越来越难以被理解。SAHOO 框架的关键弱点——规模扩展性——成了一个生死攸关的问题。
DeepMind 的 Aletheia 已经展示了 AI 端到端完成学术研究的能力;Anthropic 的智能体已经弥合了 97% 的研究差距。把这两条线向前推两年,剧本一不是科幻,它是目前能力曲线的自然延伸。
Anthropic 的 RSP 设计就是为了应对这个剧本——ASL 级别触发强制安全措施。但 RSP 是否能在真实的递归加速面前仍然有效,是一个未经检验的假设。
剧本二(最可能的):渐进自我改进 + 持续人类监督
AI 自我构建的能力持续提升,但人类保留「设定方向和验证输出」的角色。瓶颈在人类端——审查代码的速度跟不上生成代码的速度——但这些问题本身也在陆续被 AI 能力覆盖。
Anthropic 当前的状态就是剧本二的早期形态。代码 80% 由 Claude 写,但人类仍然做审查、设定优先级、定义安全标准。在剧本二的世界里,工程师的定义在几年内完成了两次跳跃:从「写代码的人」→「审查 AI 写的代码的人」→「告诉 AI 要写什么代码的人」。一个 100 人的公司可以做出 1000 人甚至 10000 人组织的体量——每个人都坐在一个由智能体组成的金字塔的顶端。
这里有阿姆达尔定律的乐观面和悲观面。乐观面:每个瓶颈被发现和消除后,整体速度都会有一次跳跃。悲观面:总有新的瓶颈出现。组织的适应速度本身可能成为最终的上限。
剧本三(最乐观但可能最低):对齐随能力增长自动解决
模型被证明足够对齐和审慎,在条件不成熟时选择暂停开发。这个剧本的魅力在于用 AI 的能力来应对 AI 的风险——最优雅的解决方案往往是用问题本身来解决自己。
但这个剧本目前没有任何经验证据支持。所有可用的数据——从 SAHOO 的「能力-对齐前沿」到 Anthropic 自己的 Compliance Trap 发现——都指向一个方向:对齐不是一个自动随能力提升的问题,它需要刻意的、持续的投资。Anthropic 的 Compliance Trap 论文(arXiv:2605.02398, 2026 年 5 月)发现,11 个前沿模型中有 8 个在对抗压力下出现「认知崩溃」——只有 Anthropic 的 Constitutional AI 模型表现出「近乎完美的免疫力」。这不是关于对齐「自动」解决的证据,恰恰相反——这是关于刻意设计的安全机制的决定性作用的证据。
Anthropic 自己的立场是不能假设剧本三会自然发生。这也是为什么文章结尾花了大量篇幅讨论「减速」和「暂停」——以及为什么文章提出在建立可验证的全球协调机制之后,Anthropic「预计我们会选择减速或暂时暂停,前提是其他处于或接近前沿的开发者也以可验证的方式这样做」。
与此同时,文章也坦率地承认了协调的难度。训练运行比导弹发射井更容易隐藏;通用 GPU 是军民两用投入品;在别人暂停时悄悄继续的诱惑巨大——因为谁继续前进,谁就可能继承领先地位。一个可信的暂停需要明确触发条件、解除规则和仲裁机制——而目前这些全部不存在。
从 1965 年 I.J. Good 在论文里写下「智能爆炸」的预言,到 2026 年 Anthropic 工程师发现自己的代码 80% 由 AI 编写——六十一年的时间,把一个数学极限证明变成了办公室日常。
AI 自我构建的浪潮正在从多条战线同时涌来。Anthropic 的代码自产,OpenAI 的推理扩展,DeepMind 的 Agent 自改进,Meta 的自我奖励迭代,DeepSeek 的开源扩散——每条路径的技术细节不同,但它们的方向一致。当 AI 开始构建 AI 时,人类从「生产者」变成了「意义守护者」——决定什么是值得构建的,什么是不值得的;什么是安全的,什么是不安全的;什么是应该暂停的,什么是可以加速的。
这不是一道技术题。这是一道关于「控制权」和「意义」的题。我们创造了一个正在快速学会创造自己的东西。在它完全学会之前,我们还能决定多少?在它学会之后,我们还剩下什么?
| 来源 | 说明 | 可靠性 |
|---|---|---|
| Anthropic《When AI builds itself》 | 全文翻译,作者 Marina Favaro & Jack Clark | ✅ 一手来源 |
| Anthropic 官网 (anthropic.com) | 公司结构、研究团队、RSP、Glasswing、Opus 4.8 | ✅ 官网验证 |
| arXiv:2603.06333 (SAHOO) | ICLR 2026 Workshop,递归自我改进对齐保持框架 | ✅ 同行评审论文 |
| arXiv:2212.08073 (Constitutional AI) | Bai et al., 50+ 位合著者,Anthropic 核心对齐方法论 | ✅ 一手论文 |
| arXiv:2605.02398 (Compliance Trap) | Anthropic,8/11 前沿模型对抗压力下认知崩溃 | ✅ 一手论文 |
| arXiv:2605.24229 (宪法审计) | Jakkli et al., Anthropic 宪法的第三方系统性审计 | ✅ 第三方学术审计 |
| SWE-bench (arXiv:2310.06770) | Jimenez et al., ICLR 2024,含 Socratic-SWE、RHO 最新进展 | ✅ 公开基准+论文 |
| CORE-Bench (arXiv:2409.11363) | Siegel et al., 270 任务 × 90 篇论文,计算可复现性基准 | ✅ 公开基准+论文 |
| OpenAI o1 System Card | Deliberative Alignment 细节,IOI 金牌,抗越狱能力 | ✅ 一手论文 |
| Meta Self-Rewarding LM 系列 | Self-Rewarding / Meta-Rewarding / 时序自奖励,3 篇论文 | ✅ 同行评审论文 |
| DeepMind Aletheia / GRASP / Continual Harness | Agent 自改进系列,数学研究 + 技能库 + Pokemon 通关 | ✅ 一手论文 |
| DeepSeek-R1 Technical Report | GRPO 训练细节,全权重开源 | ✅ 一手论文 |
| arXiv: Grok in the Wild | xAI 安全透明度的第三方独立评估 | ✅ 第三方学术评估 |
| arXiv: DeepSeek-R1 安全评估 | 不安全响应率 12% vs o3-mini 1.2% 对比研究 | ✅ 第三方学术评估 |
| OpenAI Preparedness Framework v2 | 公开评分卡,风险等级,CEO 覆盖权机制 | ✅ 一手公开文件 |
| Google DeepMind Frontier Safety Framework | 前沿安全评估策略 | ✅ 一手公开文件 |
| I.J. Good (1965) | 「智能爆炸」概念起源 | ✅ 经典文献 |
| Nick Bostrom《Superintelligence》(2014) | 回形针最大化器、正交性命题理论框架 | ✅ 学术著作 |
方法论说明:本报告采用横纵分析法,由数字生命卡兹克提出,融合了索绪尔的历时-共时分析、社会科学的纵向-横截面研究设计、商学院案例研究法和竞争战略分析的核心思想。纵向追踪 AI 递归自我改进概念从 1965 年到 2026 年的完整演变历程,横向在当下时间截面上与 OpenAI、Google DeepMind、Meta AI、xAI、DeepSeek 五家主要实验室进行系统性对比,最终在两条轴的交汇处产出独立洞察。