-
斗鱼体育app 让 Anthropic 破防的「蒸馏」风云,好意思国 AI 大牛泼凉水:中国 AI 得手不靠走捷径
发布日期:2026-02-25 23:55 点击次数:86

Anthropic 昨天点名 DeepSeek、月之暗面、MiniMax 三家中国 AI 实验室「蒸馏」Claude 模子,全网炸锅。
对于此事件,RLHF (基于东谈主类反映的强化学习)领域最知名的接洽者之一,《RLHF》一书的作家 Nathan Lambert 指出,这件事莫得东谈主们瞎想的那么严重,但也莫得那么肤浅。
他以为,中国 AI 公司的基础模范尽头好,取得了好多更正,也在攻克多样本领贫窭,但它们取得这么的肃除,靠的并不是「走捷径」。
在接洽蒸馏这件事之前,先望望 Lambert 的话为什么值得听。
Nathan Lambert 是 Allen AI 接洽所的科学家,博士毕业于加州大学伯克利分校,师从机器东谈主领域的著明学者 Pieter Abbeel。他并非 RLHF 本领的发明者,但他写的《RLHF》这本开源竹帛,如今是 AI 从业者聚积大模子试验历程的圭臬参考材料之一。
和到处都是的 AI 网红不相通,他是着实上手试验过大模子的东谈主。
在 Anthropic 博客发出确今日,Lambert 就发布了一篇可贵分析著作《蒸馏对于中国大模子到底有多病笃?》。他的中枢论点,和主流媒体的解读场所霄壤之别,也比一般网友愈加潜入和全面。

蒸馏是什么,Anthropic 又说了什么?
领先咱们来看 Anthropic 指控的中枢:「蒸馏」(distillation)。
它指的是让弱模子学习强模子的输出,从而快速赢得相似才气。
Anthropic 指控三家公司通过约 2.4 万个作假账号,在违抗工作要求和地区探问限定的情况下,用 Claude 生成了跳跃 1600 万次对话,用于试验各自的模子。
博客还附上了安全劝诫:非法蒸馏出来的模子可能缺失原模子的安全护栏,一朝被用于采集膺惩、生物火器研发或大界限监控,后果难以展望。
Anthropic 把这套基础模范叫作念「九头蛇集群」 ( hydra cluster ) ——多达数万个账号的远隔式采集,流量同期远隔在 Anthropic 我方的 API 和多个第三方 API 团员平台上。
在最极点的案例里,一个代理采集同期束缚跳跃 2 万个作假账号,还把蒸馏流量混入闲居用户苦求流里,用来往避检测算法。这种采集莫得单点故障,封掉一个账号,立时换一个。
国外媒体随即跟进,复述了 Anthropic 的话术。辩论词这套叙事逻辑很快就翻车了:毕竟「蒸馏」这件事好意思国 AI 公司试验的时分也会作念,更并且 Anthropic 我方也有雷同步履:

以及:Anthropic「蒸馏」了东谈主类最大的常识库
但 Lambert 愈加安靖,他以为要先把这三家中国 AI 实验室分开来看
Lambert 指出,Anthropic 把三家公司并列列在归并篇博客里,笼罩了一个要津相反:它们作念的根本不是归并件事,量级天差地别,动机也各有侧重。
按照 Anthropic 的指控,DeepSeek 的蒸馏数目最少,只须 15 万次,但手法更精确。与其奏凯采集谜底,Anthropic 指控 DeepSeek 在作念的是批量坐褥念念维链 ( chain-of-thought ) 试验数据。
要的不是「你得出了什么论断」,而是得到论断的过程。
但 15 万次是个什么体量?Lambert 以为,这点数据对 DeepSeek 听说中的 V4 模子或任何模子举座试验的影响可以忽略不计,「更像是某个小团队在里面作念实验,大略率连试验细致东谈主都不知谈。」

月暗的界限就不是「可以忽略」了:340 万次交互,主义聚积在智能体推理、、器具调用、代码与数据分析、computer-use 设备、谋略机视觉等场所——这些场所当中,大部分都是 Claude 近期最受企业客户宽饶的才气组合。
Anthropic 指出三家里流量最大的是 MiniMax,约 1300 万次,主义是代理编码、器具调用和复杂任务编排。
月暗和 MiniMax 相加约 1650 万次,按对话平均 token 量估算,总量苟简在 1500 亿到 4000 亿 token 之间,折合数百到上千万好意思元的 token 老本。
但问题是,只盯着蒸馏看,其实有很大问题。
蒸馏的天花板在那儿?
这才是 Lambert 着实想说的部分,亦然整件事里最被冷漠的地方。
把强模子的输出喂给弱模子,弱模子能快速赢得雷同才气——这个逻辑自己建立,Lambert 莫得否定。但他指出了一个没东谈主说清亮的问题:蒸馏的天花板到底在那儿,取决于你想要的是什么类型的才气。
行为 RLHF 方面的民众,Lambert 以为,现时最顶尖的模子试验,也曾高度依赖强化学习(RL)。而 RL 和蒸馏在骨子上是两种不同的事情:
蒸馏是效法,学强模子的输出,把它的「谜底容貌」复制过来;RL 是探索,模子必须多数我方推理、我方生成、在谬妄里反复迭代,从试错中索取才气。
换言之,着实庞杂的模子,需要的从来不仅仅正确谜底,而陆续要靠模子我方摸索出来的解题旅途,这是依靠蒸馏别东谈主 API 的输出,得不到的东西。

以 DeepSeek 我方作念的蒸馏尝试为例:基于临近千问蒸馏自家的 R1 模子后得到的 DeepSeek-R1-Distill-Qwen 1.5B 这个小模子,仅靠 7000 条样本和极低的谋略老本,就在 AIME24 数学竞赛基准上特地了 OpenAI 的 o1-preview。
但要津在于:这个晋升等多仰仗强化学习的肃除,而非来自蒸馏这个步履自己。
换句话说,蒸馏能帮你更快「热身」,斗鱼体育要着实到达顶级水平,如故得靠我方跑 RL。
不同模子之间的数据远隔相反
Lambert 还指出了一个本领层面很少被外界说起的问题:不同模子之间存在玄机的数据远隔相反。
把 Claude 的输出奏凯喂给另一个架构的模子,不一定有用,随机以致会产生干涉。两个模子里面表征空间的相反,会让「本分」的修起在「学生」那里激励出东谈主预料的偏差。
这意味着蒸馏从来不是「拿来用就行」的事,而是需要多数工程责任才能着实贯通效果。这自己便是一个接洽课题。
这亦然为什么 Lambert 将 Anthropic 所指控的「蒸馏」步履,看作是一种更正的作念法,可以聚积为试图攻克这一接洽课题的尽力。

Anthropic 的杀手锏,正巧最难蒸馏
Anthropic 点名的三家公司,持取的重点都落在代理步履 ( agentic behavior ) 这归并个方朝上,包括 AI 自主操办、器具调用、明白复杂任务并渐渐履行的才气等。
这是 Claude 面前最杰出的场所,亦然 Anthropic 最不想被复制的才气。
但 Lambert 的判断是,这些才气正巧亦然最难通过蒸馏赢得的。
正如前边提到,一个庞杂的 AI agent,庞杂之处从来不在于知谈或者试验过正确谜底,而是「在面临没见过的情况时能自主探索出惩处旅途」,可以聚积为一种 0-shot 或 few-shot 终了 SOTA 效果的才气。
{jz:field.toptypename/}这个过程中产生的价值,体面前推理轨迹,而推理轨迹是很难通过蒸馏习得的——至少面前是这么。
DeepSeek-R1-Distill(蒸馏模子)和 DeepSeek-R1(蒸馏对象)之间的差距,是 Lambert 论点最奏凯的例证。
在容貌化的数学推理任务上,前者进展可以;但在需要自主探索、动态操办的复杂代理任务上,两者的差距是确实存在的。

为什么 Anthropic 面前公开说 ?
Lambert 有一个判断,好多东谈主可能都有同感:此次 Anthropic 公开点名中国 AI 公司,「本领防患」根底不是首要动机。
在 Anthropic 这篇博客发出的几天前,好意思国国防部刚刚威迫 Anthropic 合作提供「不受限定的使用权限」,不然就将作念出对后者不利的安排,比如将其记号为「供应链危机」,也即无法参加国防 / 政府供应商名单。
Anthropic 面前处于一个「既要又要」的两难境地:既想保管安全、不反东谈主性的模子定位和公司形象,又不肯意错过好意思国政府的大单。
Lambert 指出了一个根本矛盾:好意思国的学术界和开源模子设备者也在作念蒸馏步履,但包括 Anthropic 在内的大厂并莫得对它们作念出实质性的打击。淌若仅因为对方是中国公司,不免地缘的意味太重了。
肃除便是,Anthropic 这篇博客与其说是论说一个紧要本领风险事件……其实更像是一封「投名状」。

双标
对于 Anthropic 在这件事上的态度,有一个绕不开的布景。
APPSO 在昨天的著作里也有提到:Anthropic「蒸馏」了东谈主类最大的常识库
2024 年年头,好意思国某仓库里,工东谈主们把一册本新书送进机器,切掉书脊,扫描,然后把纸送去回收。下令作念这件事的是 Anthropic,容貌里面代号「巴拿马」,主义所以碎裂性方式扫描宇宙总计竹帛—— Anthropic 不但愿外界知谈他们作念了这件事。
2021 年,Anthropic 斡旋首创东谈主 Ben Mann 在 11 天里从盗版网站 LibGen 下载了多数侵权竹帛;次年,另一个公开声称「在大多数国度特意违抗版权法」的网站 Pirate Library Mirror 上线,Mann 把衔接发给共事,留言:「来得恰是时分!!!」
在其后的竹帛版权诉讼中,Anthropic 被动支付 15 亿好意思元妥协金,折算下来每本书约赔 3000 好意思元。
斯坦福和耶鲁的接洽者发现,Claude 3.7 Sonnet 在特定条件下会以 95.8% 的准确率「近乎一字一板」地输出《哈利波特》等受版权保护的作品——这不仅与 Anthropic 遥远以来对于「模子仅仅学习了言语章程」的说法以火去蛾中,更让该公司对任何东谈主的「蒸馏」指控显得缺少底气。
Futurism 的标题写得很奏凯:「Anthropic 对 DeepSeek 未经授权复制 AI 大发雷霆——探究到它是如何构建 Claude 的,这相当讪笑。」

Musk 在 X 上也补了一刀:「Anthropic 大界限窃取试验数据,还为此支付了数十亿好意思元的妥协金。这是事实。」

反驳者还有一个更厉害的逻辑:Anthropic 昔时从那些书里拿走的,不仅没付过任何使用费,回头还用于买卖步履(Claude 和 Anthropic API 都是付费工作);而从买卖角度来看,蒸馏 Claude 的公司至少付了钱……
虽然,从法律层面来看,这两件事的性质都备不同。但不管怎么,Anthropic 看起来如故很像个子虚的双标者。
「后蒸馏期间」
终末再强调一遍:蒸馏有用,但莫得你们瞎想的那么有用。
DeepSeek 的 15 万次,按任何合理圭臬来看都是可以忽略的数字。Moonshot 和 MiniMax 测度 1650 万次,量级是另一趟事——但能转化成若干确实才气,取决于他们能弗成惩处「如何用好这些数据」的本领问题。
探究到数据远隔相反、模子架构相反,以及代理才气的赢得自己对于强化学习的重度依赖,蒸馏从来不是「拿来就用」那么肤浅。
Lambert 如故给了 Anthropic 好看:「快速迭代加上高质地数据可以走很远,让学生模子特地本分也并非不可能。」

但他也明确指出,着实的更正靠的是强化学习,不是蒸馏。从 DeepSeek、月暗、MiniMax 公开的论文来看,它们都用有相当完善的基础模范和优秀的东谈主才,远非只靠小智慧小伎俩企图弯谈超车的「小作坊」。
蒸馏能帮你更快入场,但真要打到顶级水平,从来莫得捷径。
某种真谛真谛上,Anthropic 提议的「蒸馏」争议,自己便是这个 AI 期间缩影。
通盘行业打一运转就建设在肮脏不清的规定上:用东谈主类写的东西试验,用别东谈主的开源效能迭代,在法律莫得明确辞谢的地方快速活动。
面前,规定运转迟缓收紧——先是版权,再是芯片,面前又是 API ……谁在制定例则?谁受益于规定?谁一边打着东谈主类的旗帜,却浪费规定谋求私利?
这些问题的谜底,都越来越清亮。

备案号: