常用: 学生 教职工 校友 OA系统 邮件系统 VPN系统 图书馆 智慧门户 EN
首页 2026世界杯 沙巴体育 独家|ChatGPT中枢孝顺者归国创业: 把LLM的Scaling带到

沙巴体育 独家|ChatGPT中枢孝顺者归国创业: 把LLM的Scaling带到具身智能

发布时间:2026-05-25 来源:2026世界杯 作者:admin 浏览:154

沙巴体育 独家|ChatGPT中枢孝顺者归国创业: 把LLM的Scaling带到具身智能

姜旭(Roger Jiang)此前很少肃穆对外发声。

姜旭是少数完整参与过 OpenAI 大模子中枢技艺演进的华东说念主创业者之一。2019 至 2023 年间,他经历了 GPT 系列能力爆发最关节的阶段,责任横跨底层磨练 infra、大限度预磨练、RLHF 对皆算法与数据构建等中枢链路。

他不仅是 GPT-4 技艺敷陈的中枢孝顺者之一,亦然 InstructGPT 的主要作家之一。后者奠定了 ChatGPT 请示罢职与东说念主类偏好对皆能力的进犯基础。如今,他聘请回到中国创业,并把下一次 AI Scaling 的赌注押在了物理寰宇。

乐动中国手机app官网

2024 年他在深圳诞生了亮源新创 (Light Origins,lightorigins.com),投身具身基础模子。但公司诞生于今一直保持低调,外界对它的了解并未几。

当今他决定第一次完整地把我方的念念考讲出来。

姜旭对具身智能的中枢判断,可以抽象为一句话:具身智能滥觞需要我方的预磨练。

在他看来,现时行业对遥操数据和真机强化学习的嗜好是必要的,但这并不及以相沿具身基础模子的确走向 scaling。真机数据更像是高价值的对皆、考据和闭环迭代数据,而不是预磨练阶段最主要的限度来源。受限于采集成本、场景覆盖和数据各种性,只是依靠机器东说念主在真实环境中的遥操和试错,很难得回类似大语言模子预磨练所需要的数据密度和散播广度。

姜旭认为,具身智能的确尚未被充领会锁的,是互联网表率的东说念主类领路、空间移动和物理交互数据。就像语言模子从海量文本中学习寰宇学问和推理结构,具身模子也需要从大限度物理寰宇数据中学习领路先验、空间认识、物体 affordance 和交互规矩。换句话说,具身智能的关节问题不是“能不行再多采一些真机数据”,而是能不行找到一套可限度化的具身预磨练方法,把物理寰宇中的行为阅历鼎新为模子能力。

沿着这套逻辑,他作念出了几个与主流旅途不完全同样的判断。

亲历过 GPT 系列从无东说念主看好到引爆全球的全过程,他对这套方法论有一种近乎笃定的信心,并信托具身智能会沿着大模子走过的旅途再走一遍。他说,他寥落享受被质疑、并最终被解释正确的阿谁过程。

以下是 DeepTech 和姜旭的对话。

咱们如故进入了 Scaling 的阶段

DeepTech:你当今在哪个城市?最近主要在忙什么?

姜旭:我当今主要在深圳,这里算是咱们的大本营。同期咱们在北京和新加坡也有研发团队,但愿能够尽量蛊卦不同区域的东说念主才。

图丨亮源新创的深圳办公室位于深圳湾后海(来源:受访者)

创业其实永远都绕不开三件事:东说念主、钱、事。只是不同阶段,重点会不一样。最运转差未几一年时候,咱们主要照旧在措置“事”和“东说念主”。一方面是搭团队,另一方面是考据悉数这个词模子磨练和算法研发的旅途,包括产物落地和模子愚弄的所在。

当年一年,咱们聚焦在考据悉数这个词技艺旅途。因为对于具身智能来说,的确清贫的是找到一条能够像大语言模子一样不绝 scaling 的旅途。当年几个月,咱们在这件事上如故探索出了清晰的所在,同期中枢模块当今也都有了比拟熟识的负责东说念主和体系。是以本年对咱们来说,会是一个从“探索”运转进入“scaling”的阶段。

DeepTech:这是你第一次肃穆给与媒体采访吗?之前有媒体发过你创业的音讯,但你莫得回答,我还以为你是不太心爱和媒体打交说念的东说念主。

姜旭:算是第一次肃穆给与采访。之前确乎有过一篇对于咱们的报说念,但那篇并不是咱们主动对外讲的,是以严格说,这是第一次完整地把咱们的事情讲出来。

DeepTech:那为什么决定当今出来作念一些曝光?

姜旭:每个东说念主、每家公司的元气心灵、带宽、时候都是有限的。我作念事情有一个利害的倾向,便是在职何一段时候,我我方和悉数这个词公司会把大部分元气心灵,聚焦在少数几个 ROI 最高的模块和领域上。

在此之前咱们滥觞要搞了了的是要作念什么,搭一个豪阔强的团队。咱们当今如故到了准备好要去 scale 的阶段,接下来要作念的事情,便是去 scale。而且要进一步引入耐久老本和产业资源,把这件事情快速往下一阶段鼓吹。

GPT-3 能说出几句完整的话,咱们就很清翠

DeepTech:你在 OpenAI 四年,从 GPT-3 到 GPT-4,从 InstructGPT 到 ChatGPT。你刚加入的时候,团队多大?你被分到哪个组、作念什么?

姜旭:我刚加入 OpenAI 的时候限度还很小,大略一百东说念主傍边。阿谁时候 OpenAI 还跟其他的 research lab 差未几,分红一个一个小的 team,team 之间莫得寥落精致的耦合和深度合作,每个 team 都在作念前沿学术和发表著作。但 OpenAI 的文化,在我在的悉数这个词期间,里面恒久曲直常绽放、摆脱的。

是以我很有幸,在 OpenAI 期间换过大略四五个 team,在大语言模子这块有一个全栈的经历。我基本上是从大语言模子最底层的 infra 作念起,然后到中间的预磨练差未几作念了一到两年,终末又花了一两年时候作念对皆。

我刚加入措置的第一个问题,是 FP8,也便是 8 比特浮点数磨练模子,这项技艺今天如故在悉数前沿的大模子磨练推理过程中被大范围使用了。我差未几花了一年时候把它探索了了。OpenAI 我方不作念硬件,是以咱们只是在算法层面把它探索了了,会有一些推理上的效力擢升,但对磨练莫得本质变化。磨练如果想加快,还要从硬件层面原生去救助。咱们那时就把截止给了 NVIDIA,劝服了 NVIDIA 从 H100 系列运转,原生救助 FP8。

DeepTech:阿谁时候 GPT-3 是什么水平?

姜旭:我加入的时候,GPT-3 刚刚启动磨练。那时候每两周开一次全员会,负责 GPT-3 磨练的团队,主若是 Dario 他们,会在会上分享磨练进展。那时语言模子的水平,是 GPT-3 偶尔能说出那么几句完整的话,语法上莫得寥落昭彰的荒诞,阿谁时候咱们全员悉数东说念主都会很是清翠。

当今追思一下,从我 2019 年加入到当今六七年时候,AI 技艺真的是突飞大进,发生了铺天盖地的变化。

DeepTech:这些经历里,你印象最深的是哪一段?

姜旭:悉数这个词 OpenAI 四年是一段相称压缩的时候线,发生了太多的事情,作念过的好多名目印象都很是深化。

第一段便是 21 岁首,Dario 他们走了之后,我加入新组的团队去作念预磨练。那时的布景是,本来负责预磨练的团队便是 Dario 他们,20 年底到 21 岁首,他们陆续离草创立了 Anthropic。那是一个灾祸的离异过程,每周都有几个熟悉的共事下野,剩下的东说念主又精深莫得预磨练的阅历,公共心里照旧有点慌的。 然后 Greg Brockman 带队组建了一个不到 10 东说念主的团队去接办预磨练。

图丨姜旭在 OpenAI 任职期间拍摄于旧金山(来源:受访者)

滥觞,那几个月时候责任强度极大,我每天早上醒过来跟打了鸡血一样汗漫地责任一直到深宵,Greg 以至有时候和会宵写代码,第二天只睡一两个小时再陆续责任,终末从数据到 infra 到优化算法都发现了很是多的问题,最终,折腾了好几个月用了几千卡,也莫得训出来好的模子成果。那是一个挺灾祸的迭代经历,不外预磨练失败在头部大模子公司也并不荒凉,我经历过的就有过两次。

自然,顺利的预磨练,敬佩便是 GPT-4了,是预磨练的集大成者,从模子架构到优化算法到 infra,都是超越时间的, GPT-4 最终完成磨练的时候,以至比咱们一运转预计的还提前了好多。这种情况在大模子磨练里并不常见,普通都是一直延长以至最终也磨练不出来。

还有一些名目,它的进犯性最终是需要被时候解释的。

比如咱们作念的 InstructGPT,用东说念主类响应作念强化学习的 RLHF,是对皆算法的奠基责任。这个责任在 2021 岁首刚完成的时候并莫得受到豪阔的嗜好,因为那时的成果还不够好,但后头算法的开发和数据迭代并莫得罢手,最终它成为了 ChatGPT 磨练里很是进犯的一个按序。

大模子磨练中枢便是两步,第一步预磨练,第二步对皆,惟有把对皆作念好了,预磨练的模子才会变得很好用。跟预磨练不同的是,对皆需要的是渐渐的迭代和擢升,直到最终梗阻一个阈值。回头看有一个深化的领悟是,如果一个所在第一性道理上是正确的,就一定要救援作念下去,一定能作念成也一定要作念成。

DeepTech:那 ChatGPT 的走红呢?

姜旭:其实 ChatGPT 发布的时候,OpenAI 里面并莫得东说念主的确相识到,悉数这个词寰宇会这样快发生变化。

那时产物上线的时候点,巧合赶上一个进犯的 AI 学术会议(NeurIPS 2022),好多共事在新奥尔良参会。悉数这个词发布自己其实很是普通,完全莫得那种其后公共想象中的“历史时刻”氛围。它更像一次正常的产物上线。

但接下来的几天,悉数这个词事情运转飞速发酵。

我印象寥落深,一运转是星星点点有东说念主在商讨 ChatGPT。其后商讨的东说念主越来越多。再其后,悉数这个词会场简直悉数东说念主都在聊它。那种嗅觉很奇怪。你会顷刻间相识到,一项本来只属于 research lab 的技艺,运转以一种失控的速率进入现实寰宇。其后回到公司之后,大略贯穿一两周,我每天翻开 Twitter,悉数这个词 feed 简直都被 ChatGPT 刷屏了。

但我其后回头看,的确蜕变一切的,其实不单是模子能力自己。

GPT-3 时间,模子如故很是强了,但阿谁阶段的大模子更像一种“隐痛的 intelligence”—它存在,但普通东说念主感受不到。更多照旧研究东说念主员和开发者在用 API、写复杂的 prompt、作念 demo。ChatGPT 第一次把这种智能变成了一种简直莫得学习门槛的产物。

用户不需要认识技艺道理,不需要学习 prompt 工程,也不需要知说念 transformer 是什么。你只需要像和另一个东说念主谈话一样,去跟它interact。

我其后相识到,一个很进犯的事情是:好多时候,东说念主对 intelligence 的感知就取决于 interaction 的面容,获取智能的容易进度是智能水平的中枢体现。

错过了物理,赶上了 AI

DeepTech:既然你在 OpenAI 成绩这样多,为什么 2023 年会聘请离开?

姜旭:一个很进犯的原因是,我一直更享受草创新范式的阶段。我在 OpenAI 亲历了大模子从一个简直没东说念主信托的所在,逐渐变成蜕变悉数这个词寰宇的主流技艺范式。阿谁过程对我影响很是大。

但 ChatGPT 爆发之后,我会昭彰嗅觉到,大模子运转逐渐进入一个“共鸣化”的阶段。

技艺阶梯越来越清晰,行业也运转快速 scale。好多问题诚然仍然很是难,但它们越来越像工程和资源问题,而不是新的范式问题。我我方一直更想作念的,是那种还莫得被的确措置、还莫得被行业酿成共鸣的事情。

其后我花了很永劫候去念念考,阐发具身智能便是这样一个所在。我合计今天的具身智能,很像 2019 年之前的大模子。行业里有好多探索,但还莫得的确找到阿谁能够 scale intelligence 的中枢旅途。

这件事对我来说很是有蛊卦力。

DeepTech:为什么是 2023 年这个时候点?有什么机会吗?

姜旭:ChatGPT 爆发之后,老本市集变得很是活跃,创业环境和氛围变得很好,是有条款去创业、撬动老本和资源作念一件更大更有影响力的事情的。

其次,我在阿谁时候点就认为大模子行业接下来要发生什么,相对来说是比拟明确和笃定的。当一个行业进入这种高度笃定性的状况,个东说念主在里面阐明的作用相对就会弱好多,更多是一个堆资源问题,公司去 scale up 资源,去推广既有的阶梯图。是以大模子对我来说就不再那么 exciting,不再有从 0 到 1 梗阻新范式的忻悦和设立感。

DeepTech:问一个略微八卦的问题,你离开 OpenAI 和 2023 年那些荡漾推敲系吗?

姜旭:莫得,我是在那之前离开的。

DeepTech:你的本科和博士读的都是物理。那时为什么会进入 AI 行业?

姜旭:我读博士期间其实在物理学里作念了大都尝试,如果你看我发表的著作,早些年我发过各式所在的学术著作,跟我终末作念的博士课题以至都不干系。我确乎是一个比拟心爱探索、尝试新东西的东说念主。

追思起来,在悉数这个词探索的过程中,我一直在找一个的确有前途的所在。我合计东说念主生是要去坐一次火箭的,顺利的奇迹糊口,一定要有机会经历一段爆发式的成长。

我读博士的时候很快发现一个问题:对作念物理学研究来说,我可能晚诞生了差未几一百年。物理学的黄金时候是 20 世纪初的那几十年,在那段时候二流的物理学家都能作念一流的责任。其实今天的 AI 领域也类似,随地都是黄金,二流的选手也可以作念一流的责任。

那时我有一个很进犯的不雅察:科学里那些精炼的规矩,差未几到 20 世纪中世都如故被发现罢了,剩下的都是硬骨头,寥落难啃。但这些留传问题有一个共同规矩,都波及到在大都复杂的数据里找 pattern,在高度非线性的表象上作念拟合。但那时我并莫得一个谜底,不知说念奈何解这类问题。

直到 2016 年春天,AlphaGo 下围棋的新闻遮天盖地,传播得很是广,那亦然我东说念主生第一次了解到深度学习这个技艺。我速即相识到,这未便是一个完满的技艺来解科学里留传的难题吗?那时候我快要博士毕业了,就坚忍要往这个所在转。

其后我运转自学 Python 编程,自学 machine learning,上的第一门课是吴恩达在 Coursera 上的公开课。我自学了一些东西,作念了一些开源名目,比拟容易地在硅谷找到了AI所在的第一份责任,一年之后又加入了 OpenAI。

DeepTech:你作念物理出身,又想在大都数据里找 pattern,听起来更像是该去作念 AI for Science,为什么是去作念大模子?

姜旭:你说得很对,那时进入这个行业最大的驱能源、最蛊卦我的,便是最终去措置那些科学问题。那是起点。

但 AI 能力的演进是有一定的规矩的。大模子的爆发是从数据量最多、数据最容易获取的文本事域先运转的,之后才向各式其他领域扩散。AI for science 今天正处在爆发的过程中, 好多细分所在如故竣事了梗阻或者处于梗阻的前夕。

另外,language 自己仍然是最进犯的 backbone,它不单是是东说念主类相通的序论,同期亦然东说念主念念考、推理的很是进犯的序论,科学最终照旧要构建在东说念主类推理基础之上。

DeepTech:那为什么终末又聘请去作念机器东说念主?

姜旭:我离开 OpenAI 是要去竣事一件影响力更大的事。聘请机器东说念主这个所在有几点原因。

滥觞,机器东说念主背后代表的其实是 physical AGI,是 AGI 很是进犯的一部分,是其中的一半。如果能解锁 physical AGI、通用机器东说念主,这件事的经济价值和历史酷爱都很是关键,是一个豪阔大、豪阔道理的问题。

其次,我刚离开 OpenAI 的时候,对机器东说念主这个所在了解得不够多。其后我花了一段时候去念念考和学习,最终发现这件事的本质,跟我之前解过的悉数大模子问题莫得各异。

它本质上便是一个多模态模子的问题。把机器东说念主的输入和输出,都通过多模态模子数据表征的面容去向理,那机器东说念主的问题速即就退换成一个多模态问题。多模态模子奈何磨练、奈何 scale,这些都是如故被充分研究过的问题。从第一性道理上,这个问题在我看来是势必可解的。

正因为如斯,我信托我方当年在大模子领域丰富的经历和布景,会为具身这个领域带来独到的价值。

DeepTech:从离开 OpenAI 到肃穆创业,中间快要一年。这段时候你在干什么?

姜旭:那段时候便是在念念考和迭代所在。刚离开的时候,脑海里有几个我合计值得作念的主义。对我来说比拟自然的,是陆续作念大模子,我在这个方进取也作念过一些探索和尝试。

但最终我得出一个论断:在纯模子的赛说念里,我很难找到一件豪阔大、豪阔道理,而且头部模子公司不会作念、或者我有完全上风的事情。

按我对技艺演进趋势的认识,模子的能力领域会无穷拓展,头部模子公司的业务领域也会无穷拓展,是以终极状况下,模子便是端到端去高傲东说念主悉数的办事和内容需求,东说念主把需求给到模子,模子把东说念主需要的办事或内容复返回来。中间可能就莫得寥落多创业公司的大机会。

是以那时一个很进犯的念念考是:我要作念的事情里一定要有一些部分是这些模子公司不擅长的。那就一定要带上供应链和硬件,这是中国独到的上风,悉数的模子公司都不太具备这方面的基因。

DeepTech:这个论断是你我方独自念念考得出的,照旧也从别东说念主那里得到了什么启发?

姜旭:滥觞我有一个我方的直观。有了这样一个直观和所在感之后,就会作念好多 research,然后去找这个行业里最顶尖的 researcher 交流和我方去研究,最终酿成论断。

我一运转离开 OpenAI 之后径直归国了,2023 年底又再行回到好意思国,跟那时最顶尖的 robotics 领域的一些 researcher 交流,像 Google、伯克利、斯坦福的一些东说念主。很难说是某一个很是具体的东说念主,更多的是我对这件事有一套我方的解析框架,框架里有一些那时嗅觉比拟无极的地方,我去研究和跟这些东说念主聊,再去阐发那些点。

大部分公司都在类似苦涩的训导

DeepTech:那当今让咱们聊聊你所聘请的这条路,大语言模子顺利,是因为找到了限度化压缩语言的面容。在具身智能领域,对应的梗阻是什么?物理寰宇的行为奈何变成可以限度化磨练的数据?

姜旭:具身智能的梗阻,会跟大语言模子很是类似。大语言模子最关节的点是压缩了全东说念主类互联网的文本数据,也便是伊利亚说的压缩即智能。

我在创业之前想了了的,是架构层面的事情:机器东说念主问题本质上是一个多模态模子问题,这是架构层面的时间延续性。这个时间的大主题,便是用同样一套框架、同样一套方法论,去一个一个梗阻垂直的模态,从文本到语音到视频到图像。对具身智能来说,这是一个比拟自然的延续。

但里面有一个中枢问题:这套框架到底奈何用到具身智能领域。更具体的最中枢的问题是,用什么样的数据来预磨练模子。这亦然咱们创业第一年最中枢去探索的问题。最终咱们得到的谜底,跟大语言模子很是类似:最 scalable 的面容,便是去效法、去压缩互联网级别的东说念主类视频里的 human actions。

DeepTech:你在 OpenAI 作念的是预磨练和 RLHF。当今作念这件事,这套念念路具体奈何平移?哪些径直能用,哪些得再行发明?

姜旭:这需要先追思一下大模子悉数这个词磨练的旅途。当年几年大模子爆发以来,主要出现了三次范式级别的创新。

第一次是预磨练,你可以把它想象成完成了学问的压缩。其次,在预磨练模子的基础上作念对皆,有点像学问的索求。惟有这两步都完成,模子才豪阔聪惠、豪阔泛化、豪阔好用,对皆中枢措置的是好用这个问题。终末,差未几一两年前出现了 reasoning,赋予了模子深度念念考的能力。

对应到具身智能领域,咱们滥觞要措置的便是学问压缩的问题。这是这个领域里到面前为止好多公司都莫得措置好的少量:当模子能力不够强的时候,它到底是预磨练的瓶颈,照旧对皆的瓶颈?相对应地,咱们到底是要措置学问压缩的问题,照旧学问索求的问题?

我认为大部分公司都在走弯路。具身智能正在经历我方的 bitter lessons,大部分公司正在类似 NLP 当年的弯路,都聚焦在了学问索求这一步,跳过了预磨练,径直在作念对皆。是以咱们中枢要为这个领域孝顺和措置的,便是东说念主类行为的压缩。这个压缩是通过预磨练完成的,在以东说念主类为中心的数据上,把东说念主类的数据压缩进预磨练的模子里。

DeepTech:说到数据,你们预磨练的数据主要来源是那处?

姜旭:咱们主要使用了互联网限度的东说念主类动作数据。

DeepTech:有不雅点认为,纯互联网视频有一些问题是完全无法措置的,还需要真机数据等其他数据来补充。你奈何看?

姜旭:这是一个很是好的问题。大模子能 work,一定是需要两步:通过互联网数据完成学问的压缩,再通事后磨练完成学问的索求。对于学问压缩这一步,惟有互联网数据才有可能完成。

但只是用互联网数据作念预磨练是不够的。互联网数据的刚正是量很是大、豪阔低廉,能覆盖到各式种种的长尾场景、各式 corner case;它的坏处亦然这个,里面有各式种种不真实的数据、杂音、荒诞的数据。这些问题,一定要通过高质料的后磨练数据才能消撤离。是以一定是这两个连合起来。

这条旅途的中枢上风在于:如果你的预磨练作念得豪阔好,你就不需要那么多真机数据来作念对皆,最终也能磨练出一个豪阔通用和浩瀚的模子。

我举个例子,在 ChatGPT 的悉数这个词磨练过程里,预磨练阶段咱们用到几万亿个 token,后磨练试验上只用到了不到 10 亿个 token,中间差了好几个数目级。这亦然今天这个领域大部分已有玩家没想了了、没措置好的问题,公共都在后磨练阶段、在真机数据上作念了很是多的责任。

DeepTech:互联网数据质料狼籍不皆,数据清洗是不是这里面很进犯的一部分?

姜旭:对,使用互联网数据一个中枢的挑战,便是数据的清洗和处理。

我我方在 OpenAI 期间也部分参与过预磨练模子的文本数据处理,是以我知说念这件事的进犯性和复杂进度。而且很关节的是,我知说念,是有可能通过一套方法,把很是复杂、杂音很大的数据处理好,变成可用的数据的。咱们把同样的念念想和方法用到了视频数据上头。

这亦然咱们当年一年探索出新范式过程中很进犯的一个里程碑,其中差未几有一半以至更多的元气心灵,都花在研发数据处理和清洗的管线上,这是一个很是复杂的过程。

DeepTech:这算是你们的一个独到壁垒吗?

姜旭:可以这样说。它需要豪阔强的东说念主,豪阔多的 know-how,再花豪阔多的时候和成本在上头,才能把它作念好。

DeepTech:那么在模子架构上你们作念了什么聘请?比如 Physical Intelligence(Pi)用的是 flow matching,也有其他用自记忆的。你们走的是哪条路?

姜旭:我先说一个判断。我认为具身大脑悉数这个词的框架应该跟今天 agent 采选的框架比拟类似:底层有多个模子去具体推广,顶层是一套 model harness 的框架,把这些模子合理地组织、串起来。最底层的模子都是端到端的模子。是以咱们磨练的是端到端的模子。

咱们其实更把具身 foundation model 当作一种面向物理寰宇的多模态大模子。它学习的不单是语言,而是视觉、动作、交互以及真实寰宇中的贯穿行为。

从行业面前的发展来看,的确 scalable 的阶梯精炼照旧两类:自记忆(autoregressive)和 flow matching。咱们会把自记忆更多认识成一种对大限度时序行为数据的压缩与表征学习,而 flow matching 更接近贯穿动作空间里的生成建模。两者对应的是不同的 inductive bias。

当今行业里采选 flow matching 的团队会更多一些,但并不是某一种架构完全最优,纯自记忆自己完全是可以诞生的。

咱们里面其实两条阶梯都如故跑通了。现阶段会更多聚焦在自记忆上,因为它在大限度预磨练阶段磨练效力更高,也更允洽快速 scale。

但坦荡讲,咱们并不认为模子架构自己是这个阶段最中枢的壁垒。对具身智能来说,更关节的问题照旧数据,尤其是大限度预磨练数据。咱们当今更中枢的事情,其实是先用一套相对精炼、富厚、如故被考据 scalable 的架构,把数据限度和行为覆盖度的确作念起来。

DeepTech:自记忆有一些缺欠,比如精度赔本、推理速率慢。这些奈何措置?

姜旭:这里面好多问题,其实并不是自记忆自己的问题。像精度赔本、磨练不富厚这些,更多照旧一些关节算法细节莫得的确作念好。包括 tokenization、永劫序建模、磨练战略这些,大模子领域其实如故累积了好多熟识阅历,沙巴体育都是咱们也曾反复措置过屡次的问题。

推理速率亦然类似的。当今好多 flow matching 模子之是以显得更快,一个很进犯的原因是它的 action head 还比拟小,本质上还莫得进入的确 scale 的阶段。将来如果具身模子陆续往更大限度发展,推理优化最终照旧会变成一个很是系统性的工程问题。

而且咱们合计,自回反璧有一个很大的上风,便是它能够自然承袭悉数这个词 foundation model 领域当年几年累积下来的技艺红利。不管是运筹帷幄效力、长程顾虑、RL 范式,照旧悉数这个词磨练基础设施,其实都如故很是熟识了。

是以咱们当今更中枢的事情,照旧先把数据限度、预磨练和真实寰宇交互的确作念起来。

DeepTech:我了解到你们的模子是跨实质的,面前试验跑通了哪几种形式?

姜旭:先解释一下,因为咱们的模子效法的是东说念主类的动作,压缩的是 human actions,而 human 是一个很是高摆脱度、动作很是丰富的实质。以这样的实质为基础,咱们事实上可以把东说念主体作念出来的各式动作,map 到各式其他形式的硬件实质上。

到面前为止,咱们有两款全自研的硬件实质,一款东说念主形机器东说念主,另一款是摆脱度低好多的轮式产物,都可以搭载咱们的模子,咱们也尝试过宇树的实质。如果是一个低摆脱度的实质,咱们就把东说念主体的动作作念一个更低摆脱度的近似就可以了。举个例子,咱们最终竣事了东说念主在物理寰宇里通用的行为能力、take action 的能力之后,可以把它简化成东说念主的重点点的移动,这时候出来的就相当于是一个移动模子。

DeepTech:你提到你们竣事了初步的 scaling,这个“初步”具体是什么情况?

姜旭:咱们面前所处的研发阶段,如果对标 OpenAI 的 GPT 系列,相当于是 GPT-2.5 的水平。这个对标有两个层面的酷爱。

第一个层面,径直从数据量上看,咱们当今的数据量如故高出了当年 GPT-2 磨练用的数据体量,模子大小也比 GPT2 略微大一些。自然模子大小在这个阶段对咱们来说不那么关节,因为奈何 scale 模子,这件事在大模子领域如故解过了,中枢是莫得东说念主解过奈何 scale 具身的数据。

第二个层面,从咱们面前能竣事的、从数据处理到模子磨练的整条管线来看,咱们如故能作念到:未必拿来一段视频数据,只须里面有东说念主,就可以把它变成咱们的磨练数据源,能有用地从视频里学习到东说念主的领路信息、视觉信息。

DeepTech:那离上限还有多远?

姜旭:咱们算过按这个旅途最终能达到的上限。咱们在数据量上还可以扩充好几个数目级,差未几有四个数目级的扩充空间。从 GPT-2 到 GPT-4,数据上差未几是扩充了三个数目级。是以信托咱们的模子能力还会有屡次质的飞跃。

DeepTech:到了阿谁数目级的上限,就足以竣事通用能力了吗?

姜旭:我信托到阿谁级别,就足以竣事初步的通用机器东说念主。对标 GPT 系列,应该至少能达到 GPT-3.5 那种初步可用的状况。

中枢原因是,今天咱们磨练出来的模子,请示奴婢能力如故发扬得可以了,如故远远高出咱们当年磨练 GPT-3 时的状况。咱们那时候看到能说几句完整的话、语法上莫得昭彰荒诞,就很忻悦了。在这个基础上再有四个数目级的擢腾飞间,我信托一定会有一个领路智能、具身智能上的飞跃。按照 GPT系列对模子版块迭代的界说,每一代模子要比上一代强一百倍,那擢升四个数目级,差未几能竣事两代模子的迭代。

DeepTech:我传说,在你们看来,物理寰宇的领路泛化可能比语言泛化容易好多。这个论断你们是奈何得出来的?

姜旭:Scaling law是咱们研究奈何 scale 模子的一个很进犯的器具,它中枢讲的是模子能力会跟着数据量、磨练算力的插足和模子大小笃定性地变化。这三条趋势线是直线,就会有斜率。咱们面前看到的是,具身的斜率可能比语言的斜率还要大一些。这是一个很是特地念念的发现,意味着这个问题可能比语言要精炼一些。

另外一个是自然进化的例证。掌持了高档语言能力的惟有东说念主类,但其他悉数动物都具备领路的能力,具备跟物理寰宇交互、蜕变物理寰宇的能力。说白了,连蚂蚁都有一个夹爪,可以作念 pick and place。是以,这件事可能莫得语言那么难。

DeepTech:这个论断还挺反共鸣的。之前看到的好多说法,都是说真实寰宇的泛化更难。

姜旭:我认为今天公共合计它反共鸣,一个很进犯的原因是,公共作念的面容可能都区别,莫得真的结伴大模子那套念念想方法论的精髓。

当年三年,悉数这个词具身智能赛说念一个很进犯的进展,是公共逐渐酿成共鸣,要采选大模子那套念念路。但这里面有一个很大的 gap:好多独创东说念主、好多团队之前莫得作念过大模子,在解析层面、knowhow 层面有一些误区,歪曲了大模子里一些很中枢的点。好多团队在这方面是有学问盲区的。

DeepTech:嗅觉你对这个判断很有自信。

姜旭:因为我我方在大模子所在作念过太多名目,有顺利的,也踩过好多坑。我在 OpenAI 四年,也见过太多周围的共事用类似的念念想方法论去解其他领域的问题。这悉数这个词过程,帮我诱导起了对这条技艺阶梯很是深化的审好意思。

DeepTech:那你合计这个判断会被质疑吗?我个东说念主合计,这篇著作发出来之后,可能会有不少东说念主质疑你。

姜旭:可能会吧,但我其实寥落享受被质疑、且最终被解释是正确的这样一个过程。

DeepTech:你会奈何看待这些质疑?

姜旭:我可以分享一段我的经历。我刚加入 OpenAI 的前两周,读的第一篇 paper 便是 Scaling Law 那篇,那时照旧 draft,还没发表出来。我读完大受轰动,很确信我赶上了一次技艺创新。

By the way,我一直合计我方的技艺 taste 照旧比拟可以的,在一个技艺早期的时候,我就能比拟精确地看到它的将来和后劲。阿谁时候 OpenAI 在外界看起来照旧一家比拟奇怪的公司,但里面其实如故发生了铺天盖地的变化,外界并不知说念。我出去跟别东说念主聊天,普通有东说念主问我 OpenAI 是作念什么的,我说 OpenAI 是要去作念 AGI 的。这个时候我会看着对方的成见,普通对方的成见和色调传达出来的是质疑,仿佛在说,这是一家骗子公司。

我是很享受这个过程的。大模子被证实了,这家公司作念的事情也被证实了。

我合计最终有价值的事情,都是要反共鸣且正确,be contrarian and right。如果是一件强共鸣的事情,它的相对价值要小好多。这亦然为什么我在 2023 年阿谁时候点聘请离开 OpenAI,我认为阿谁时候大模子如故变成一件强共鸣的事了。

交互会再行界说机器东说念主

DeepTech:你认为具身智能的末端是什么?

姜旭:我合计好多东说念主当今认识具身智能,照旧一种“替代东说念主”的逻辑。比如扫地、作念饭、搬东西,本质上照旧在复刻东说念主如故会作念的事情。但我合计具身智能的确特地念念的地方,是好多新的能力和价值,可能会从耐久 interaction 里自然长出来。

前提是,它得先的确进入现实寰宇。

而这背后最中枢的问题,其实照旧:奈何 scale intelligence。可以这样认识,大模子这几年的确顺利的地方,本质上是第一次把好多技艺用一个正确的按序组合了起来。先通过预磨练,在全互联网数据上完成大限度的效法学习;之后再通过强化学习、对皆、reasoning,把这些能力一步一步的确开释出来。

好多当年失败的探索,并不是算法自己错了,而是按序错了。在预磨练这套范式的确被走通之前,好多 AGI 的探索其实都麇集在强化学习,前大模子时间的 NLP 本质上在作念对皆。

今天具身智能领域,其实也很像阿谁阶段。真机数据、遥操、真机强化学习这些所在自然有价值,但它们更允洽“后磨练”。这个行业到今天为止,其实还莫得的确措置“具身预磨练”这个问题。

穷乏一个豪阔强的预磨练基座,模子就很难的确得回对物理寰宇的泛化认识,也很难耐久在真实寰宇里不绝移动、不雅察、interaction。

真方正的变化,会发生在这之后。当 intelligence 能够耐久存在于现实寰宇,并不绝 interaction,它会逐渐酿成对环境、对东说念主、对生活自己的认识。好多今天还不存在的 intelligence、interaction,以至新的价值形式,可能都会从这里运转出现。

DeepTech:那这个末端,跟东说念主的关系会是什么样的?

姜旭:从能力演进的角度,我合计具身智能终末会和大语言模子很像。它会先去效法东说念主,然后逐渐超越东说念主的能力。今天的代码模子,如故能看到很是昭彰的迹象了,它如故不单是扶植东说念主写代码,而是在进入一种新的互助状况。具身智能以后也会是类似的过程。

但我合计更进犯的少量是,当具身智能耐久存在于真实寰宇里,耐久和东说念主分享空间、分享环境,这里最关节的变化是:interaction 的时候表率变了。

当 interaction 从几秒钟的一次调用,变成耐久共存之后,它和东说念主的关系也会发生本质变化。它不再只是“推广一个任务”,而会运转逐渐认识东说念主的习气、环境的变化、空间里的隐含规矩,缓缓酿成一种对真实寰宇的“具身直观”(embodied intuition)。

到阿谁时候东说念主和 AI 可能会一皆创造出好多当年根柢不存在的新价值、新行为,以至新的生活面容。

DeepTech:要竣事你说的这种机器东说念主,它需要具备哪些能力?奈何排优先级?

姜旭:悉数这个词大模子的研发念念路,并不是从需求启航去倒推说咱们要作念什么,它是反过来的,是从数据红利启航。咱们看这个寰宇上存在最大都的数据是什么,就从这些数据里把它蕴含的丰富信息作念一个深度挖掘,这是大模子范式的本质。

是以沿着咱们的念念路,滥觞是能够全面地效法和学习东说念主的各式种种的能力,这取决于现存的存量数据里包含了哪些东说念主的行为和动作。

对于技艺演进的旅途,咱们跟这个领域有一些不太一样的不雅点。我认为最运转能够解锁出来的,是通用移动的能力,是 mobility。它会开首在模子能力上梗阻,而且能最快酿成买卖闭环、最快商用。下一步才是通用 manipulation,模子能力上才豪阔强,并找到合适的愚弄落地场景,酿成买卖闭环。按序上是先通过 mobility,让具身智能安全地进入物理寰宇,下一步再去谈怎样用手段蜕变物理寰宇。

mobility 和 manipulation 这两个,对应到大语言模子的发展历史,相当于是 language 和 coding 之间的关系。一运转 language 的存量数据最大,能力上率先梗阻,找到一个合适的产物形式,便是 ChatGPT。跟着模子研发的进展、language 能力的擢升以及 coding 自己能力的擢升,最终才解锁出 Claude Code 和 Codex 这种全新的产物形式,大限度阐明经济价值。

DeepTech:也有点像东说念主类,先从爬行、步碾儿运转,再去学各式能力。

姜旭:对,它滥觞要能在绽放的物理寰宇里安全地移动。

DeepTech:你之前在小红书上提到你们滥觞的产物要先作念一些好玩的东西,那么第一款产物具体会是什么样的?

姜旭:我合计“好玩”其实是一个很进犯的词。因为好多东说念主会默许,机器东说念主最进犯的是“完成任务”。但如果你回头看大模子的发展过程,会发现的确让 AI 爆发的,其实并不是一运转就去措置坐褥力问题,而是 interaction。

ChatGPT 最早蜕变寰宇,也不是因为它先替东说念主完成了什么复杂责任,而是它第一次让大限度用户运转自然地和 AI 交互。具身智能好多新的能力和价值,未必是一运转被想象出来的,而可能是在耐久与东说念主共存和交互中长出来的。是以咱们第一代产物从能力上来说,它会具备通用的 mobility,以及通用的念念考和 interaction 能力。

DeepTech:会是之前一些报说念提到的那种追随型机器东说念主吗?

姜旭:“追随”自己并不是一种产物类型,它更像是耐久共存和交互之后自然产生的一种截止、一种心情上的价值。但咱们的确感兴味的,并不单是姿首价值。

更进犯的是,当 intelligence 运转耐久存在于真实寰宇,并不绝 interaction 之后,它会不会运转产生好多额外的新价值。因为如果你仔细不雅察,东说念主类在现实寰宇里绝大部分时候,其实都不是在“操作”。更多时候,咱们是在移动、不雅察、念念考。

按照之前的推演,咱们会把率先能够解锁出来的移动能力去买卖化,让机器东说念主能够在物理寰宇里面主动地移动、不雅察和交互,把数字寰宇的 agent 延长到物理寰宇,竣事 embodied agent。

DeepTech:我嗅觉当今不少东说念主对你们的了解,可能还停留在“追随机器东说念主”上。

姜旭:咱们本质上照旧一家基模公司,只不外作念的是具身基础模子。基模赛说念有一种说法叫作念“模子即是产物”,在具身领域应该是基模+硬件实质便是产物,将来咱们的模子会有各式形式的“壳”,滥觞从一个轻巧的 embodied agent 运转,将来会有搭载咱们模子的各式形式机器东说念主产物。

DeepTech:这款产物大略多久之后能见到?

姜旭:再保留点精巧感,但敬佩不会是两年之后了!

DeepTech:你们定位是具身大模子公司,硬件实质蓄意我方造吗?

姜旭:咱们暂时是我方造。背后中枢的原因是,悉数这个词行业还处在很是早期,还莫得酿成标准和共鸣。诚然存在具身智能这样一个大赛说念,但公共磨练模子的面容、算法旅途、产物落地的所在、愚弄的场景,事实上琳琅满目,每家公司都有我方的谜底。这个时候点,很难找到高下贱的供应商来配合咱们,去 exactly 打造一个能适配咱们模子能力的硬件。

咱们这套念念路最中枢的,是围绕模子能力的变化来念念考:在什么时候点能解锁出什么样的模子能力,咱们就怎样打造一款合适形式的产物。跟大模子研发和迭代的念念路很是像,并不是一个传统的、去作念耗尽级机器东说念主的念念路。是以暂时咱们只可端到端地既作念模子磨练,又去界说和打造我方的硬件。

但永恒看,咱们会但愿把模子变成一个绽放的生态,去跟领域里各式种种形式的硬件完成适配。

最终依赖的照旧东说念主

DeepTech:你团队的限度当今有多大?

姜旭:当今全职大略六十东说念主傍边。

DeepTech:你的团队布景很各种,来自 OpenAI、大疆、微软、华为、字节。你刚才也提到,OpenAI 早期团队是比拟割裂的。在组建团队时,你会有相识地去幸免这个问题吗?

姜旭:很是好的问题。我认为 OpenAI 顺利一个很中枢的原因,是它后头酿成的扁平文化和很是高效的组织。

我的判断是,本质上咱们便是一家多模态大模子公司,一定要采选最顶尖大模子公司的组织模式:保持一个小的团队,保持很是高的东说念主才密度,打造一个扁平、高效的组织。

从创立运转一年多,我也作念了蛮多探索和念念考。对 OpenAI 来说有一个相对容易的点,它需要的主要便是作念算法的东说念主,相似的东说念主主义更容易吞并,念念考问题、作念事情的面容更容易接近。对咱们来说,一个中枢挑战是,团队里既有作念硬件的,又有作念软件算法的,算法这边又分红机器东说念主算法、大模子,还有传统的软件工程,是布景很是不一样的一群东说念主。

最终我摸索下来,发现谜底其实蛮精炼的。这样一个扁平的组织,最终不依赖于组织的结构和规矩来作念事情,更多依赖于东说念主。

DeepTech:是以中枢难点是筛选东说念主?

姜旭:对,悉数顾问的难度都放到了筛选东说念主这一步。筛选东说念主又包含两种类型。一种是如故有一些责任阅历、在职场里酿成了责任习气的东说念主,对这些东说念主,咱们一定要按咱们的标准去臆度,看他是否能妥当、是否合乎咱们想打造的扁平文化组织的要求。另一种是可塑性更强、更白纸的,刚毕业以至还没毕业的学生,这些东说念主可以在咱们团队文化磨合得比拟好的情况下,在里面培养和磨练。

DeepTech:识别东说念主这件事,是不是也需要一种 taste?

姜旭:完全是的。我在 OpenAI 期间也见过大都很是优秀的东说念主,优秀体当今不单是是手段、业务水平层面,更进犯的是 ownership。OpenAI 招东说念主的时候很是心爱招有创业经历的东说念主,这可能也跟 Sam Altman 的布景推敲,他之前是 YC 的 president,OpenAI 也有大都东说念主之前是 YC 的 founder。这些东说念主除了业务能力以外,普通会有很是强的主东说念主翁精神,会把公司的事情当成我方的事情来作念。

DeepTech:那么你招东说念主时,最敬重的特点是什么?

姜旭:主若是三个方面。第一个是最基本的业务能力,他在所处的模块上,手段要达到一定水平。其次是 ownership,主东说念主翁精神,他是不是能把这些事情当成我方的事情来作念。这个很是进犯,因为一个扁平文化的组织本质上是莫得顾问的,要每个东说念主宰理我方,同期顾问名目,以至顾问其他东说念主,是以对东说念主的要求极其高。第三个方面,是一个东说念主作念聘请的能力和 taste。

这三个方面如果都很优秀,这个东说念主便是一个很好的 manager。是以咱们当今在公司里选了好多优秀的 manager,然而公共都莫得 manager 的 title,公共在这样一个文化里共同顾问、共同治理公司。

DeepTech:面前的团队,在这个阶段够了吗?

姜旭:咱们合座的团队膨大速率照旧比拟慢的,招东说念主一直保持着比拟高的筛选标准,很克制,是以咱们简直悉数岗亭都有空白。

现阶段尤其是大模子所在,咱们大模子团队招的东说念主精深都是大模子公司布景的。这一定进度上跟我我方之前的经历和 OpenAI 的光环推敲,这个光环也能帮咱们蛊卦到大模子领域一些顶尖的选手,加入咱们一皆磨练具身的 foundation model。

事实上,咱们磨练的这个具身 foundation model 从悉数这个词体量到挑战,如故不亚于磨练任何其他领域的 foundation model 了。也借这个机会说一句,咱们当今一直在招东说念主。如果你身上有我刚说的这三点特点,又信托从预磨练启航去作念具身基础模子这条旅途,想跟咱们一皆把具身的 foundation model 训出来,接待你来找咱们聊。

DeepTech:海表里的同业里,你合计作念得比拟好、比拟有代表性的有哪些?

姜旭:我会比拟保重那些大模子公司下场去作念这件事,比如我的老东家 OpenAI,我会保重他们的进展。Google 不太好说,Google 和 OpenAI 照旧两码事,两家公司在组织文化上其实有很是大的各异。

大公司里有很是多责任的东说念主,但穷乏 owner,大公司恒久有这样一个窘境,Google 也恒久会有这个挑战。

今天要在这个领域竣事梗阻,需要的方法和手段,exactly 便是大模子那套东西。我更信托会有一些大模子公司在这个领域里比拟早地作念出梗阻。如果一个团队里清寒豪阔多的大模子阅历和 knowhow,会遭受比拟多的挑战。

DeepTech:2026 年以来这几个月,国内具身智能赛说念如故有好几家上百亿估值的公司了。你奈何看这个赛说念如今的热度?

姜旭:一个茂密发展的行业,早期一定会有一些泡沫,泡沫自己是一个正常的表象。

略微不太合理的地方在于,一些公司心爱对标同业,清寒颓靡的探索和创造,也清寒对行业前沿的更有劲的梗阻和推动。

DeepTech:你一运转说,你们本年一个很进犯的主题亦然融资,那你们进展怎样?

姜旭:咱们正在 close 新的一轮融资。咱们在融资节拍上,也作念了一个有点反共鸣的聘请。

旧年上半年咱们融罢了一轮,那时市集照旧蛮火热的。但我信托具身智能、AI 是这个时间的大主题,是全社会、全寰宇会 all in 的大所在。在 AI 时间大海潮里,资源并不是最稀缺的,一个顶尖的团队和一条真的能竣事智能梗阻的研发旅途,才是最稀缺的。咱们旧年一年都在打造团队、探索模子研发旅途和产物落地所在。本年咱们除了融资外,还会有更多的对外发声;要推动范式级别的蜕变一定是需要更多东说念主的参与。

咱们就活在科幻里面

DeepTech:你说你们的模子当今到了 GPT-2.5 的时刻。那距离的确的 ChatGPT 时刻,还有多远?

姜旭:按照咱们这条旅途,咱们在年底之前应该能够竣事,相当于从 2.5 到 3.5,逾越一代模子。逾越一代要有一百倍的擢升。对咱们来说,以面前的水平为基础,再擢升一百倍应该不会是一个根人性的挑战。

DeepTech:这个谜底有点出乎我的预感,我以为会更慢少量。

姜旭:我对咱们面前所走的这条旅途,极其乐不雅,极其有信心。

DeepTech:本年年底有点太近了,咱们再来预测更远少量的事吧,在本年以外,你将来三到五年乃至以后的斟酌是什么?

姜旭:我的大判断是,具身智能会沿着大模子走过的旅途,把大模子进犯的那些里程碑再走一遍。

滥觞是完成预磨练,预磨练的梗阻和 3.5 时刻会是行业的拐点,具身智能产物才会运转大限度地落地愚弄,出当今咱们的生活里,进一步麇集到全新的、真实寰宇的数据。这有点像今天的 Coding Agent,当大模子作念长程任务、写代码的能力梗阻到一定进度,运转能完整地寄托责任,进入到用户的电脑这样一个更复杂、全新的环境,而那些数据是之前模子见不到、互联网上也不存在的。由此就酿成了数据飞轮。

大模子是要在数字寰宇里效法和超越东说念主的能力,具身是要在物理寰宇里效法和超越东说念主,三到五年傍边,大略率会全面地超越东说念主的能力。

DeepTech:在这个过程中,你当今最期待的一件事是什么?

姜旭:具身智能的 ChatGPT 时刻,模子能力强到可以大限度地进入到物理寰宇,进而出现第一个 PMF 的产物之后,数据飞轮和买卖飞轮都会转起来。在这个基础之上,通用具身智能将会看起来不再那么远方和不可想象。

DeepTech:那你比拟惦记的问题有哪些?

姜旭:我以前在 OpenAI 的四年期间,前后差未几有一年多时候都在对皆的团队里。对皆中枢要措置的一个很是关节的问题,便是安全。

具身智能存在很是类似的问题。它的技艺演进旅途会跟大模子很是像,存在的风险也会跟大模子很是类似。安全问题是急需悉数这个词领域去保重、提前念念考、研究和布局的所在。

看得更远少量,当代时髦社会是东说念主创造的,但当这个星球上出现了一个从才气和膂力上都全面超越东说念主的全新群体之后,是否会影响到咱们今天的时髦,咱们的时髦会怎样演变,是每个东说念主都要去念念考的问题。

DeepTech:这是一个听起来很是科幻、又很是现实的问题。

姜旭:是的。当智能运转耐久存在于物理寰宇,它就不再只是一个被调用的器具、而是可以通过不毫不雅察、不绝学习、不绝交互和操作反过来影响现实寰宇自己。

那时候,东说念主类靠近的就不再只是一次技艺升级,而是一种新的“存在”。

咱们其实如故活在科幻里了。

运营/排版:何晨龙

注:封面/首图由 AI 扶植生成沙巴体育