置身机器人这样的大热赛道股指配资网,明星研究员总被如此之多的目光注视着。
但关于庞江淼,网络查到的信息寥寥。为数不多的内容是,聚焦计算机视觉,浙江大学博士,香港中文大学 MMLab 研究员,接下来一份经历就是现在了——上海 AI 实验室青年科学家,具身智能团队负责人。30 岁出头,属实年轻。
在今天的具身智能领域里,CV 出身的研究人员占据了相当大的比重,庞江淼算得上是其中很典型但又很颠覆的一个。
之所以说典型,是因为其早期成果全部集中于传统 CV 范畴。他曾连续两年斩获 MS COCO 目标检测挑战赛冠军,是 MMLab 视觉感知系列开源平台 MMDetection、MMTracking、MMDetection3D 的作者,取得 CVPR 2023 最有影响力论文和 ECCV 2024 最佳论文提名。
而之所以又说颠覆,则是因为,庞江淼并未像多数 CV 出身的其他人一样,停留在感知层面向机器人领域渐进过渡,而是从转型之初就直接切入了底层的控制。
由他主导开发的人形机器人多姿势站起控制算法是一个典型例证,这篇文章获得了机器人学习顶级会议 RSS 2025 的最佳系统论文提名奖。这也是庞江淼第一次投稿 RSS,此后,他共有 6 篇文章相继被 RSS 接收,中稿率 75%,主要涉及人形机器人与机械臂的运动控制方向。
用他自己的话来说,"我切得很直接,决定去做具身之后,就不再是仅仅用视觉去解决具身的问题。所以,尽管我是 CV 出身,但我现在的 mindset 其实挺不 CV 的。科研最关键的还是定义问题和解决问题的思维逻辑。只要找到合适的问题,聚焦并追求极致,总会有好的结果。"
这个跨越式的转型发生在 2021 年前后。
据他回忆,当时,"老本行"目标检测触到瓶颈,技术"拱"不动了。同时,视觉本身很难产生闭环价值,业界开始热议"感知与行为闭环",视觉的独立性被重新评估,成为机器人感知的一个模块。驱动机器人行动,才会带来价值。
而比这早一年,Marco Hutter 团队采用强化学习在仿真环境中训练,再将之迁移到真实的四足机器人 ANYmal 上,使机器人实现高动态运动。这意味着机器人领域终于出现了 data driven(数据驱动)的解决方案,也逐渐掀翻了传统认知。
"旧的领域遇到了瓶颈,新的东西也出现了,那么转型也是自然而然的了。"
在向雷峰网 AI 科技评论讲述这段经历时,庞江淼向后靠坐在椅背,整个人似乎松懈了一下,但语速仍然很快——这也是对谈中他留给人最鲜明的印象,思维敏捷、语速极快,问与答之间基本没有留下思考的空档。
在刚刚过去的 WAIC 期间,他带领上海 AI 实验室具身智能团队发布了『书生』具身全栈引擎 Intern-Robotics。发布结束后,雷峰网 AI 科技评论与之进行了对谈。
以 Intern-Robotics 为锚点,你会发现,他们的目标不在某个单一的技术点,而是一套开放共享的基础设施,一个具身智能领域的" ChatGPT "时刻,让整个行业的飞轮转起来,转得更快。这也是在对谈中庞江淼数次想要强调的雄心。
大小脑融合可能是大趋势
AI 科技评论:最近和很多行业内人士聊,一部分声音认为具身智能的研究逐渐收敛到了三个大方向——具身大脑、全身控制、大小脑协调。您认可吗?
庞江淼:我个人不完全认同。所谓大小脑是更偏宏观的划分。
具身智能目前还很难做到任务泛化,任务层面可能包括空间感知、导航、操作、人形运控等;所有任务都可以有大脑负责推理,同时有小脑负责具体执行,只不过有的任务侧重大脑,有的任务侧重小脑。现在无法融合才会存在所谓大、小脑,再发展几年可能就是一个模型。
AI 科技评论:所以大小脑融合是大趋势?
庞江淼:可以这么说。目前大小脑之所以无法快速融合,和端侧算力水平有关,端侧芯片还推不起大模型,这就意味着,要做低频的思考和高频的行动,也就是双系统,前者相当于大脑,后者相当于小脑,这种架构本质上也符合人类行为学。
AI 科技评论:你们在研究具身大模型的过程中会受限于算力水平吗?
庞江淼:算力分为云端和终端两部分,模型训练肯定是在云端,但推理一定是在端侧,目前主要是端侧算力受限。当然,科研是可以用各种各样的方式绕过它的,但如果走向了商业化落地场景,这个问题就绕不过去了。
AI 科技评论:大脑层面,VLA 是现在的共识路线了吗?
庞江淼:VLA 是重要的技术路线,有助于泛化能力的提升,但只有 VLA 应该也不够,我们很关注一些传统的控制理论,共同提升模型的能力。其实在 VLA 领域现在也标准不一,我们一直开玩笑说现在市面上有三种 VLA。
Google 在 2023 年发布的 RT-2 算是第一个具身智能 VLA。当时谷歌在 VL 大模型中加入了一个 A 的模态,将机器人动作映射为文本标记,和互联网规模的视觉 - 语言数据集共同训练,既保留多模态大模型的识别和交互能力,又能让机器人动起来。这是最狭义的 VLA。
但后来大家逐渐发现这种技术路线不是最优的,因为机器人动作数据很少,加入后无法泛化。那就基于一个多模态大模型微调出来一个模型,只具备执行能力,不具备思考能力,我们一般把这种叫做 A 式的 VLA。
第三种是只要有视觉、文本、行为的 encoder 就叫 VLA,这种可能就过于宽泛了。
AI 科技评论:你刚刚提到任务划分,具身领域的主流任务有哪些?
庞江淼:主要是四个比较核心的方向:感知、操作、导航、人形运控。
这几个任务之间是平行的,也许最终会融合但目前还没有。比如巡检机器人公司可能只关心导航能力,工业机器人公司可能只关心机械臂的操作能力,而人形机器人目前则只关心人形运控……
不同的任务,VLA 大模型的技术方案和表现也会有所不同。和真实世界的交互越多,真机数据的价值就越大。所以导航,以及 pick and place 等简单任务,合成数据可以占据大部分比重。但如果复杂度进一步上升,仿真算法本身就会带来新的挑战,也会带来非常多有意思的研究课题。
AI 科技评论:具身智能领域仍然有很多路线之争。
庞江淼:是的,我觉得有两个原因。
首先,复杂性太高了。拿计算机视觉举例,这个领域在上个世纪就已经形成了清晰的任务定义、数据集,比如目标检测、分割、跟踪等高维视觉,去模糊、超分辨等低维视觉……而具身智能的复杂度更大,子任务的拆分定义还是模糊的。
其次,高度复合,这意味着所有人都可以走向这个领域,NLP、视觉、机器人、IL、自动驾驶等等的人都会有自己的视角,选择离自己最近的路线切入。
做平台和卖芯片差不多
AI 科技评论:在争论仍旧很"嘈杂"的背景下,WAIC 期间团队发布的 Intern-Robotics 亮点在于什么?
庞江淼:我觉得可以从两个维度看,一方面,科研层面肯定有其先进性,我们还会在接下来一段时间公开最新的工作;另一方面,定位比较清晰,它作为一个平台,一个基础工具链,能够跟更多的伙伴合作,为领域内其他团队创造价值。
通过这次发布,实验室把过去几年的积累去以一种非常体系化的方式"给"了出去,我们也会以它为载体跟业内交流、合作。也希望未来平台用户量越来越大,大家能聚集起来一起做一些事情,同时随着数据积累形成公开数据集。
AI 科技评论:但实验室离场景有点远,在提升大脑能力方面会不会受局限?
庞江淼:所以才需要跟公司合作,对方有数据和场景,我们提供模型能力,双向助益。
AI 科技评论:合作具体是怎么进行的?
庞江淼:以今年我们跟国地中心的合作为例,国地中心有场景、有本体,我们协助他们进行任务定义和数据采集规则的制定。我们内部有一条合成数据的管线,场景数据给过来后,我们再做一些合成数据,把两种数据整合起来训练模型,模型会部署到"青龙"上。本体落地应用的过程中又会产生一系列交互数据,我们会利用这些逐步迭代模型能力、数据管线的能力。
慢慢地,这个领域可能会出现基模型,搭配上一系列工具链,行业内的任何本体公司都可以"开箱即用",轮子也就转起来了。
AI 科技评论:所以实验室在具身智能方向的定位是做平台?最终想达成的愿景是什么?
庞江淼:我们一直希望做平台,但不仅仅是平台。
最终目的是希望推动整个领域有更加归一化的基准,比如在任务划分、数据等方面,大家的努力能汇到一块去,推动整个领域迭代更快一些。
AI 科技评论:这种定位和团队的发展历程、优势基础有关吗?
庞江淼:实验室在具身智能这个领域积淀的时间算是比较长了。2022 年初我们团队就已经存在了,早期偏向前沿探索,最初是做足式机器人,但同期也有做操作。2024 年年中,具身智能团队更完善,方向也更加聚焦。
另外我们团队组成足够 diverse,NLP、AGC、自动驾驶等等领域的人员都有,内部还有一个 AIGC 的团队,能做 Real2Sim。
总之,认知积累早、技术储备全,公立的研发机构的身份也有助于开展类似的合作。所以我们有希望率先去解决领域内关于任务定义、数据集等基础问题。
AI 科技评论:怎么吸引企业加入合作?
庞江淼:其实做平台和卖芯片差不多,本质是把生态做好,靠模型算法取胜。同时把用户体验做好,比如一套易用性很高的框架。
AI 科技评论:平台希望吸引更多人、沉淀更多数据,对量级有没有初步的规划?
庞江淼:无论是用户,还是数据,我认为现在很难去判断量级,因为没什么参考。打个可能不太恰当的比方,大模型有点像互联网,具身智能有点像制造业。制造业的本质是价值闭环的流程更长,例如,一家车企销量过百万已经算是很高的数值,但一家互联网企业用户上亿都不算什么。所以讨论用户数的量级意义不大。
再者,数据量本身不产生价值,数据集的多样性也不产生价值,利用这一数据集能训练出来什么样的模型,才决定了价值。
接下来的目标是"三个泛化"
AI 科技评论:那接下来平台还有什么重点方向吗?
庞江淼:现在具身智能主要的问题在于,泛化不足。包括今年以来很火的机器人跳舞,其实也是用模型去拟合一条轨迹。未来实验室的目标是,在具身智能作业 100% 可靠性的前提下,实现本体泛化、场景泛化、任务泛化,这是总体的逻辑。
具身智能和大模型有一个非常明显的不同,就是对作业成功率趋近 100% 的要求。大模型可以有幻觉,可以"再想一想",但人形机器人摔倒了就是摔倒了。
现在我们正在做人形运控的基模型,当然它目前只是基模型的概念,但在参数量上还是一个小模型。我们也一直在寻找一些更难的场景来展示模型能力,比如高动态场景的交互,之后我们可能会出一个 demo,让异构的机器人从不同速度转动的轮盘上把物体精准拿下来,再去做协作,这就同时能够体现出上述三种泛化。
当然,短周期内我们会先做好聚焦场景下的局部泛化,先解决最基础和关键的问题,再去拓宽。刚刚提到了 3 种泛化、4 种任务,我们会在这个大框架下找一些具体场景,横向拉几条比较窄的线去做。
AI 科技评论:所以 Intern-Robotics 的"一脑多形"也呼应了其中的本体泛化?
庞江淼:是的,具身智能要面向应用需求,不限场景、任务。高成功率,本质是需要一个好的后训练技术。那么只要有一条通用的管线,基于前期预训练的基模型,就可以在一定时间内微调出一个具体行业领域的机器人。
如果基模型是允许"多形"的,也就相当于管线相通。在迭代过程中,我们可以逐渐把后训练过程干掉,这样也许可以出现一个可以零样本泛化的" ChatGPT "。
AI 科技评论:这也是业内大家一直在追问的,具身智能领域的 ChatGPT 什么时候才能出现?这也是你们在做的东西对吗?
庞江淼:其实我们是"沿途下蛋"。ChatGPT 是终极目标,但并不是立刻就要做出来。这是一个一边迭代、一边落地,逐渐把后续微调工作压缩下来的过程。
AI 科技评论:除了本体泛化,还有场景泛化,之前你主导的可泛化地形人形机器人自主站立控制技术做了多久?
庞江淼:这项工作的周期并不长,也就 3 — 6 个月。
技术突破其实是跟着整个领域的迭代节奏走,如果你真的觉得一些工作做得很好,它本质只是领先了整个领域 3 — 6 个月,并不会超脱出领域发展的客观规律。
AI 科技评论:当时这个项目的 idea 是怎么出现的?
庞江淼:我们当时在做人形机器人运控,第一阶段是盲走。没有视觉的情况下,机器人动作是非常稳定的,包括现在机器人打拳整个决策也是没用到视觉的。
接下来要让它上台阶,这时候就必须加入视觉了,但视觉会给系统带来噪声,使机器人经常摔倒,每摔倒一次都要重新调试。所以我们觉得,如果机器人能自主站起来,整个系统会更加鲁棒。所以这个项目就出来了。
其实从这个项目也能看出,我们的风格还是以解决具体问题为导向去做项目的。
AI 科技评论:怎么处理视觉带来的这些噪声?
庞江淼:我们当时有一篇论文叫 PIM(Perceptive Internal Model),利用传统机器人领域的建图技术,把机器人周围环境精尽量精准构建起来。仿真训练的过程可以直接拿到障碍物位置的真值,然后再把 Sim 和 Real 之间尽可能对齐。
AI 科技评论:这套算法其实还解决了一些高难度地形上机器人的动作稳定性,比如梅花桩这样的稀疏落足点,甚至在机器人运动中突然加入障碍物。
庞江淼:梅花桩很简单,只要在仿真里加一些这样的地形,定向去微调一下。在通用的框架下,机器人就能完成相关动作。
动态地形的问题比较难,现在所有 AI 处理动态事物都非常困难,坦白讲,我们最近并没有什么能解决这个问题的办法。动态相当于增加了多样性,AI 的逻辑很简单,input 多样性越小,模型表现越好;多样性上去了,模型表现就会下来。
数据匮乏的对策是 Real-Sim-Real
AI 科技评论:从多样性的维度看,机器人动作仍然是背诵而非自学习的过程?
庞江淼:你可以理解它是在背诵,但当数据量足够大,它会出现智能的涌现。
这也是 ChatGPT 最厉害的地方,它证明了,AI 的本质很有可能就是一种极致的 over fitting。它目前已经在大语言模态下做到了,但语言是一维的,并且是结构化的,有海量的互联网数据支撑,所以可以堆上去。
但在具身智能领域,数据的量级差距不可同日而语,数据量小是最本质的问题。
AI 科技评论:具身智能领域最匮乏的是哪一类数据?
庞江淼:主要是精准行为数据。
AI 科技评论:团队在训练模型时数据来源有哪些?
庞江淼:现在还是一个数据金字塔的概念,最顶层是真机数据,它最精准,但数量也最少;中间是仿真;下面是网络视频数据,离机器人最远,但数量最大。纯粹依赖真机数据肯定不行,因为数据不够,且没办法解决采集成本高昂的问题;纯粹的合成数据也不行,它没办法做到复杂交互场景的完全精准合成。
因此主要在于如何搭建这个金字塔,训练出一个足够鲁棒、泛化的模型。我们每种数据都会用,关键在于怎么融合。我个人会比较看好 Real to Sim to Real 这套技术路线,再配上一些真实世界的强化学习。
AI 科技评论:你们会使用网络视频数据吗?
庞江淼:视频数据更多是做预训练,但很难用于后训练。二者的区别在于,预训练的数据量非常大,含有更多领域的知识;但后训练必须有非常精准的行为标签。
AI 科技评论:Real to Sim to Real 的过程中,如何消除 Sim 和 Real 之间的 gap?
庞江淼:Sim 和 Real 之间最大的 gap 无非两点。
一点是关节运动本身带来的误差,但这一点是相对可控的,因为电机是自己造的,所有的真值在机器人运动过程中都能拿到;
另一点是视觉带来的误差。加入视觉后就意味着需要在仿真器里做一个相机的仿真,相机仿真本身和真实世界就是有差距的,再加上机器人看到的事物的多样性是没有约束的,这是最大的困扰点,也是接下来需要重点研究的方向。
AI 科技评论:大模型的 scaling law 会面临瓶颈,具身智能也会如此吗?
庞江淼:先解决从无到有,再解决从有到优。大模型已经用互联网数据提升到了很高水平,面对接下来的瓶颈,需要更高质量的数据做调优。但具身智能还停留在前一个阶段,即怎么把数据堆上去,现在谈论 scaling law 瓶颈还为时尚早。
我对 scaling law 其实还有一个思考:它并不只是一条线性的增长曲线。我们可以在很多维度找到这种数量和性能的线性关系。它的关键其实是一个可以让你放心 scaling 资源投入的支点,这也是我们正在探索的。
AI 科技评论:之前元宇宙没能做起来,也是类似的原因,比如 3D 内容不够丰富。现在大家也会担心具身智能会不会成为下一个元宇宙。你怎么看?
庞江淼:不会。具身智能的能力确实远未达到落地的水平,但它和元宇宙最大的区别在于,它的行业需求是客观且持续存在的,只要能做出来,下游有很多原本就存在的产业都在等待着。我对这个领域的感受是,绝对值不行,但动量非常大。
需求明确股指配资网,只是当前技术不成熟,那么技术可以往前迭代,在接下来的周期里,技术会继续往前跑,然后慢慢落地,就像刚刚说的沿途下蛋。
力创配资提示:文章来自网络,不代表本站观点。