语言模型只有70%的准确率,机器人模型需要99%。
文|智驾网 王欣
编辑|晓雨
过去一段时间,具身智能赛道正经历着一场割裂叙事。
一派是金沙江朱啸虎呼唤的「撤退宣言」,作为曾押注非夕、星海图的项目投资人,他在2024年底至2025年初批量退出多个具身项目,直言「行业太早期,商业化不清晰」。
而另一派是大批量高调入局的智驾系背景公司,如成立仅50天的它石智航近日斩获1.2亿美元天使轮融资,创下行业记录;和估值翻倍被互联网巨头等产业方重金投资的年轻团队,如华为前总裁邓泰华和「华为天才少年」稚晖君创办的智元机器人。
这两条分叉认知的背后,恰如其分地映射着人类集体对智能革命到来时的选择困境,具身智能指明了实现AGI的方向虽成为大共识,但从技术角度而言,算法的通用性、模型的通用性、以及不少模态的信息还没有被有效利用,例如触觉模态等,对温度、时间、空间等的感知,也需要未来具身智能行业逐步去突破。
3月,智元机器人发布了首个通用具身基座大模型,来自内部合伙人的姚卯青观点认为,「不做大模型的机器人公司没有未来」。昨日,智元又宣布与具身智能公司 Physical Intelligence(Pi)达成合作关系,牵头人正是昨天宣布加入智元的首席科学家:罗剑岚。
据了解,罗剑岚组建了「智元具身研究中心」,主导前沿算法研发与工程化落地,他曾在Google X、Google DeepMind从事研究工作。在伯克利人工智能实验室(BAIR)做博士后期间,他是Sergey Levine教授团队的核心成员,领导开发的世界上首个超人类的机器人真机强化学习系统SERL/HIL-SRL,首次实现将任务成功率提升到100%,在全球范围内被广泛应用。
与大模型不同,具身智能的失败成本涉及人身安全(如家庭机器人摔碎物品)或设备损毁。罗剑岚指出,语言模型60%准确率可通过人工纠错,但具身智能需达到99%以上可靠性才具商用价值。
算法层面,目前机器人仍需依赖真实物理数据迭代,而现有仿真环境无法复现复杂力学的交互。无论是这次罗剑岚的采访观点,还是行业过去的总结,一个被验证的共识是:具身智能目前仅处于类似大模型的「GPT-1阶段」,距离通用性突破至少需4-5年。
大模型和具身智能到底是什么互相影响的关系?具身智能和自动驾驶的发展又有何相似之处?具身智能作为AGI探索中的关键方向,技术突破核心到底是什么?
以下是罗剑岚接受《深度AI》的采访,或许能窥见答案:
01.
实现AGI前提:攻克长周期复杂任务技术壁垒
Q:罗博士您好,近期人形机器人行业普遍将「执行长周期复杂任务」作为技术功课重点,例如海外Figure和国内厂商均发布了相关视频。我们发现不同厂商对同一概念的定义存在区别,请问智元如何界定「长周期」和「复杂任务」这两个核心维度?
罗剑岚:所谓「长周期」具有相对性,我们更关注任务的多阶段特性:需要处理多个存在复杂依赖关系的子任务序列,而非单纯的时间长度。例如装配作业中,零件A的安装必须优先于部件B的调试,这种工序间的逻辑链条才是核心挑战。
在复杂任务维度,我们聚焦操作(Manipulation)领域的历史性难题:当机械手与环境发生物理接触时,涉及多体动力学建模、高维视觉感知融合,以及确保99%以上的操作成功率,这正是机器人学50年来持续攻关的底层技术难点。
Q:智元当前在「执行长周期复杂任务」的技术成熟度如何?比如咱们这次和Pi合作展示的视频中,围巾整理涉及双机协同操作的画面,智元都在哪些技术层面上实现了突破?
罗剑岚:这次发布的视频已展现部分我们的技术进展,以围巾整理为例,其技术突破体现在:
针对柔性物体(Deformable Object)的非刚性动力学建模,我们开发了基于实时点云数据的形变预测算法;
在运动规划层,提出了分层强化学习架构,将高层任务分解为抓取、形变控制等子模块;
末端执行器方面,采用模块化设计,通过电磁快换接口实现工具切换时间<0.5秒。
这对目前行业来说仍是比较难的一个点,围巾是一个可变形的物体,除此之外,我们还有一些其他正进行的成果展示,后续可以继续关注。
02.
美国研究环境更能容纳,软硬件联合迭代的技术路线更能成功
Q:在加入智元之前,您在伯克利呆了很久,请问是什么契机让你加入智元机器人并牵头成立「具身研究中心」?有没有思考过未来研究中心的核心目标与短期技术落地规划?
罗剑岚:我加入智元的核心动力还是希望真正做有技术影响力的事情。实际上我始终未脱离学术研究,但更希望将学术界探索的可能性转变为真实世界里的生产力。
加入智元与团队共事数月后,我确信我们具备打造全球领先具身智能系统的工程能力。我个人的研究重心在于提升系统的自主学习和跨场景泛化能力——这是机器人学习领域自2016年DeepMind开创性研究以来尚未突破的难题。尽管学术界持续产出优秀成果,但基于学习的机器人至今仍未实现规模化落地,这正是我们需要攻克的战略高地。
Q:您的研究背景强在强化学习系统,请问研究中心是否会侧重该技术路线?如何平衡算法创新与硬件稳定性等工程化挑战?
罗剑岚:我们技术路线选择秉持开放原则,我过去的学术积累确实集中在机器人大模型与强化学习,但作为企业,我们也要进行全栈布局:大脑层,要提升任务规划、推理决策等认知能力;小脑层,要提升优化运动控制、多模态感知等执行能力;以及在系统层,要攻克软硬件协同、实时计算架构等工程难题。
Q:那基于您过去在中美顶尖机构的两地经历,能否系统对比两国在具身智能领域的创新范式差异?特别是在基础研究驱动与技术落地的协同机制方面,您观察到哪些本质区别?
罗剑岚:中美发展路径会呈现显著互补特征,比如美国更侧重原始创新与理论突破,科研评价体系严格规避重复性改进,例如麻省理工学院A123公司完成了磷酸铁锂电池概念验证,但产业化落地由中国企业实现,这也是中国产业链的优势所在。
中国依托全产业链优势,在技术工程化、场景适配方面具备独特竞争力,典型案例包括新能源电池商业化进程较美国快3-5年。
Q:智元面对不同的技术路线,智元将如何构建系统级竞争力?特别是在哪些方面做重要战略部署?
罗剑岚:具身智能一项比较系统性的工程,虽然现在有很多未解的问题,但总体上我认为它从算法,硬件、数据和场景都需要耦合,是需要整合起来联合迭代。
所以我会更倾向于从这个方法的通用性,还有数据闭环角度去思考路线的问题。当然我们也会保持对主流路线的敏感,因为大家现在都在探索的阶段,同时我现在回来的话也会去更大胆的探索一些,没有被充分验证的方案,比如说强化学习,然后大规模的真实世界强化学习等。
Q:您提到具身智能需要软硬件协同发展,能否具体阐述两者的关系?随着技术迭代,二者的重要性是否会随发展阶段产生变化?比如某些周期更依赖硬件突破,某些阶段更侧重软件创新?
罗剑岚:当前软硬件处于同等重要的"双轨并行"状态。硬件层面,执行器、本体设计尚未形成行业标准,如同1980年代PC产业初期百家争鸣的状态,未来可能会根据不同应用场景(工业、家庭、服务等)收敛出几类标准化本体方案,但很难出现"万能机器人"。
软件层面,算法路径争议更大——是否必须强化学习、仿真与真实数据配比、合成数据应用等问题都悬而未决,根源在于真实场景数据积累严重不足。这需要经历类似自动驾驶的"数据飞轮"过程:随着具身智能设备在真实世界中大规模部署,物理交互产生的海量数据将倒逼算法优化,进而推动硬件针对性改进。比如机械臂抓取失败的数据可能揭示材料刚性缺陷,行走跌倒的数据可能暴露关节驱动参数不合理,这种"数据反哺研发"的闭环将促使软硬件协同迭代,最终在特定场景中形成稳定技术栈。
03.
语言模型只有70%的准确率,机器人模型需要99%
深度AI:现在关于具身智能行业,乐观和悲观信号都很多,既有大额融资也有投资人退出。您如何看待行业的复杂性?目前市场对具身智能存在哪些明显误读?
罗剑岚:这种现象在技术演进中很常见,类似自动驾驶的发展轨迹——2015年前后资本狂热涌入,随后因预期未达进入低谷,经过沉淀调整再逐步复苏,整个过程往往需要10-15年周期。
Q:具体举个自动驾驶的例子。
罗剑岚:Waymo从2016年独立发展到如今才初现商业化曙光,而具身智能作为更复杂的系统性工程,涉及感知、决策、执行的完整闭环,必然需要更长期的技术积累,绝非单纯依赖算力或模型堆叠就能突破。当前部分市场认知存在偏差,尤其是将具身智能与大模型发展路径简单类比,过度强调"大模型+具身"的协同效应,却忽视了行动系统(action)在物理交互、环境适应、机械控制等维度的挑战。
大模型本质是数字世界的交互,而具身智能必须突破能耗管理、实时响应、实体操作等现实世界的多重技术关卡,这种复杂性导致其发展节奏不可能完全复刻大模型的爆发曲线。行业的起伏本质是资源与关注度前置的必然过程,最终需回归技术沉淀与场景落地的规律,用自动驾驶领域的耐心来看待具身智能的成长更为理性。
Q:大模型热潮是否让市场对具身智能发展速度产生误判?两者底层逻辑是否存在本质差异?
罗剑岚:大模型与具身智能存在根本性代差。大模型作为数字世界的概率游戏,60%准确率已具备可用性,因为人类会主动纠偏——即便GPT建议喝农药,正常人也不会执行。但具身智能在物理世界60%的动作成功率意味着灾难:家庭机器人每3小时摔碎杯子,咖啡机20分钟泼洒一次,这种失误伴随物理后果,用户容忍度趋近于零。
因此,这正是自动驾驶打磨十年才敢商用的原因,即便当前可靠性达99.9%,仍需追求更高安全阈值。大模型技术可迁移到机器人语义理解、场景分析等模块,但绝不能简单套用其发展范式。具身智能的突破必须经历"物理约束下的渐进改良",任何试图绕过实体交互试错过程的预期,都是对技术本质的误读。
Q:机器人对动作准确率的严苛要求,是否意味着其算法体系需要更多底层创新,而非简单移植语言模型或模仿学习的技术路径?
罗剑岚:技术逻辑层面仍有借鉴价值,但实现路径需重新校准。大模型将视觉、语言、行动数据统一token化进行端到端预测的范式,在机器人领域尚未形成共识——现有视觉-行动协同方案仍有巨大优化空间。机器人作为物理交互系统,既需要吸收多模态大模型的感知理解能力,也必须构建专属算法架构。
04.
具身智能完全成熟需要十年以上技术沉淀
Q:参照自动驾驶十年发展周期,当前具身智能处于技术演进的哪个阶段?
罗剑岚:2016年可视为具身智能元年,类比自动驾驶同期的技术萌芽期。经过八年积淀,当前正处于从实验室原型向商业场景渗透的关键转折点。未来3-5年将在餐饮服务、仓储物流等封闭场景实现突破,这与自动驾驶先在高速场景落地再扩展至城市道路的路径相似。但具身智能面临更复杂的物理交互维度,其完全成熟仍需十年以上技术沉淀。
Q:您一直强调具身智能真实数据优先的原则,这有没有可能改变自动驾驶依赖仿真训练的现状?
罗剑岚:两类技术的数据范式本质相通,自动驾驶早期同样受困仿真与真实数据之争,如今特斯拉500亿英里真实路测数据已构建绝对壁垒。具身智能的突破将反向推动自动驾驶进入"物理增强仿真」新阶段——机器人积累的抓取、避障等微观物理交互数据,能显著提升自动驾驶系统应对极端场景(如冰面打滑控制、飞石撞击响应)的预测精度,形成跨领域的物理智能共生生态。
Q:解决动态环境下的长周期复杂任务可以类比成自动驾驶的「端到端长尾场景处理」的任务吗?两者逻辑是不是共通的?
罗剑岚:对,有一些相似性,两者都是行业一直以来比较困难的技术难题。
Q:当前机器人领域的数据积累策略如何平衡真实场景部署与实验室训练?相较于自动驾驶「有图/无图」技术路线,具身智能是否更需要实时环境感知能力?
罗剑岚:技术路线的选择取决于任务特性。在物体操控(manipulation)这类动态交互场景中,我们更侧重端到端的实时感知决策体系——机器人需像人类一样即时构建环境认知并执行动作,而非依赖预设地图。这比传统导航建图更具挑战性,但也更贴近真实世界的运行逻辑。
以咖啡制作为例,当机器人在动态环境中处理杯体倾斜、液体晃动等变量时,必须融合视觉识别、力学反馈、运动预测等多维数据流进行毫秒级决策,这种实时响应机制正是具身智能与传统工业机械臂的本质区别。
Q:机器人会不会同样面临缺乏数据的问题,比如尚未大规模部署时,是否会出现「数据不足制约技术突破,技术不足阻碍部署」的死循环?
罗剑岚:需要转变「绝对安全才能部署」的思维,与自动驾驶不同,具身智能可采用渐进策略:在星巴克等半封闭场景部署千台机器人,即便初始成功率仅70%-80%,单月产生的物理交互数据(如突发碰撞、物体滑落等)就能超越实验室十年积累。
这些真实环境数据能精准暴露材料摩擦系数误差、力学模型偏差等仿真无法触及的物理约束。通过「部署→数据反馈→算法迭代」的循环,系统可靠性和数据规模将形成相互促进的飞轮效应。
热门推荐
全部评论 0