📰 来源:36氪

文|肖漫 编辑|李勤 当下的智能汽车领域,物理 AI 已成为高频词汇,绝大多数智能驾驶算法厂商都在往“物理AI”转型。 卓驭在北京车展上也发布了面向移动物理 AI 的原生多模态基础模型。在卓驭科技副总裁于贝贝看来,算法厂商向物理AI转型不是为了迎合资本市场而编织的想象空间,而是一条关乎厂商存亡的生存法则。 “如果不上这条技术路线,很可能今后就跑不出来了。”于贝贝说。 在新的竞争维度上,算法厂商的对手不再仅仅是曾经的同行,还包括那些从数字 AI 领域跨界而来的巨头、具身智能公司等。 这场全新的竞赛让算法厂商进入全新维度的淘汰赛中,而此次能真正跑出来的玩家,其商业空间也将随着打开。 基于移动基座模型,卓驭已经开始尝试打破传统Tier 1“卖硬件、收开发费”的单一逻辑。在第二增长曲线中,通过将乘用车技术拓展至 Robotaxi、RoboVan 等 L4 级领域,卓驭正在探索一种基于订阅、利润分成以及“动作令牌(Action Token)”的新商业形态。 近日,36氪汽车与卓驭科技副总裁于贝贝聊了聊物理AI的底层逻辑、商业化可能性,以及在这场即将开始的淘汰赛中,卓驭又该如何建立护城河。 以下是36氪汽车和卓驭科技副总裁于贝贝的交流内容,经编辑: 36氪:能否详细介绍一下原生多模态基础模型? 于贝贝:原生多模态这个概念的提出,可以追溯到去年我们开始做VLA 1.0,那时的做法比较接近视觉与动作对齐的模型,将大语言模型从后面附加上去的,因此存在很多问题,比如对语言和语义理解的局限性,以及响应延迟等。 我们认为把所有信息都转译到一个语言空间里去理解,然后再尝试通过这个语言转译的结果去理解物理世界,是一种反常识的做法。 真正合理的路径是,视觉、音频、动作都是一个模态、规则或推理也是一个模态,这些都应该在预训练阶段就一并加入,让模型能够天生地、在多种模态的共同空间里去理解物理世界,这才是更合适的做法。 36氪:现在有把语言模态拿掉吗? 于贝贝:当前我们车端模型确实还没有开放语言这一路输入。这和小鹏发布的VLA 2.0其实是类似的,我们做的是类似方向的东西,都在向这个范式切换,底层的骨干网络已经改变了。 36氪:卓驭也进入了VLA2.0的阶段? 于贝贝:是的。业界正处于一个范式切换的转折点,摆在我们面前的选择是:到底是沿着以前做专家模型这类小模型的范式继续做下去,还是果断切到大模型的范式上来。 我们比较看好大模型的范式。如果放在移动物理AI的语境下来看,希望移动能力能够在各种各样的载具上使用,这本质上就到达了规模化应用的阶段。 大语言模型的历史经验告诉我们,以前做视觉语言模型时,也有人做专家模型,有人做通用模型,也就是所谓的基座模型。 现在来看,最终跑出来的是做基座模型的这一批人。以前那些专注于看病的专家模型,其实都没有真正跑出来。在物理AI领域,我们相信演进的规律是一样的,因此我们也会坚定地走基础模型的范式。 36氪:厂商很多玩家都在这么干,但目前也还未能真正训练出一个可以让各种不同载体统一接入的模型,本质上大家仍然是在解决车上的问题。 于贝贝:这是分阶段推进的。2025年,大家基本上都切换到了数据驱动,这意味着模型的基础能力已经达到了大概70分的水平。此时,想把它再提升到90分,那20分的差距仍然需要做后训练、采集数据和做泛化,但是其间的差距已经从当初的40分到80分,缩小为现在70分到90分的差距了。 后续,随着模型基础能力进一步提高,我们的目标肯定是做到零样本泛化,也就是所谓的“开箱即用”。 如果模型能力能够开箱就达到95分,那么后面的后训练、泛化、开城等工作几乎都可以忽略不计。虽然现在还没有到开箱95分的水平,但已经达到了开箱70分。 36氪:在现阶段,卓驭是否已经把各种场景都统一到同一个模型里实际运行过了,并认为它已经可以在各个领域都量产且实现泛化,还是说处于一个比较早期的阶段? 于贝贝:在这个时间点,还远不能说已经做到了开箱即用。什么才是物理AI最终的终极范式,什么样的架构才能真正理解物理世界,目前业界尚无定论。 36氪:您怎么看待当前大多数方案厂商都在向物理AI方向转型的现象?这是不是向资本市场讲一个更有想象空间的故事? 于贝贝:我们认为这已经不单单是商业或战略上的选择,最终应该会上升为一种生存法则层面的事情。如果不上这条技术路线,很可能今后就跑不出来了。 这和大语言模型爆发前夜一样,以前涌现出很多看病的专家模型,但通用大模型一出来,就把它们都替代掉了,以前的那些最终都没有跑出来。 36氪:在这个范式下做一个通用模型,但在其他场景下的数据,或者其他前期训练所需的条件,是不是还不够充分? 于贝贝:我们现在在训练自己的基础模型时,30%的数据来自于车辆采集的真实数据,30%来自于机器人,另外40%来自于互联网。 这种移动能力的数据,事


本文转载自 36氪,版权归原作者所有。