多家企业押注VLA背后:智驾阶梯要趋于交融?

发布日期:2025-12-20 15:26    点击次数:191

12月11日,小鹏汽车董事长何小鹏发文称,小鹏汽车(以下或简称小鹏)的VLA 2.0(VisionLanguage-Action,视觉讲话动作模子)将不才个季度发布,“因为是第一个版块,是以压力很大”。

此外,何小鹏还与公司自动驾驶团队立下越过“赌约”:若2026年8月30日前,小鹏VLA系统在国内达到特斯拉FSD V14.2版块在硅谷的合座后果,他将在硅谷筹建特质中国风范食堂。反之,自动驾驶负责东说念主需在金门大桥完成关连挑战。

就在前一天,梦想汽车(以下或简称梦想)自动驾驶研发高档副总裁郎咸一又在外交平台发布长文,回答宇树科技(以下或简称宇树)独创东说念主王兴兴此前对VLA模子的质疑。

“我跟王兴兴不雅点最不相同的场地在于,他合计模子架构更蹙迫,但我合计模子的关节是要与总共具身智能系统适配。在此基础上,数据是起决定真义的。”郎咸一又合计,“VLA即是自动驾驶最佳的模子有盘算。”

近几年,支持驾驶行业履历了屡次“时刻底座”的范式搬动——从企业浩荡把激光雷达+高精舆图奉为“黄金组合”,到引入BEV(俯瞰图)+Transformer解脱高精度舆图,再到端到端将支持驾驶带入AI(东说念主工智能)期间,企业浩荡按照这个旅途来股东支持驾驶功能。

参加2025年,行业在支持驾驶的发展方朝上出现了VLA与全国模子的“不合”,而梦想与小鹏即是聘请VLA有盘算的代表。

两时刻派系“各执一词”

据记者了解,VLA被业内视为端到端有盘算的“智能增强版”。其称呼中的V代表视觉感知(Vision),A代表动作施行(Action),而中间的L则是大讲话模子(Language Model)。V负责及时感知环境,A负责输出具体适度提醒,L则像“中台”相同,把感知信息转译为可供A施行的磋议与决策。

清华大学车辆与运输学院助理连络员颜宏伟暗意:“VLA是多模态大模子开动的智能体架构,其中枢冲破在于引入想维链,通过讲话模子终了对环境领会与决策推理的可诠释性。”

“VLA模子交融了讲话模子,具备高大的想维链材干,能解脱传统端到端模子的黑盒难题,并将信息串联、分析,从而推理出因果关系。此外,它自然集成海量学问库,泛化材干更强,偶而更好地妥贴复杂多变的着实说念路环境。”元帅启行CEO(首席施行官)周光合计。

不外,王兴兴在本年8月的一次演讲中暗意,“我个东说念主对VLA模子已经保捏比拟怀疑的气魄。”在他看来,VLA模子是一个相对比拟傻瓜式的架构,在和着实全邦交互时,它的数据质地、能辘集的数据是不太够用的。

郎咸一又合计,畅谈架构不如“看疗效”。在自动驾驶范围,脱离了海量着实数据谈模子架构皆是空中楼阁,“咱们之是以坚捏VLA,是因为咱们领特等百万辆车构建的数据闭环,这让咱们能在现时算力下,把驾驶水平作念到接近东说念主类”。

郎咸一又称,要想作念好自动驾驶,必须先把自动驾驶算作完好的具身智能系统对待,每一部分在研发历程中要相互相助才能将价值推崇出来。此外,他还合计,模子的关节是要与总共具身智能系统适配,在此基础上,数据是起决定真义的。在机器东说念主范围获得数据相对宝贵,但在自动驾驶范围,越过是对建树起数据闭环材干的车企来说并不是大问题。

尽管郎咸一又标明了机器东说念主范围与汽车范围有别,车企搭建数据闭环并斥责事,仍有一些汽车布景的公司并未踏上VLA这条旅途。比如,华为智能汽车经管有盘算BU CEO靳玉志就暗意,“咱们不会走向VLA的旅途。这么的旅途看似取巧,其实并不是走向真确自动驾驶的旅途”。

据记者了解,“全国模子”源自东说念主类对环境的说明机制,指的是AI系统通过感知数据构建一个对物理全国的里面模拟,从而具备量度、推理和生成合理活动链的材干。在支持驾驶中,它不再仅仅“看见”全国,而是领会全国,量度改日可能发生的情况,并提前作念出决策。举例,它不仅能识别前线有一辆自行车,还能量度它是否会一忽儿变说念,从而提前延缓或躲避。

除华为外,蔚来、商汤等企业也皆在此时刻阶梯上进行布局。

VLA与全国模子将交融?

值得严防的是,尽管不同企业关于VLA和全国模子两种时刻“各执一词”,但两者并不矛盾。

国海证券在研报中暗意:“VLA与全国模子在时刻上并非同级或对立关系。咱们将发展旅途分为两派,本质上是产业玩家在终了端到端材干之后,在材干优化侧要点上出现了分化。”

“两边时刻交融趋势昭彰,两边均在向对方范围渗入。举例,VLA引入强化学习与仿真优化动作生成。”国海证券在研报中暗意。

在客岁底的一场直播中,梦想汽车董事长李想也提到,VLA不错拆解为预检会、后检会和强化学习三个层面。强化学习中最蹙迫的一步即是活着界模子里闭环学习,引入舒放胆、碰撞、交通规矩等规矩来打磨、反映,让VLA比东说念主类开得更好。

“全国模子的高算力需求(检会和推理皆是)决定了它更得当在云霄作念数据生成和十分传神的仿真测试和强化检会,这亦然梦想现在正在作念的。”郎咸一又说。

小马智行CTO(首席时刻官)楼天城暗意,“我了解到大部分公司两种时刻皆用,比如Waymo也用了谷歌Gemini大讲话模子。全国模子和VLA模子不是一个维度的东西,而是交错的。这两个东西不矛盾、不冲突,机器东说念主范围相等多。我合计想要作念百辆无东说念主车以上,全国模子最关节。对其他公司(而言),可能作念VLA模子卖车最关节。民众聘请不同的阶梯是因为指标不同”。

值得一提的是,既向C端卖车,又盘算推出Robotaxi(自动驾驶出租车)的小鹏,有将两种时刻交融的趋势。在11月5日举行的2025 AI DAY小鹏科技日上,小鹏汽车致密发布了第二代VLA。第一代VLA的有盘算是V到L再到A,第二代VLA是V+L到A,也即是把L滚动到了输入端。

“第一代VLA模子中间波及两次讲话治疗,这会带来大批信息损耗,比如一段1200多字的笔墨神色也无法精确地‘翻译’一个十几秒的视频,而以视觉为中枢,则把模子看到的全国径直治疗成灵通轨迹。”何小鹏说。