小鹏和理想均押注VLA，两者技术各有啥特色？

chq123 2026-03-19 12:00 阅读数 33854 #科创经济

[首发于智驾最前沿微信公众号]随着高级辅助驾驶功能越发完善，高速NOA、城市NOA的使用已经较为普遍，这其中离不开VLA（视觉-语言-动作）模型的推动。

VLA大模型的出现，也标志着行业正式从“感知识别”迈向了“理解决策”。以前的智驾系统更像是一个经验丰富的“反射神经”，看到红灯就停，看到障碍物就绕，但它并不理解为什么要这么做。

VLA模型把人类的常识、逻辑推理能力与驾驶行为直接挂钩。通过将海量的图像数据与语言理解能力结合，模型不再只是计算像素点，而是像人类一样去“观察”并“理解”物理世界的因果关系，最后直接输出方向盘转角、刹车力度等控制指令。这种从输入到输出的跨越，让车具备了处理从未见过的新场景的能力。

简单理解下VLA模型，其就是让车辆做到了“看懂世界、理解意图、做出动作”这三件事。

图片源自：网络

最近理想汽车和小鹏也相继发布了最新的VLA模型，让自动驾驶的技术竞争进入了一个全新的阶段。那这两家发布的VLA模型都有哪些特色？都就解决了自动驾驶的哪些问题？今天智驾最前沿就带大家来聊一聊。

在开始今天的话题前，先申明一下，本次内容的素材均源自于理想与小鹏发布的内容，若内容出现歧义或存在错误，也欢迎大家评论区补充。

理想MindVLA-o1，在隐空间里推演未来

从理想的MindVLA-o1的介绍中来看，MindVLA-o1偏“体系化设计”。它不只是一个模型，而是一整套从数据、模型到训练和部署的闭环系统。

图片源自：理想汽车微信公众号

理想明确引入了3D建模能力。通过视觉模型结合激光雷达点云作为几何提示，让模型在内部形成更稳定的空间结构表示。这一点和纯视觉路线相比，更强调“物理一致性”，也更利于处理如遮挡、坡道、非规则障碍物等复杂空间关系。

理想还在MindVLA-o1中引入了预测式隐世界模型，可以在隐空间中高效模拟未来。简单理解，就是让模型不仅可以看当前，还能在内部模拟未来几秒的场景变化。对于自动驾驶来说，很多驾驶动作本质上就是对未来的预测，这种能力如果做得好，可以显著提升决策稳定性。

在行为生成部分，理想还采用了VLA-MoE（混合专家模型）+Action Expert（动作专家）、并行解码（Parallel Decoding）以及Discrete Diffusion（离散扩散）等更结构化的方式。这类设计的目标很明确，就是让输出轨迹在时间上更连续，在物理上更合理。

理想还投入大量精力在仿真和强化学习上，通过可控环境进行大规模训练，再结合真实数据闭环。这种方式的优势是可以覆盖大量长尾场景，而不完全依赖真实道路采集。

同时，理想在模型设计阶段就考虑硬件限制，通过软硬件协同去优化部署效率，这对于大模型落地是非常关键的一步。

整体来看，理想MindVLA-o1是一条更偏长期能力构建的路线，强调模型结构、训练体系和工程闭环的完整性。

小鹏第二代VLA，更偏产品化和数据闭环

小鹏的第二代VLA更强调尽快在真实用户场景中跑起来。它的核心思路是尽量减少规则依赖，用大模型去直接学习驾驶行为，并通过车端数据不断迭代。

其一个比较关键的特点是对连续视频流的使用。相比传统只用关键帧或抽象特征，小鹏更强调时间连续的信息输入，这让模型在处理前车减速、行人横穿等动态场景时更稳定，决策不会出现明显跳变。

在感知中小鹏并没有强调复杂的显式三维重建，而是更依赖模型自身去学习空间关系。这种做法的好处是结构更简单，端到端程度更高，但代价是对数据规模和模型能力依赖更强。

小鹏第二代VLA另一个明显特征是“分层产品策略”（含三个版本）。高算力平台承载完整能力，再通过蒸馏压缩到中低算力车型。这其实是一个典型的工程折中，其既保证了技术上限，又能快速规模化落地。

从体验指标来看，小鹏更关注接管次数、重刹等用户感知明显的指标。这说明它的优化目标更偏“驾驶是否自然、是否让人放心”，而不是单一的技术指标。

此外，小鹏还强调“软硬结合”，通过自研的图灵AI芯片，他们把硬件的有效算力发挥到了极致。在小鹏的架构中，模型不再是一个孤立的算法，而是与芯片指令集、AI编译器深度绑定的整体。这种设计让模型能以极高的频率去吞吐视频流数据，确保了在复杂路况下的实时响应速度。

整体来看，这是一条以真实数据驱动为核心、强调快速迭代和规模落地的路线。小鹏的技术逻辑其实也非常清晰，既然物理世界的数据量巨大且连续，那就通过最强悍的算力底座和最高效的模型架构，直接去消化这些海量信息。

智驾最前沿观点？

对比这两家的方案，智驾最前沿以为它们在解决自动驾驶上限问题时选择了不同的发力点。理想试图通过构建完美的物理模型和模拟器，让车学会如何像人一样去思考物理定律，从而在未知的环境中找到答案。它的优势在于它对场景的还原度和对未来的预测精度，这让它的车在面对复杂路口和人车交互时，表现得更加冷静且符合逻辑。

而小鹏则更看重系统的爆发力和执行效率。其强调大模型带来的能力提升必须建立在高效的算力流转基础之上，所以他们把大量的精力花在了如何让大模型在有限的端侧设备上跑得更顺畅、吞吐量更大。

如果说理想是在提升车的“智商”，那么小鹏就是在通过重构身体结构（芯片与编译器）来释放大脑的潜力。

图片源自：网络

从这两家发布的技术中，我们也可以看到一个清晰的趋势，自动驾驶正在加速向具身智能演进。无论是理想的“数字大脑”类比，还是小鹏对“物理AI”基座的重构，其实都在表达同一个观点，那就是车只是AI介入物理世界的第一个载体。

未来的核心竞争力，不再是某一个功能可以做到什么程度，而是谁能构建出一套通用性最强、自进化速度最快的底层架构。

在我看来，目前的难点其实在于端侧部署的效率红线。即便模型再聪明，如果在车端运行时的延迟过高，一切都是空谈。因此，小鹏这种从底层芯片开始重构的路径，在长远来看具有极强的技术护城河。而理想通过世界模型实现的闭环强化学习，则在数据获取成本和模型进化效率上找到了平衡。

未来这两条路线可能会殊途同归，即在拥有强大硬件底座的基础上，通过世界模型进行大规模的自我进化。

审核编辑黄宇