热搜词:

李想谈VLA司机大模型:要让AI像专业司机独立完成驾驶任务

2025 年 5 月 8 日,在 AI Talk 第二季的对话中,理想汽车创始人李想以一场长达两小时的深度分享,勾勒出人工智能从工具到生产力的进化图景。这位将理想汽车定义为 " 人工智能企业 " 的创业者,首次系统阐述了其团队打造的 VLA(视觉 - 语言 - 行动)司机大模型如何突破技术无人区,并预言 " 当 AI 成为生产工具时,真正的爆发时刻才会到来 "。

AI 的三重境界

李想将 AI 工具划分为三个层级:信息工具、辅助工具和生产工具。他认为当前多数人对 AI 的认知仍停留在 " 搜索引擎的升级版 " ——信息工具阶段,但这本质上是 " 熵增过程 ",会产生大量无效信息。即便进阶至辅助工具阶段,如车载语音助手和导航系统,AI 仍需依附人类决策。真正的革命性突破在于 AI 发展为生产工具,就像专业司机能独立完成驾驶任务,AI 需要具备自主完成专业工作的能力。" 判断 Agent(智能体)是否智能,关键在于它能否成为生产力。" 李想强调。

这种认知源于理想汽车在自动驾驶领域的实践。团队发现,依赖规则算法的传统辅助驾驶如同 " 昆虫智能 ",只能在限定场景下运行;端到端 +VLM 模型虽能模仿人类驾驶行为,却难以理解物理世界规则。" 就像马戏团动物学骑车,会动作却不懂原理。" 李想比喻道。而 VLA 司机大模型的突破,在于让 AI 真正具备人类司机的三维视觉、逻辑推理和即时行动能力。

解决 " 黑盒难题 "

VLA 的诞生被李想形容为 " 黎明前的黑暗 "。这个融合 3D 视觉、自然语言理解和行为决策的模型,经历了与传统技术路线截然不同的训练路径:预训练阶段通过海量高清视觉数据和交通语义语料构建 " 世界认知 ";后训练阶段加入动作编码,模拟驾校学习过程;强化训练则通过人类反馈(RLHF)和虚拟世界模型,让 AI 在社会化驾驶中完成价值观对齐。

" 训练过程就像人类司机成长。" 李想解释道。云端 320 亿参数的基座模型负责理解物理世界,蒸馏至车端的 32 亿参数模型通过扩散预测生成 4-8 秒轨迹,而超级对齐技术确保 AI 决策符合人类驾驶习惯。为解决行业普遍存在的 " 黑盒难题 ",理想汽车独创了结合场景重建与生成的世界模型,既保留真实物理规律,又具备应对未知场景的泛化能力。

无人区里的技术长征

在这场技术革命背后,是理想汽车对基础研究的坚持。李想坦言,团队曾计划自研语言模型,但 DeepSeek 的开源让研发周期缩短 9 个月。" 我们占了大便宜。" 他笑着表示。这种开放心态延伸至企业战略——理想将自研四年的星环操作系统开源,通过性能倍增、成本减半的系统架构革新,推动行业摆脱对传统闭源系统的依赖。

但真正的挑战在于技术无人区的探索。"VLA 这条路,DeepSeek 没走过,OpenAI 没走过,Waymo 也没走过。" 李想透露,团队为训练基座模型额外购置三倍算力,在 3D 高斯表征、稀疏注意力机制等关键技术点持续攻关。这种投入源于他对 AI 发展的判断:" 基本功比捷径更重要。就像做好规则算法才知道如何做端到端,极致端到端才能支撑 VLA。"

给 AI 划上双实线

在这场技术狂欢中,李想始终保持清醒。他给 VLA 设定了三重标准:专业能力、职业素养、构建信任的能力。超级对齐团队超过百人的规模,折射出理想汽车对安全底线的执着。"AI 要有道德边界,就像路面的双实线。" 这种价值观也延伸到企业战略,李想多次强调 " 用户价值是核心 ",从开源操作系统到用世界模型破解黑盒难题,本质都是通过技术普惠创造社会价值。

面对 AI 可能引发的人性争议,李想展现出难得的包容:" 所有人性特质都应保留,那是人类的生命力。" 这种哲学思考,或许正是理想汽车在自动驾驶争议漩涡中保持战略定力的根源。当行业争论 " 辅助驾驶是否该暂停 " 时,李想的选择是加速推进 VLA 落地:" 解决别人不愿解决的难题,才是我们的价值。"

结语:

站在创业十年关口,这位曾用增程电动破解续航焦虑、用 5C 超充改写充电规则的企业家,正将理想汽车推向更宏大的叙事——通过 VLA 司机大模型,让人工智能成为连接物理与数字世界的桥梁。在这场生产力革命中,李想给出的答案简单却有力:" 成长不是改变,而是增强能力。我们只管拼命往前走,能量自会汇聚。"