{{detailStore.author.is_follow?'已关注':'关注'}}
#理想VLA司机# 在i8发布之前,我前往北京理想总部参与了VLA体验日,也听@郎咸朋 讲了很多关于VLA的知识。 我不打算成体系地分享给大家,因为估计也没人看,就想到哪、讲到哪,给大家分享一下。 1. VLA是什么? 前年BEV,去年端到端,如今它们都成了牛夫人。2025年的小甜甜,那就是VLA就是V,Vision视觉,L,Language语言,A,Action行动三个能力的组合。 听起来是全新的东西,其实是一脉相承。我的理解可能不严谨,但保证你一听就懂: - BEV就是V大模型: 将Vision看到的东西,通过大模型来理解;可类比为人眼+人脑的结合,你睁开眼看到的是一幅画面组成的像素组合,但大脑却说你看到了一个手机,这就是V大模型正在发力。 V大模型能不能教会开车呢?理论上也能。你刚拿驾照还没上路,老司机告诉你很多规则:如果距离近了,就减速;如果车速差大于多少,就可以超车;如果前车速度剧变,你就要刹车…… 你听了上百万个如果去开车,确实也能开到家,但副驾却说:好好练练吧,你和隔壁老王的车技差远了! - 端到端是VA大模型:听到副架的训斥,你开始反思自己和隔壁老王的差距。思来想去发现,并不是因为自己规则懂得少所以差,而是隔壁老王他根本不是按规则来开车的。你问他为什么超车如此丝滑,他答不出来,说眼睛看到了、手脚就这么操作了啊。 注意看,本来只是Vision大模型,老王这里加上了手脚,就变成了Vison+Action大模型。你问他怎么开这么丝滑,他答不出来、无法交流,因为这是VA大模型、少了一个L。 - VLA大模型: 观察久了你会发现,老王并不只是一个VA大模型,实际上他还能做出复杂的判断: 多个前车减速通常是交通事故、 有些车道表面快实际慢他就不会去走。 你问老王,怎么做到的? 他思考一阵说,因为这个那个,所以做出了这样的明智决策。这就是“可解释端到端大模型”。 你继续问他,这些因为所以,你在开车的时候就在思考吗? 老王回忆了一下说,新手时期会思考的,推理一下得到结论再指导自己开车。这就是“VLM+端到端”双模型,其实也就是 L + VA大模型。这时候已经有L+VA了,但并没有合体。 老王继续说,新手时期是这么想的,但成为老司机之后,就算是走神,也能做出正确的决策啊!这时候,其实就已经没有思考的过程了,而是 VLA大模型了。 2. 端到端+VLA双模型,和VLA大模型的根本区别是什么? L+VA和VLA的区别是什么呢? 我是这么认为的:L+VA,L和VA之间是通过符号语言来交流的,这种效率很低。L能听懂人说话,但VA不一定能听得懂L说服。 @郎咸朋 也说:VLM有限,本质上不是VLM不好,而是端到端模型不能理解! 我认为,就算能理解,大模型之间通过符号来沟通,也是损失很大的。就像青春剧里主角谈恋爱,他们之间的恋爱感觉并不是通过“我爱你”这三个符号来传达的,而是通过那些难以言表的细微表情、动作、感觉来传达的。如果你不让他们见面,只允许通过文字来谈恋爱,那也不是没有,那就是《第一次亲密接触》了。 《黑天鹅》作者塔勒布也表达过类似的观点,他讲的不是情感,而是理性的决策。他认为,当你用语言来描述一种观察或一种决策逻辑中,90%以上的有用信息就被忽略掉了。 于是他得到结论:好的决策,必须是通过直觉来做出的。我是早几年看他的书的,觉得这人神神叨叨地胡说八道,但人家确实总是做出正确决策赚钱了,不得不服啊!没想到,这几年在汽车智驾领域的一些知识,让我理解并信服了他的观点。 也就是说,公司的一件重大决策,领导说你应该这么做,这么做才是正确的; 至于为什么是对的,他也讲不出来。 一般的领导这么来梳理工作,下属很难信服。但历史上的那些伟大领袖,其实就是按直觉来决策的,好的决策必须要减少对符号逻辑的。 我也和GPT交流过,我说你讲话好有逻辑的样子,作为一个大模型,你的工作逻辑到底是基于统计的大模型,还是基于符号的推理模型呢? GPT是这么回答的:他做的是 Chain-of-Thought (CoT推理),底层是 token prediction,但能涌现“合理的思维链条! 这不是真正的推理,而是类推理能力。 最后,它还不忘夸自己一句:“GPT 的强大之处是:它把推理行为 “无监督地内化到了 token 空间中”。这让它可以用一种“软符号系统”(soft-symbol system)进行类推理。” 这也是L+VA和VLA的本质区别。 L和VA之间真正的符号连接,而VLA内部都是“像符号推理一样的 token prediction大模型”,这会更强大! 这和日常生活是对得上的,捉逼的领导是会侃侃而谈讲道理说服你的,而伟大的领袖都是直觉的 —— 不要问为什么,跟我干,有肉吃! 3. 理想对VLA的阐述 VLA的优点: - 第一,思维能力,有CoT(Chain of Thought,思维链)的推理。 - 第二,沟通能力,用语言可以跟它交流了。 - 第三,记忆能力。 - 第四,自主学习能力。 关于安全感和舒适感。现在通过Diffusion可以生成很多这样光滑的曲线,使得车辆能完成更多驾驶的可能性(之前是生成连续轨迹点去执行)。 类比到数学,之前是“代数函数”,而现在则是“变分函数”。对应到历史上有趣的数学问题,那就是经典的“旋轮线”问题:从h高度滚下一个L长度的球,什么样的曲线时间最短? 讲到数学其实是很有乐趣的,但估计只有@酋知鱼 能体会我感受到的乐趣了。 为什么理想可以做到?数据、算法、算力和工程四方面要素。 - 关于数据,理想说:单从公里数来讲,做到1000万Clips或者2000万Clips,并不困难,但能够弄出这么多类型、这么多有价值的数据,这是我们的优势之一。 - 关于算法,理想说:算法里我们有两个核心能力,一个是评测效率非常高,一个是我们会使用强化学习做VLA。VLA大模型训练过程分五步,用MindGPT基座模型,经过后训练、RLHF(基于人类反馈的强化学习)和强化学习,最后做成VLA司机应用。 - 关于算力,理想说:大家以前只关注训练算力,企业有多少训练卡,有多少EFLOPS的训练算力。但在VLA时代,推理算力更重要。世界模型生成那么多场景,它是需要推理算力的,如果没有推理算力,那就不是在强化训练,就不是VLA。从算力量级上来说,我们是13EFLOPS,3EFLOPS给了推理,10EFLOPS给了训练。 - 关于工程,理想说:我们在Thor-U部署了VLA模型,它是4B的MoE(Mixture of Experts ,混合专家模型)模型,并且实现了FP8和INT8推理模型的优化。之前Orin-X上还是FP16的精度,现在是把精度进一步压缩到了FP8和INT8。 4. VLA的用户感知价值 从昨天理想i8的发布反馈来看,VLA的感知价值目前还不大,对卖车还没有显著的帮助。我认为有三个原因: 第一,这是一个新事物,大部分人没感知到,就难以理解价值。 第二,这是起步阶段,它的强大可能在将来,而不是现在。但掏钱是现在掏。 第三,L2到端到端阶段已经做得很好了,再往上走,只要不到L3那么感知价值都有限。这其实和电车续航是一样的,以前300到500、500到700的时候,大家激动坏了。现在700到800,800到1000,大家会想“收钱吗? 免费送我就要,收钱就算了”!
最后编辑于 · 2025-07-30
  • 全部评论{{detailStore.commentnum}} 条
  • 只看作者
  • 最热
  • 最新
  • 最早

「待审核」

首评 {{ comment.relativeTime }} 已被赞赏 {{comment.integral}} 积分 回复

{{ type!=10 ? '前排沙发空着~' : '暂无相关评论' }}

{{type!=10 ? '还没有人评论哦,快抢沙发吧!' : '发表一下个人看法吧'}}
写评论
积分赞赏
点赞
评论区
  • 编辑
  • {{is_favourite ? '已收藏' : '收藏'}}
  • {{is_personal_top ? '取消主页置顶' : '个人主页置顶'}}
  • 举报
  • 加入黑名单
  • 删除
  • 取消置顶
  • 置顶推荐
    • 6小时
    • 12小时
    • 24小时
    • 3天
    • 一周
    • 长期
  • {{digest?'撤销精华':'设为精华'}}
回到顶部