抱负从动驾驶担任人郎咸朋回应宇树王兴兴对V

  今日,抱负从动驾驶担任人郎咸朋发布长文,回应了王兴兴的质疑,暗示他取王兴兴的概念分歧,他认为模子的环节是要取整个具身智能系统适配,正在此根本上,数据是起决定意义的。

  郎咸朋认为,正在 VLA 时代,推理算力更主要,若是没有推理卡,就不克不及生成仿实锻炼。目前,抱负汽车总算力为 13EFLOPS,此中 3EFLOPS 用于推理,10EFLOPS 用于锻炼。若是来岁做到 1000MPI(IT之家注:Mileage Per Intervention 接管里程,1000 公里接管一次),VLA 会来到 ChatGPT 时辰。

  本年 8 月,我关心到宇树科技创始人王兴兴提出对 VLA 的一些担心。其时没有提出我的概念,一是抱负 VLA 司机大模子还没正式发布,空口无凭;二是我们对具身机械人行业,还处于亲近关心阶段。我跟王兴兴概念最纷歧样的地朴直在于,他认为模子架构更主要,但我认为模子的环节是要取整个具身智能系统适配,正在此根本上,数据是起决定意义的。 从本年 9 月 VLA 正式发布,到 12 月 6 日 OTA 8。1 的推送,颠末两个月多的“实践出实知”后,我有两点:第一,VLA 就是从动驾驶最好的模子方案,第二,具身智能最终拼的是全体的系统能力。 先说 VLA。我们是正在用 GPT 的体例做从动驾驶,只不外生成的 Token 不是文本,而是轨迹和节制信号。正在某些场景下抱负的 VLA 曾经具备了对物理世界的认知出现。具体表示是用户会越来越多的发觉之前端到端没有的拟人行为。 2)世界模子更适合做“科场”而不是“考生”。世界模子的高算力需求(锻炼和推理都是)决定了它更适合正在云端做数据生成和极端逼实的仿实测试和强化锻炼,这也是抱负目前正正在做的,通过几 E flops 的推理算力做仿实测试。这个算力程度,即便再强的车端芯片也无法做到。 3)空口说架构不如看疗效。正在从动驾驶范畴,离开了海量实正在数据谈模子架构都是扑朔迷离,我们之所以 VLA,是由于我们拥无数百万辆车建立的数据闭环,这让我们能正在当前算力下,把驾驶程度做到接近人类。 再说具身智能。 要想做好从动驾驶,必需先把从动驾驶当做完整的具身智能系统看待,每一部门正在研发过程中要彼此共同才能将价值阐扬出来。人类驾驶车辆并不需要出格强的能力,通俗人都能学会。但这里讲的通俗人,是各部门都能彼此协调的正。再强的大脑,若是配的是高度近视的眼睛和不矫捷的身体,具身智能系统包罗(眼睛)、模子(大脑)、操做系统(神经)、芯片(心净)、本体(身体)。需要做到全栈自研,不只仅是软件栈,而是全体软硬全栈。抱负的从动驾驶团队取基座模子、芯片、底盘团队协同打制了整个的从动驾驶系统。基座和芯片大师比力领会不多说了,底盘方面给一个简单例子。底盘的 VMM(车辆活动办理)模块会对从动驾驶的节制信号做精细化调校,正在减速过程中区分卡钳制动和液动的利用策略,兼顾平安性和舒服体验,实现“身体”和“大脑”的协同价值。 模子的环节是要取整个具身智能系统适配,正在此根本上,数据是起决定意义的。正在机械人范畴获取数据相对坚苦,但正在从动驾驶范畴,出格是成立起数据闭环能力的车企来说并不是大问题。抱负不只能够从过去几年堆集的 10 几亿公里的存量数据里进行挖掘和筛选,更能够通过 150 万车从的日常利用络绎不绝的获取新的数据。这取用数据采集车做数据是完全分歧的,其质量和分布比拟实正在环境是有很大差距的。正在筛选数据过程中,我们也发觉良多风趣现象,比若有接近 40% 的人类驾驶数据都是偏一侧开车的,也几乎不会严酷卡着限速值开车。我们认为其实这才是合适人类的驾驶行为,所以并没有锐意删除这些数据样本。大师正在利用 AD Max 时若是发觉也有这些行为,那是模子跟列位进修到的习惯。 想哥正在前两天明白提到,将来五到十年,具身机械人焦点将有两种形态:汽车类的具身机械人、抱负的 VLA 不只办事于现正在的抱负各类汽车产物形态,也将办事于将来的汽车类具身机械人。

  郎咸朋还正在腾讯汽车的采访中谈到,抱负汽车可以或许比友商早、第一个落地 VLA,是源于抱负正在数据、算法、算力、工程四方面的劣势,“良多人还正在嘴上说,还正在用端到端的体例去做 VLA”。

  IT之家 12 月 10 日动静,正在本年 8 月的 2025 年世界机械会上,宇树科技 CEO。

  IT之家留意到,正在 2025 年成都国际汽车博览会上,郎咸朋就暗示:“VLA 别离代表视觉、言语和动做,取人类进修新学问、新能力的模式不异,具备进修藏正在数据背后的逻辑推理能力,可以或许像人一样去思虑、推理和处理问题,VLA 架构也将带来更强大的能力和体验提拔。”。