
4月25日,北京车展A4馆,元戎启行CEO周光一上台便先讲了一段自己的经历。
他很小的时候目睹过一场交通事故,心里留下很深的触动。后来读博期间从事AI研究,他开始思考,能否用AI技术减少交通事故带来的死亡。博士毕业后,周光进入自动驾驶行业。他在发布会上说,自己做自动驾驶的初衷,是希望有一天能“拯救那么多生命和家庭”。
要实现这一愿景,现阶段主流智驾技术路线面临瓶颈。周光随后把问题引向技术路径:以小模型和工程规则堆叠起来的智驾系统,可以持续改善局部体验,但很难在全场景、全时刻、全城市范围内实现安全能力的数量级提升。
在他看来,自动驾驶要走向“十倍、百倍以上的安全”,需要进入由大模型、多模态和物理AI驱动的新阶段。

在这一技术升级背景下,新任首席科学家阮翀成为元戎启行此次发布会的关键人物。几个月前,长期从事大模型、多模态与智能系统研究的阮翀加入公司,并在北京车展上首次公开亮相。这一人事安排,让元戎启行的大模型路线有了更明确的组织支点。
过去几年,元戎启行的竞争重点集中在无图、端到端和量产交付上。周光在发布会中回顾称,公司较早做前融合,较早实现无图,也较早投入端到端。在他看来,这些选择构成了元戎启行在“前大模型时代”的技术路线。
ChatGPT出现时,周光最初感受到的还是数字世界的变化。到2024年,随着多模态能力开始向物理世界外溢,他对自动驾驶行业的判断发生了变化:如果不能用大模型的方式做自动驾驶,行业原有技术体系就会被重写。
这种判断并非来自概念热度,而是来自传统智驾方案逐渐逼近天花板。
过去的自动驾驶系统,本质上是大量小模型和规则模块的集合。识别行人要一个模型,识别红绿灯要一个模型,理解车道线要一个模型,预测车辆运动还要另一套模型。每一个模块都需要单独开发、单独训练、单独维护。系统越复杂,工程负担越重;场景越长尾,修补成本越高。
阮翀在发布会上说,过去行业会做“很多各种各样的小模型”,整个体系带来“开发、管理或者人力上的巨大负担”。未来的趋势,是用更大参数量、更强结构能力的模型同时完成多项任务,减少每个特定任务对应一个单独模型的工程负担。
元戎启行押注的大模型物理AI,目标是让系统形成更完整的世界理解能力。它既要看到路上的车、人、灯、线,也要理解这些对象之间的空间关系、运动趋势和潜在风险,并把这种理解实时转化为驾驶动作。
在这一过程中,元戎启行过去积累的无图、端到端和量产交付经验,将被纳入大模型和物理AI的研发框架中。公司希望完成的,不只是智驾功能升级,而是从模型架构到数据闭环的一次系统切换。
值得玩味的是,科幻作家、童行书院创始人郝景芳在圆桌论坛上也提到类似的“范式转换”。她说,如果马路上全是无人驾驶汽车,车辆之间用信号相互沟通,其实不太会出交通事故;事故往往来自“有人走来走去,有人类司机干扰”。在她看来,混合模式并不是理想状态,真正的AI到来以后,需要从工作流到交通系统都发生范式转换。
这与元戎启行强调的技术升级形成呼应。自动驾驶过去面对的是人、车、规则和长尾场景混杂的复杂系统;大模型和物理AI要解决的,是让系统在更统一的智能框架下理解环境、协调行为,并形成更稳定的闭环。
物理AI闭环
自动驾驶之所以成为大模型最重要的落地场景之一,是因为它天然具有物理AI属性。
语言模型解决文本世界的问题,多模态模型开始处理图像、视频和声音。进入物理世界后,AI面对的任务发生变化。它不再只是生成一段内容,而要在毫秒级时间里完成感知、预测、决策和行动。车辆一旦做错动作,代价不再是回答错误,而是现实世界里的安全风险。
按照多位圆桌嘉宾的综合表述,物理AI的核心,是让AI从概念认知进入时空认知:理解三维空间关系,预测物体运动,建模碰撞与约束,并在真实世界中形成从感知、预测到决策、行动的闭环。自动驾驶和人形机器人,是这套体系最典型的两个落地形态。
元戎启行把物理AI落到自动驾驶上,依托的是已经跑在路上的量产车队。
汽车本身就是一个持续采集真实世界数据的载体。每一辆搭载智驾系统的车,都在产生道路数据、驾驶数据、接管数据和用户反馈。过去,这些数据更多用于修补具体场景中的模型问题;进入大模型闭环后,它们可以被重新组织和利用,成为训练物理智能的重要素材。
阮翀在发布会中把元戎启行的大模型体系拆成三个部分:驾驶模型、分析模型和评论家模型。
驾驶模型负责接收传感器输入并输出驾驶动作,比如刹车、转向;分析模型引入语言模态,解释车辆为什么这样开,也可用于数据标注和研发分析;评论家模型则用于学习负向数据,帮助系统理解哪些行为存在风险,从而避免闯红灯、抢行等危险动作。
这个拆分很关键。在阮翀的描述中,小模型时代更多依赖正向数据,系统主要学习“什么是好的驾驶”。也就是给模型大量正向样本,让它拟合人类司机或优秀系统的行为。但真实驾驶的安全性,不只来自“会开”,也来自“知道什么不能做”。成熟驾驶员的能力,往往体现在对风险的预判、对坏动作的克制和对极端场景的保守处理上。
评论家模型的引入,等于让自动驾驶系统同时学习好样本和坏样本;既模仿动作,也理解边界。自动驾驶由此从行为复制,进一步走向风险理解。
这种变化进一步落到研发流程中。阮翀提到,大模型可以用于数据表征。过去,端到端模型的迭代往往是后置的:先训练一版模型,上车测试,发现某些场景不居中、等红灯表现不好,再回过头补数据、改训练方式。这样的流程较慢,也高度依赖人工经验。
引入数据表征模型后,研发团队可以提前知道模型在什么场景下有什么数据,哪些场景数据不足,哪些数据需要升采样或降采样。问题不必等模型上车后才暴露,可以在训练之前被识别出来。
大模型还可以用于数据质量评估和模型质量评估。过去判断数据质量,常常要先用这批数据训练出一个模型,再看模型效果;判断模型好坏,也大量依赖工程师上车路测、人工目测。阮翀认为,有了大模型后,很多过去依赖路测和人工观察的环节,可以迁移到云端虚拟环境中完成。按照他的说法,过去迭代一版模型可能需要100多个小时,现在有机会缩短到10多个小时。
元戎启行真正想做的,是建立一个更快的进化系统。
某一个时间点的模型领先,并不等于公司真正领先。自动驾驶是一场长期竞争,数据、模型、仿真、评估、组织效率都会共同决定迭代速度。能够更快识别问题、更快组织数据、更快完成训练和验证的公司,才可能在长期竞争中占优。
这也解释了为什么周光在后续交流中反复强调“范式切换”。他说,如果目标只是做一点点体验改善,传统方式也许还能继续;但如果要做到1000公里、1万公里级别的安全,“不切换范式是不现实的”。
1000公里级MPCI(最短规划控制间隔),指向每千公里才需要一次人工接管的能力水平。它是自动驾驶从辅助功能走向高可靠系统的门槛之一。周光把它看作公司今年的重要目标,也把它和“十倍、百倍安全”的愿景连接起来。
在阮翀看来,1000公里级MPCI并非凭空提出的目标。他认为,特斯拉已经验证过这一能力方向,“别人能做到,你也能做到”。体验可用只是第一步,安全能力和接管频次才是通向更高阶自动驾驶的关键指标。
这背后还有一层行业判断:自动驾驶接下来的竞争,将同时发生在算法、芯片、云端、车端架构和组织方式之间。
车端底座重塑
大模型进入自动驾驶后,最常被质疑的问题是:如此大规模的模型,如何在车上运行?
阮翀在群访中给出了两个答案:蒸馏,以及时间。
所谓蒸馏,就是用更强大的大模型训练出能力更强的小模型。阮翀说,可以先让一个大模型足够强,再把它蒸馏成一个小模型,这样得到的小模型,“能力比你从头训练一个小模型会强很多”。
这解决的是当前车端算力约束下的工程问题。自动驾驶不能把所有计算都放在云端,车辆必须具备本地实时决策能力。但车端芯片的算力、功耗和成本有限,不可能无限制堆参数。因此,大模型训练、小模型部署,会成为一条现实路径:云端负责更强的训练、评估和知识沉淀,车端部署经过压缩、蒸馏和优化后的模型。
第二个答案是时间。阮翀说,要“相信时间的力量”。一方面,硬件会持续进步,芯片算力会提升;另一方面,模型架构本身也会进步,同样大小的模型,随着时间推移会变得更强。他举例说,自己2017年做机器翻译时,在手机上跑一个5000万参数模型已经很大;现在,在手机上跑一两B参数规模的模型已经不是不可想象的事情。
这句话对自动驾驶行业很重要。
过去,很多车企和供应商会以当前芯片能力倒推算法形态:今天车端只有多少TOPS,模型就必须控制在什么规模;今天成本只能做到多少,系统能力也随之被限定。大模型时代的逻辑正在发生变化:先确定未来能力目标,再倒推芯片、架构和产品定义。
周光以特斯拉为例。他提到,特斯拉每一代技术都会投入大量芯片和算力资源,新车不会退回旧平台,而是持续向更高算力演进。公开资料显示,特斯拉HW4/AI4外界多估算在300—500 TOPS左右。周光认为,下一代自动驾驶如果要支撑大模型和更强的多模态能力,车端硬件就不能继续停留在低算力、小模型的框架里。
在他看来,芯片成本很高,马斯克仍然选择自研和持续投入,也能说明高算力并非短期炫技,而是在为未来自动驾驶能力提前铺路。
按照这一逻辑,自动驾驶的技术路线不能被当前算力和成本反向锁死。芯片成熟和成本下降可以等待,但能力目标一旦判断错误,下一代系统就可能走向错误的路径。
大模型多模态爆发前夜,智驾芯片的竞争逻辑也在改变。
过去,车端智驾芯片已经大量采用NPU、BPU等AI加速单元,并不是到大模型时代才开始转向AI芯片。早期智驾系统主要服务CNN视觉感知、BEV建模、小规模端到端模型以及规则规划,芯片竞争更多集中在TOPS、能效、成本、车规安全和量产适配能力上。
多模态大模型进入自动驾驶后,芯片需要承载的任务会更复杂。下一代车端计算平台要处理的不只是摄像头、激光雷达、毫米波雷达等传感器输入,还要支持Transformer结构、多模态融合、更大参数量模型的低延迟推理,以及云端训练、车端部署、端侧持续迭代之间的协同。
英伟达DRIVE Thor已经把面向生成式AI、自动驾驶、泊车、座舱和乘员监测的一体化中央计算作为方向,并宣称其可提供超过1000 INT8 TOPS的算力,行业头部计算平台正在把大模型和多场景融合纳入下一代车端架构设计。
因此,下一代智驾芯片的比拼,不能只看一个TOPS数字。存储带宽、低精度计算能力、Transformer算子支持、传感器数据吞吐、端云工具链、车规安全冗余,都会变得更重要。芯片会从服务单一智驾功能的算力平台,走向面向大模型和物理AI优化的异构计算底座。
硬件和模型之外,组织方式也要跟着调整。
周光提到,大模型时代需要的是“人才密度”,不是简单堆人数。他认为,传统智驾行业长期依赖大量工程人员处理规则、数据、场景和版本,但大模型时代的研发组织不应继续走人海路线。“密度高,但是人不是多的,不是追求绝对数量。”他说,真正需要的是领军人物,以及高潜力、有经验的人。
阮翀也表达了类似判断。他认为,模型只是一个交付结果,真正重要的是研发过程。技术总会迭代,竞争者也会出现,因此“某一点的领先不是真正的领先”,关键在于如何组织研发过程,实现持续迭代和改进。
阮翀加盟的组织意义也在这里。
大模型不是给旧团队换一个工具,而是重构公司内部知识、代码、实验、数据、协作和决策的方式。阮翀提到,知识过去散落在文档、聊天记录和口头经验里,时间久了会过时、丢失;有了大模型后,这些知识可以被总结、提取、解释。代码、实验日志、跨部门协作,也可以被智能体和工具链重新组织。未来的公司不只是人的集合,也会是“人和智能体的集合”。
放在自动驾驶行业,这种组织变化尤其关键。传统智驾公司在量产压力下,往往容易陷入项目制交付:客户需求、车型节点、道路测试、问题修补不断挤压研发资源。公司越做越忙,底层能力未必同步提升。大模型方法如果真正融入研发流程,元戎启行就有机会从“项目驱动”转向“能力驱动”。
范式跃迁
这次押注并非从零开始。周光称,目前搭载元戎启行系统的车辆保有量已超过30万辆,并预计今年新增100万辆左右“问题不大”。对一家押注大模型智驾的公司来说,量产规模意味着更持续的真实道路数据,也意味着技术范式切换有了可以落地验证的车队基础。
大模型自动驾驶仍处在早期。周光也坦承,2025年真正押注大模型自动驾驶的三家头部公司,过去一年进展并不顺利,没有取得预期中那么快的进度。原因在于,多模态大模型此前还没有真正突破,尤其是视频生成和物理规则理解仍存在缺口。直到2026年前后,多模态能力出现明显跃迁,才让他看到新的可能。
元戎启行当前处在一个微妙位置。无图、端到端和量产交付构成了公司的上一阶段能力基础;在下一轮竞争中,大模型、多模态和物理AI还没有到全面收获的阶段。它现在要做的,是把前一阶段积累的数据、工程和车企合作经验,接入新的技术范式,并通过人才、架构、组织和产品目标的重组,押注自动驾驶的下一次跃迁。
元戎启行这次押注的核心,是多模态大模型正在从数字世界走向物理世界。自动驾驶安全能力的提升,将越来越依赖大模型、数据闭环、芯片算力和组织方式的共同变化。
阮翀加盟之后,元戎启行的技术路线开始加速切换。这一变化释放出一个清晰信号:自动驾驶的上一阶段,行业围绕无图、城市NOA和量产交付展开竞争;下一阶段,真正决定技术上限的,将是大模型、多模态和物理AI。
周光想讲的“十倍、百倍安全”,或许最终要靠这套新范式来证明。元戎启行接下来要证明的,是自己能否在大模型多模态爆发前夜,完成从智驾公司到物理AI公司的转身。
京公网安备 11010802028547号