logo
首页> 实时讯息>

智能驾驶水面之下,“AI推理之争”暗流涌动

0次浏览     发布时间:2025-04-01 11:27:00    

文 | 极智GeeTech

如果说,智能驾驶此前还在围绕VLM(视觉-语言模型)与VLA(视觉-语言-动作模型)、一段式与两段式、无图和有图等维度展开竞争,那么从今年开始,智驾竞争已悄然进入深水,一场更底层的较量正在算力集群与算法架构之间展开。

无论是智能驾驶、大模型还是具身智能,其竞争焦点正从快速预训练响应转向慢速深度推理。在这场围绕推理能力的暗战中,AI将不再仅仅依赖于快速的模式匹配,而是能够进行深入思考,解决更复杂的问题,这将使AI迎来突破智能瓶颈的“奇点时刻”。

让人工智能学会“顿悟”

“推理”被视为人工智能发展的下半场,这一变化的发生并不是偶然。

OpenAI的联合创始人伊利亚·苏茨克维尔(Ilya Sutskever)在温哥华NeurIPS大会上明确表示,AI的预训练时代已接近尾声。他指出,当前的数据资源并不再具有指数级的增长,而计算能力仍在不断攀升,这意味着我们必须重新评估和利用现有的数据,提高其推理效率。

“推理”这一术语来源于逻辑学,是系统根据已知前提,通过规则来产生新的结论或决策的能力。推理反映了AI在模拟人类思维方面的能力,人类的推理是通过已有知识(经验或教育)对新情况进行分析,例如“如果天空乌云密布,那么可能会下雨”。

AI运行过程其实与上述描述特征基本一致,是因为它模仿了人类和逻辑系统中“从已知信息得出未知结论”的过程。推理强调模型利用训练获得的知识,在不确定的输入情况下生成合理输出。

与传统的数据处理和模式识别有所不同,推理要求系统不仅能够识别模式,还能够理解其背后的原因和逻辑。这是机器学习技术的漫长而复杂的演进过程中的最后一步,就像是人工智能的“顿悟”时刻。

举个例子,学生学习和考试,学生平时课堂学习、写作业等,可以看成是AI模型的训练。学生写作业,老师批改作业,以及老师答疑,都是在给学生反馈哪些是正确的哪些是错误的,通过这个过程学生掌握了课本里面的知识。

到了考试以后,考题多数情况下是跟平时做的题目不一样,学生需要利用掌握的知识来分析解答考试题目,这个就是推理的过程。

但是有一点需要说明,考试的知识点肯定要在课本知识范围内,即考试不能超纲,否则学生也答不上来或者答的效果不好。

在AI的下半场,推理之所以变得尤为重要,是因为随着应用场景的复杂化和多样化,简单的数据处理和分类已经无法满足需求。比如在智驾领域,系统不仅需要识别行人、车辆和交通信号,还需要理解它们之间的交互关系,预测未来的行为,并据此做出安全、合理的驾驶决策,这就需要强大的推理能力来支撑。

巴克莱的一份报告预计,AI推理计算需求将快速提升,预计其将占通用人工智能总计算需求的70%以上,推理计算的需求甚至可以超过训练计算需求,达到后者的4.5倍。

作为AI技术应用的两大基石,训练(Training)和推理(Inference)决定着AI的智能化水平。

在训练阶段,通过大量数据和算法,AI模型学会识别和生成规律。模型参数在此过程中不断调整,以最小化预测与实际值之间的误差,从而使其具备适应各种任务的学习能力。

在此过程中,大模型通过深度学习技术,通过多层神经网络,对接收输入的海量数据进行学习和优化,并通过学习调整模型的参数,以最小化预测与实际值之间的误差,使其能够对输入数据进行准确的预测。

这通常涉及到使用反向传播算法和优化器来最小化模型预测与实际标签之间的误差。为了提高模型的性能,一般需要使用大规模的数据集进行训练,以确保模型能够泛化到各种不同的情况。

这种学习方式,使得AI模型能够从数据中自动提取特征,进而实现对数据的自适应分析和处理。同时,AI大模型还采用了迁移学习技术这种学习方式,使得AI模型能够从数据中自动提取特征,将已经在其他任务上训练好的模型,迁移到新的任务中,大大提高了训练效率。

推理阶段则建立在训练完成的基础上,将训练好的模型应用于新的、未见过的数据。模型利用先前学到的规律进行预测、分类或生成新内容,使得AI能够输出相应的预测结果和具有意义的决策。

从类型看,AI推理可以分为批量推理、在线推理、流式推理三种模式。

批量推理得名于其接收和处理数据的方式,以大批量的形式进行。这种方法并非实时处理推理,而是按批次处理数据,有时按小时,甚至按天处理,具体取决于数据量和AI模型的效率。这些推理也可称为“离线推理”或“静态推理”。

在线推理也称为“动态”推理,可以实时提供响应。这类推理需要硬件和软件的支持,以降低延迟障碍并实现高速预测。在线推理在边缘场景中很有帮助,即AI在数据所在的位置进行工作。这也许是手机上、汽车里,或者网络连接有限的远程办公室中。

OpenAI的ChatGPT便是在线推理的典型范例,它需要大量的前期运维支持,才能快速且准确地作出响应。

流式推理未必用于与人类进行交互,该模型不是基于提示或请求来运作,而是接收持续不断的数据流,以便进行预测并更新其内部数据库。流式推理能够监控变化、保持运行规律,或在问题实际发生前进行预测防范。

总的来看,训练决定模型能力上限,推理决定服务效能下限。训练环节主要存在于算法研发阶段,支撑着模型能力的持续进化。科研机构通过改进训练策略突破技术边界,企业则通过领域自适应训练打造垂直行业模型。

推理服务已渗透到各类产业数字化场景,比如智驾方面增强长尾场景的处理能力并提供最优路径规划、医疗领域辅助CT影像分析、金融行业实现智能风控、教育场景支持个性化学习推荐系统等等,这些应用都依赖高效的推理引擎将模型能力转化为实际价值。

当前AI技术发展趋势显示,训练阶段正向更高效的稀疏训练、混合专家架构(Mixture of Experts,MoE)演进,而推理优化则聚焦于动态批处理、持续推理等实时化技术,两者的协同进步推动着AI技术落地的深化。

跳板智能驾驶的关键

今年,汽车行业的智驾之战明显比往年来得更加猛烈。比亚迪的天神之眼、吉利的千里浩瀚、奇瑞的猎鹰智驾,以及广汽的自动驾驶计划,这些主流车企的动向都说明了,如今的车圈已经是“得智驾者得天下”的时代了。

自2023年以来,智驾行业掀起BEV、端到端技术浪潮后,车企们正逐步将AI神经网络融入感知、规划、控制等环节。比起传统基于规则的方案,基于AI、数据驱动的“端到端”拥有更高能力天花板。

但在端到端模型之外,车企们还辅以了大语言模型、VLM模型等外挂,提供更强大的环境理解能力,从而提升智驾能力上限。

与此同时,智驾另一个技术趋势正在显现,融合了视觉、语言和动作的多模态大模型范式——VLA正在成为重要的一环。VLA模型拥有更高的场景推理能力与泛化能力,对于智驾技术的演进意义重大。从长远来看,在从L2级辅助驾驶向L4级自动驾驶的技术跃迁过程中,VLA有望成为关键跳板。

在提升汽车智能化方面,新势力车企最为激进。在近期的NVIDIA GTC 2025大会上,理想汽车发布了新一代自动驾驶架构——MindVLA。它通过整合空间智能、语言智能和行为智能,赋予自动驾驶系统以3D空间理解能力、逻辑推理能力和行为生成能力,并计划于2026年量产应用。

VLA模型最早见于机器人行业。2023年7月,谷歌 DeepMind推出了全球首个控制机器人的VLA模型——RT-2。

相比传统的机器人模型只能支持少数的特定指令,RT-2借助于大语言模型强大的语言理解能力,可以直接和用户进行语言交互,并在接收摄像头的原始数据和语言指令后,直接输出控制信号,完成各种复杂的操作和各类任务。

VLA在机器人领域的成功,很快也应用到了智能驾驶领域。2024年10月底,谷歌旗下自动驾驶公司Waymo推出了一个基于端到端的自动驾驶多模态模型——EMMA。

EMMA建立在多模态大语言模型Gemini之上,将原始摄像头传感器数据直接映射到各种特定于驾驶的输出中,包括规划者轨迹、感知目标和道路图元素,通过将所有非传感器输入(如导航指令和自车状态)和输出(如轨迹和3D位置)表示为自然语言文本,最大限度地利用了预训练的大型语言模型中的世界知识。

从技术路径看,VLA模型是在VLM基础上发展而来。VLM是一种能够处理图像和自然语言文本的机器学习模型,它可以将一张或多张图片作为输入,并生成一系列标记来表示自然语言。

然而,VLA不仅限于此,它还利用了机器人或汽车运动轨迹的数据,进一步训练这些现有的VLM,以输出可用于机器人或汽车控制的动作序列。通过这种方式,VLA可以解释复杂的指令并在物理世界中执行相应的动作。

在VLA之前,“端到端+VLM”一直是智驾行业主流技术方案。

因为驾驶时需要多模态的感知交互系统,用户的视觉、听觉以及周围环境的变化,甚至个人情感的波动,都与驾驶行为密切相关。所以“端到端+VLM”的技术架构中,端到端系统负责处理感知、决策和执行的全过程,而VLM则作为辅助系统,提供对复杂交通场景的理解和语义解析,但两者相对独立。

以理想“端到端+VLM”双系统架构方案为例,其基于丹尼尔·卡尼曼(Daniel Kahneman)在《思考,快与慢》中提出的人类两套思维系统理论,将端到端系统(相当于系统1)与VLM模型(相当于系统2)融合应用于自动驾驶技术方案中,赋予车端模型更高的性能上限和发展潜力。

其中,系统1即端到端模型,是一种直觉式、快速反应的机制,它直接从传感器输入(如摄像头和激光雷达数据)映射到行驶轨迹输出,无需中间过程,是One Model一体化的模型。系统2则是由一个22亿参数的VLM视觉语言大模型实现,它的输出给到系统1综合形成最终的驾驶决策。

虽然“端到端+VLM”大幅提升了智驾水平,但仍有很多问题。比如,端到端和VLM要进行联合训练比较困难,此外还有对3D空间理解不够、驾驶知识和内存带宽不足、难以处理人类驾驶的多模态性等问题。

而VLA通过统一的大模型架构,将感知、决策、执行无缝串联,形成“图像输入-语义理解-类人决策-动作输出”的闭环,可以同步提高智驾的上限和下限,实现空间、行为和语言的统一。

从VLM到VLA的进化,就像是从有人指导的初学者变成了经验丰富的老手直接操作,后者相对更为先进且可靠。

在推理方面,VLA模型的能力要远高于“端到端+VLM”。基于规则可能只能推理未来1秒钟内即将发生的情况;现阶段的端到端可以推理未来7秒钟可能发生的情况;而基于VLA模型的端到端的推理能力能够长达几十秒。推理时间越长,意味着在应对复杂、长尾场景时表现更好,比如施工现场,潮汐车道、交通指挥手势等。

正因如此,VLA被业界认为是端到端2.0的主要技术形态。目前,VLA尚处于发展阶段,除DeepMind的RT-2外,还包括OpenVLA模型、Waymo的EMMA、Wayve的LINGO-2、英伟达NaVILA等。这其中,Waymo的EMMA和Wayve的LINGO-2主要面向的是车载领域,RT-2、OpenVLA和NaVILA则主要面向机器人领域。

VLA是不是唯一路径?

技术层面看,VLA核心在于将VLM的场景理解能力与端到端决策架构深度融合,并引入“思维链”(Chain of Thought,CoT)技术,这使得它具备了全局上下文理解与类人推理能力,能够在面对复杂的交通场景时,像人类驾驶员一样进行思考和判断。

例如,当遇到前方道路施工、交通信号灯异常或者其他特殊情况时,VLA模型可以通过分析视觉信息和语言指令,快速规划出合理的行驶路径和应对策略。

它还能与乘客或其他车辆进行交互,接受并执行各种指令。比如,乘客可以直接对车辆说“找最近的加油站”或者“避开拥堵路段”,VLA模型就能根据这些指令自动规划路线并执行驾驶操作。

对于智驾,VLA模型有相当多的优势,其中最大优势之一就是与现有的大语言模型范式兼容。VLA模型同样遵从Scaling Law,随着模型参数提升,性能也会提升。同时,用预训练、后训练、持续训练改进模型。同时还兼容直接偏好优化(DPO)、人类反馈强化学习(RLHF)、组相对策略优化(GRPO)等技术。并且,思维链可以直接用于推理决策(比如潮汐车道的思考)。

VLA架构通过深度整合视觉、语言和行为等多模态信息进行端到端训练,从根本上减少了信息传递过程中的损耗,并显著提升了模型的泛化能力和对复杂驾驶场景的理解能力。这种多模态的融合使得模型能够学习到视觉输入与语言描述之间的对应关系,从而在做出驾驶决策的同时,也能生成相应的自然语言解释。

例如,模型可能会解释“我识别到前方有行人(视觉),根据交通规则我应该减速让行(语言和行为规则),因此我执行了刹车操作(行为)。”这种将感知、推理和行动与语言描述直接关联的能力,使得模型的决策过程不再是一个“黑箱”,而是变得可以理解和追溯。

同时,VLA将基于规则的偏好注入模型,让VLA符合人类预期的驾驶决策。这意味着,VLA模型能够识别并优先考虑安全的驾驶行为,从而减少现实世界中的不良习惯。此外,还能选择人类偏好的最优路径。

VLA模型另一优势是跨领域通用性,但其落地对车载计算平台的算力提出了更高要求。 凭借其底层多模态融合的特性,VLA模型展现出超越汽车领域的潜力,未来有望应用于包括机器人在内的更广泛的智能设备,实现技术复用和规模效应。

不过,VLA要想实现全面上车,还需要解决数据与信息深度融合的问题。这要求车企的智驾团队具备强大的模型框架定义能力和快速迭代能力。然而,在当前技术路线骤然升级的背景下,许多尚未发力端到端技术的车企将面临更高的门槛。他们需要在短时间内跨越多个技术阶段,这无疑增加了他们的难度和成本。

另一个对VLA非常重要的挑战是数据闭环。虽然大语言模型已经基于海量的互联网数据进行训练,对于语言和文本已经有了非常强的分析能力,但对于驾驶相关的视频数据、激光雷达点云和车辆状态等数据,并没有公开的海量数据可用。而且VLA的关键能力——思维链(CoT)需要根据设计的逻辑和问题建立定制化的数据,这就需要车企有非常强的数据闭环能力。

在VLA时代,数据闭环不仅仅是收集数据,收集什么样的数据,如何从海量的量产数据中挖掘有用的场景,如何把这些场景用在算法的优化上;谁能更早把这些问题想清楚,谁就能在数据为王的时代占得先机。

此外,VLA还要面临真实数据与实时响应的挑战。真实世界数据涵盖天气、光线、行人行为等变量,远超合成数据的覆盖能力。例如,闪电或违规横穿等关键状态难以模拟,需依赖量产车或路侧基站的大规模部署来积累。

而实时性要求模型在100毫秒内响应,涉及数十亿参数的计算则需强大算力支持。技术特性决定了VLA的成熟度与落地速度高度依赖数据规模与算力投入。

去年,上车的主流大模型技术仍以思维链CoT及其变种为主(如思维树ToT、思维图GoT、思维森林FoT等),在不同的场景下会融合生成模型(如扩散模型)、知识图谱、因果推理模型、累积推理、多模态推理链等技术。

今年,智驾技术的重点会向多模态推理转移,常用的训练技术包括指令微调、多模态上下文学习与多模态思维链(M-CoT)等,通过多模态融合对齐技术与大模型的推理技术结合而成。

在提升汽车智能化方面,也有像MogoMind这类面向真实物理世界的大模型,其融合多模态理解、时空推理、自适应进化等能力,将交通流量、气象条件、道路状况、城市环境等物理世界实时数据纳入模型训练,通过整合车辆、道路、云端等多方数据,可以进行实时分析并为精准决策提供支持,帮助驾驶员和自动驾驶车辆即时优化决策。

同时,通过大模型对摄像头视频流进行实时处理,可以为交通管理部门提供精准的交通流量分析预测与动态优化、事故预警、交通信号优化等服务。

从CNN到Transformer,再到VLM与VLA,技术迭代速度令人惊叹。2025年将成为车端推理与VLA全面进击的元年,各家车企将围绕算法效率、硬件成本与用户价值展开“三重博弈”。

可以预见的是,新一轮智驾格局洗牌正在酝酿,对于在技术和数据方面具有双重优势的车企将进一步巩固市场地位,而未及时跟进的车企则面临更加严峻的挑战。无论是新势力的狂飙突进,还是传统巨头的转型重生,唯有“卷对方向”的玩家才有可能笑到最后。