ChatGPT,突然出现的爆款

2022年11月,美国科技公司Open AI发布ChatGPT,因能很好地与人实现互动而迅速成为爆款产品:上线5天用户过100万,2个月后用户就突破1亿,成为历史上用户数增长最快的消费者应用。

ChatGPT成功关键之一:大参数

ChatGPT(Chat Generative Pre-trained Transformer),是一种适用于自然语言交流的人工智能大模型,它成功的关键之一,是Open AI使用了海量数据进行预训练。5年间,GPT的参数量已从亿级飙升至万亿级。

ChatGPT成功关键之二:新模型

ChatGPT取得成功的另一个关键,是使用了Transformer模型。该模型采用自注意力(self-attention)机制,其优点在于并行度高,可一次性处理所有输入数据,使ChatGPT能对词语序列的概率分布进行建模,利用上下文信息预测后续词语出现的概率分布。

Tf模型的另一个重要用处:计算机视觉

2020年,微软亚洲研究院首次将Tf模型应用于图像分类任务,在评测中实现88.55%的准确率。而且Tf模型在数据量越大的情况下表现越好,特别适用于自动驾驶这类大规模数据训练场景。

Transformer模型的工作原理
Transformer模型可将2D图像融合成3D视角
自动驾驶近年来一直未能进入L3时代

自动驾驶是过去10年最火热的赛道,但直到2022年才有部分企业推出具备L3级功能的车型。究其原因,除法规发展落后于产业发展外,很重要的一点在于自动驾驶系统积累的数据量还不够,存在安全隐患。

SAE对自动驾驶的分级标准

为解决长尾问题,测试数据需达10亿~1000亿公里

道路交通具有场景复杂、参与者多、场景异质性强等特点,存在大量不可预见性。为避免长尾问题,厂商需要对车辆自动驾驶系统进行大量测试,以确保尽可能多地覆盖场景,但也会带来成本的大幅增加。

业界对L4级别自动驾驶所需测试数据的预估
AI大模型将从根本上改变自动驾驶产业的发展

人工智能大模型在汽车业的应用,首推它对自动驾驶的赋能,主要体现为城市导航辅助驾驶系统(城市NOA)的量产应用上。从2022年Q3起,国内外智能汽车头部企业开始应用投放各自的城市NOA系统。

智能汽车头部公司NOA系统发展概况
要实现NOA对智能传感器硬件要求很高

硬件配置方面,需要车辆使用满足L3级自动驾驶功能的智能化传感器,如摄像头、激光雷达、毫米波雷达等,能实时感知各类路面情况;还需要车辆的自动驾驶芯片有足够高的算力,能在毫秒之内识别信息,并提出应对策略。

应用智能传感器是实现NOA的基础
无论是多传感器融合派厂商,还是视觉派厂商,都大量使用智能化传感器,他们是实现NOA的必要条件。
要实现NOA还需要高水平算法的支持

厂商要搭建起高效的算法模型,开发的系统既要能精准识别并处理各传感器获得的数据,还要能有效应对模型未考虑到的长尾问题。这大大增加了系统所需数据量,增加了开发难度。

软件在NOA系统中起决定性作用

特斯拉的NOA系统不仅能规划车辆行进路线等,还会实时提供预警信息,并能主动停止可能导致危险发生的并线等行为。

小鹏汽车开发的城市NGP的代码量、感知模型数量、预测/规划/控制相关代码量,分别是其高速NGP是6倍、4倍和88倍。

特斯拉率先在汽车业应用AI大模型

2021年,特斯拉在其AI Day上宣布将基于BEV+Tf架构开发其新版的完全自动驾驶系统(FSD),并于当年开始重新编写底层代码,成为在汽车业第一个使用AI大模型的主流厂商。

新架构下特斯拉自动驾驶软件的融合效果
传统的自动驾驶算法是基于规则开发

传统算法将自动驾驶系统划分为感知、规划、控制等3大块,每个部分又可细分为不同的模块和子模块。每个模块各司其职,有着独立且明确的目标。

传统的自动驾驶算法框架

鸟瞰图,一种新的融合算

鸟瞰图(BEV,Bird’s Eye View),是利用算法将各传感器获取的二维信号转换成类似直升机俯视视角的三维坐标,可在感知算法的层面实现端到端的架构开发。

优点

⚫ 通过融合多个视角解决遮挡和物体重叠问题,解决多传感器融合问题,方便下游任务共享图像特征;

⚫ 在BEV视角下没有物体变形问题,使得模型集中精力解决分类问题;

⚫ 能够把传统感知方案中3D目标检测、障碍物实例分割、车道线分割、轨迹预测等多项任务在一个算法框架内实现,大幅减少人力需求,提升算法开发效率。

缺点

⚫ 鸟瞰图是基于2D信号合成的,缺少高度信息,无法真实反映出物体在3D空间实际的占用体积是多少。为解决这一问题,算法通过矩形框进行标记,这导致了细节损失。

万亿赛道!AI大模型解决智能汽车自动驾驶端到端问题深度分析 2025

⚫ 对于未被预训练过的物体,系统无法识别。

占用网络感知技术,特斯拉给BEV算法打的补丁

2022年,特斯拉推出Occupancy Networks(占用网络) 感知技术,通过算法对物理世界进行数据化和泛化建模,在3D空间上测出不同物体的高度,赋予鸟瞰图算法高度信息。

AI大模型可以大大降低自动驾驶成本

自动驾驶感知模块有视觉派、融合派2种技术路线,前者以摄像头为主传感器,后者以激光雷达为主传感器。

应用AI大模型降低了硬件的要求,及软件开发的成本。

AI大模型可大幅减少长尾效应,提高自动驾驶安全性

由于基于规则的算法泛化性不足、仍面临诸多长尾问题,目前完善算法的方式是“打补丁”,又会导致最终代码量庞大且难以维护。AI大模型具备更强的泛化能力,可大幅度减少长尾效应,大大提升安全性。

AI大模型驱动下,L3级自动驾驶的安全性已高于人

2021年,特斯拉开始应用大模型重构自动驾驶软件,当年7月推送的FSD Beta V9是大模型算法下的版本。2022年的实际测试显示,特斯拉L3级自动驾驶系统FSD的安全性能已高于人。

FSD已具备高于人驾驶的安全性

软件定义汽车有了新的含义

软件定义汽车的概念近年来逐步被业界接受,但更多的还是从产品开发的角度,强调要重视软件的功能、作用与价值。随着大模型得到更多的应用,软件定义汽车的内涵有了新的变化,后续可能是“数据定义汽车”。

业界对软件定义汽车的常见理解

数据驱动时代,对算力的要求更高

自动驾驶功能的不断升级,对车用芯片算力的要求越来越高,用户需求倒逼上游企业开发出集合AI加速器的系统级芯片( SoC),提升车辆的算力。今后的算力将来到云端,对整车厂商提出更高要求。

Transformer模型所需算力是指数级增长

激光雷达的重要性大幅度下降

激光雷达具有直接、稳定、精确测量的优点,可以直接感知夜间暗光场景、炫光场景、以及一些视觉算法无法识别的情况,具有兜底的能力。但在新的算法下,它的这些特点可由4D毫米波雷达提供。

4D毫米波雷达特性 

4D毫米波雷达可以提供高质量的点云数据,前向4D成像雷达角分辨率可达1°方位角和2°俯仰角。这种特性使车、人的反射点将不再只是一个简单的点,而是成百上千的点组合的图象,从而显示出整个物体轮廓。

4D毫米波雷达与其他雷达的性能差异

高精地图不再不可或缺

高精地图包含道路形状、道路标记、交通标志和障碍物等更细致的地图元素,可帮助车辆其探查传感器未收集到的道路信息。但AI大模型可以让车辆实施生成活地图,补足了自动驾驶后续决策所需要的道路拓扑信息,因而可以实现去高精度地图化。

高精地图的优缺点

优点:精度更高,地图元素更丰富可提供超视距、厘米级定位。

缺点:成本高(图商开发费用数千万元)更新难度大(涉及道路敏感信息)

AI大模型可绕过高精地图

其主要的思路是在原有硬件基础上,推出新的视觉感知架构 XNet。其利用多相机多帧和雷达传感器数据的融合算法,直接输出 BEV视角下交通参与者的静态和动态信息(状态、速度、行为预测等),具备实时生成高精地图的能力。

#artContent h1{font-size:16px;font-weight: 400;}#artContent p img{float:none !important;}#artContent table{width:100% !important;}