BEV全称是Bird"s Eye View(鸟瞰视角),实现方法是把原本摄像头2D的视角通过算法校正和改变,形成基于上帝视角的俯视图。

从本质上来说,BEV算法就是 将传感器输入转换到统一的俯视角度下进行处理


(资料图片仅供参考)

这里的传感器不只有摄像头,还有4D毫米波雷达、激光雷达等,算法把它们的信号融合,最终形成一个上帝视角。在计算机里面处理这部分信息时,也会基于上帝视角去进行规划决策和控制。

01 BEV为什么兴起?

首先是城市NOA的落地。

高速场景下L2++场景相对单一,感知任务不重,但控制方面很难,因为高速公路一般速度在80-120公里/小时,所以在高速场景下,如何把规划决策和控制做好,保证它不会在边界状态下失稳就显得尤为重要。

但是在城市道路上,它的 难点就在于感知,因为有非常多的交通参与者或者非常复杂的路况。

目前主要的城市NOA玩家:

原来做L4的科技公司:从Robotaxi上迁移感知,调整传感器;传统Tier1或者OEM:把感知做好,处理好复杂场景。

在实现L2++功能时,大多希望360度范围内能够做到精确感知,需要做到传感器融合,难度加大,复杂度增强,因此BEV愈发重要。

安信证券报告显示,蔚小理等车厂通过OTA升级释放城市NGP或者NOA功能的时间节点都在2022年到2023年之间。

所以这就是为什么国内高速NOA对BEV的使用并不多,但随着2021年特斯拉提出BEV算法,以及与transformer结合后,国内也开始在城市道路上去使用BEV算法解决复杂和不确定的城市道路场景。

02 BEV做特征级前融合的优势

现阶段量产里广泛使用的后融合:

不同传感器各自算各的,把感知和分类的结果做投票,这个投票是根据场景的不同计算权重的;算法由不同供应商提供,不需要域上的大算力,但每个传感器都可能丢失重要信息,比如高速公路上的破碎轮胎;在行泊一体之前,大多数的行车、泊车是两套完全不同的传感器。

但是不同的后融合方案存在各种缺点,因此大家开始想办法就开始去做 前融合

前融合的就是尝试把摄像头上的像素,激光雷达的点云,毫米波雷达拟合过的一些特征信息(现在如果用4D毫米就是4D毫米波的点云,它已经能够成像了),把这些信息去做原始数据的时空同步,然后再结合其他的信息,最后得到了一个多维度的Raw Data,再去做分类识别跟踪等等。

但是这个过程中像素级的前融合非常难做,原因在于:

这么多点云与像素去做匹配的时候,时空同步难度很大;算力消耗非常大;不同的传感器硬件系统时间是不一样的,很难知道激光雷达的某一帧到底实际严格意义上对应了摄像头或者毫米波雷达的哪一帧,而且存在运动补偿的误差。

即使做了非常详细的标定,一旦换硬件或者换车型很多流程又要重新来一遍,所以我们在BEV里面开始去尝试把这个问题得到系统性的解决,那到底是怎么解决的呢?

首先在BEV算法里面是用特征级的融合,然后再把它映射到统一的坐标下,即BEV的坐标体系里面。

然后去做融合,融合之后再进行训练学习分类,最终后融合的特征可以保留,那么同时它又不像是前融合阶段要求高精度和高算力,所以它是一个相对折中的一种方法。

这个方法我们叫 特征级的前融合,或者把它叫做 中融合也可以。

特斯拉AI Day曾展示一张图:不同的摄像头都对于这个特征做识别,后融合方面就是先把它做分割之后再去融合,最终得到的结果是基于BEV做特征级融合的效果,远远好于在BEV空间里面做的后融合,所以说特征级的融合能更好地解决后融合信息丢失过多而造成的误差,同时也避免了像素级的融合,算力的灾难和复杂度的灾难。

03 BEV加transformer组合带来的变化

BEV不是一个新的概念,深度学习赋予它活力,使用深度学习算法实现了从2D到BEV视角的转换。

BEV除了加了深度学习之外,在2021年的时候,特斯拉还提出了大模型 transformer再加BEV的模型。

transformer作用是什么?就是给这些按照时间序列进入的特征和信息赋予权重。transformer最大的功劳就是,对于 特征给予或异构的特征,比如说同构的特征给予了注意力的新参数。

基于transformer的BEV算法优势:

增加了系统的跟踪和推断的能力;加了异构传感器的融合和算法泛化能力;实现了不同视角下在BEV中进行统一的表达;对于端到端的优化,模块更简洁了,任务的可扩展性也更强了。拥有构建语义地图的能力,即是方案可以摆脱高精地图。

在2021年特斯拉在提出 BEV之前,我曾经是高精地图坚定的支持者,但最后发现高精地图的更新成本等因素导致它的局限性,尤其是如果要做自动驾驶方案出海,还要涉及不同国家的高精地图。

之后,各大车厂陆续开始通过 BEV算法和得到的信息构建语义地图,非常典型的应用就是有些车厂提出来的 高频路线的城市道路NOA

特斯拉通过BEV算法加transformer去构建一个城市道路下高级别智能驾驶所需的语义地图,但是这个过程的实现需要结构化训练数据来源,要基于BEV的模型去做数据的标注、分割、分类等等。

那么要标多少数据?

毫末智行CEO顾维灏预测,BEV的模型 大概要标注1亿公里的数据,所以这个量是非常大的。因此特斯拉就推出了自动标注,怎么做自动标注?

在影子模式的过程中得到了非常多的数据,数据能够自动地进行相对准确的标注;然后用人工进行抽检的方式,能够现在越来越好地为深度学习/transformer的模型等提供更多输入数据。

这样一方面是有影子模式去收集场景数据。另一方面又通过自动标注把这些数据变得结构化。通过这样的方式打通,就使得特斯拉成为了全世界到现在为止获取相对准确的结构化信息数据的最快也最廉价的一个车企。

除此之外,特斯拉在AI Day透露,另外一个数据来源就是 虚拟仿真

除了对数据要求比较多,BEV算法对算力的要求也比极高。那BEV算法如何才能降低算计的消耗呢?

用相对轻量化的模型;用多任务模型就统一一个模型,但输出多个任务可能是静态可能动态的,反正就是用一个模型输出多个;对算子做一些优化。

04 BEV后的技术迭代——占用网络

占用网络依然是一个类似于“上帝视角”的视角,还把多个传感器做了融合。

下方图像是特斯拉的结果,他们把空间做了网格化的分区,分割之后,每一个小方块叫做体素,类似于像素。

只要在这个空间的体素下被占用了,都会被系统认为是1,赋值1,否则赋值为0。只要知道物体在空间里面占据了一定的体素,系统就会把它显示出来,并判定它是一个障碍物。

特斯拉的想法是,应用好占用网络,再加上4D雷达点云信息去做融合,解决了部分特殊场景问题后,最终就能取代激光雷达。

在2020、2021年前后, 元戎启行的CEO周光也曾向我展示过类似于体素的概念,这可以说明我们国内的科技公司对这部分技术掌握得很不错。

占有网络解决了不识别就不能作为障碍物的问题,后续我们还需要对相关算法继续做更多的优化,去减少算力的消耗,同时增加它的实时性,才能保证获取有更好的效果。

05 问答环节

A:高精地图的更新成本巨大,且更新频率低,而随着感知算法效率的提升,系统对高精地图的依赖性将逐步降低。

A:transformer本身是一个创新性、颠覆性的东西,但是transformer和BEV的结合,或者说比如深度学习和BEV的结合,这是由工程驱动的解决问题的方式所得到的创新。

A:在软件层面,刚开始大家会基于BEV整理一套架构。比如说,很多的科技公司开始去提出基于BEV去做各种传感器的训练,然后得到了一个BEV平台,之后可以在上面去适配更多不同像素的摄像头、不同角度的摄像头,不同原理的激光雷达或者是3D、4D毫米波雷达,所以大家开始基于BEV去形成一个范式。

BEV加transformer的方案最厉害的点就在于给智能感知一个新范式,大家可以基于这个范式去积累更多的数据和模型。在硬件层面,可能更多给硬件一些帮助,当软件的适配平台化能力得到提升的时候,那么硬件的改变它给软件带来的障碍就没有那么大了。

A:可以把BEV梳理为三个阶段:

用传统的只知道摄像头的内参几何变换的方式得到的,但因为外部道路环境、车本身俯仰角的变化,使得模型很容易失效;开始去尝试引入到车的位置信息,道路信息,然后开始去用深度学习去做BEV;2021年开始,特斯拉把transformer和BEV做了结合之后,增加了多传感器,国内车厂开始跟随此方案,第三个阶段确实和大模型有非常大的关系。

A:这取决于一个点, BEV模型所生成的语义地图能不能够非常精确地重构关键的地理信息。如果能这个本身一定是需要被监管,如果它的程度不足以对国家造成安全伤害,但是却又能够帮助车辆进行城市道路下或者高速公路的NOA功能,这就是可以被保留。但是我们不太了解这个度在哪里。

现阶段重构出来的如果是个局部地图还好,但如果是把很多的车辆都放在一起,去形成一个全局地图可能会有问题。

A:基本上是基于200Tops以上算力,保证有很好的效果,BEV模型现阶段还是在比较依赖大算力的。

A:BEV里面本身已经有了transformer,已经做了很多优化了,但现在的体量模型的复杂度都还是很高的,不可能看得非常的远。

那索性在BEV超视距的范围内,增加一个原本传统的算法,用2D算法去跟踪更加远的物体,但是当它进入到了BEV体系之后,我们可以在几何上做变换,认为它是同一个物体。

A:如果是做地图的同学考虑转换专业,比如原来做定位、slam这些做定位的可能会相对容易转过去,它的底层有很多比较像的地方。当然如果原来做规划决策,那还是可以的。

至少从现在的技术趋势来看,以后可能用的也许就是一个导航地图或者ADAS地图,或者是由众包构建出来的语义地图。趋势是相对明确的,就是要轻地图重感知。

A:首先就是数据,其次是要尽快形成数据闭环,获取数据的方式要改变,能够通过众包和实际生产环境里面的量产车去得到数据。

再有就是虚拟仿真,其实是因为有些场景,比如说极端场景,比如车祸场景等等这种,是没有办法去采集的,那么也许就需要虚拟仿真。

还要有数据中心,现在模型的复杂度在提升,多帧之间的处理,数据的量也在爆发,所以可能大的车厂后续需要有自己的数据中心进行持续的数据训练和迭代,对数据要自动标注,数据标完之后自动结构化之后还要自动的长期可持续地迭代和训练,才能使得基于数据驱动的这些算法越来越好。

A:在学术层面来说,非常显性的趋势是,一个创新性、颠覆性的技术可能不是中国人提出来的,但是我们有能力很快就follow它,把它变得更好。

但是在工程化层面,我们应该把特斯拉和其他的海外的的OEM分开,那么然后再把咱们中国的OEM放进来,在很多层面,特斯拉是显性领先的。

整体来说, 全球化的OEM开始去要开始反思自己为什么这么慢,然后为什么在人工智能方面持续的投入不够多等等,那么所以特斯拉是领先的,接下来可能是咱们的一些相对来说比较重投入的的OEM。

A:某种意义上,激光雷达是对我们的训练数据不足的一个补充。如果假设有无限的、准确的结构化数据,确实是不需要激光雷达,可以快速的训练出来一个模型,这个模型因为数据量很大,可以无限接近激光雷达的精度,但因为现在我们的所得到的数据量有限,我们就想又想要得到一个不错效果的车,那么激光雷达放进来,它就是一个好又快、显性度高的补充。

A:我曾跟大疆的沈劭劼讨论过这个话题。大疆之所以选择双目,是因为要去解决物体障碍物分类的问题,如果是用现在的BEV本质上无法解决这个问题,双目确实也还是很好的补充。

另外,还可以选择双目加上毫米波雷达,但如果成本有限,那么可以选择双目或者是单目加毫米波雷达,那么在传统系统设计里还倾向于异构,即一个单目加一个毫米波雷达,因为它是异构融合传感器。

A:这个问题其实是针对的是提供数据服务的提供商,然后他们怎么去更好的去服务好这些OEM。

成本会增加,难度是在变,大成本是在增加。自动标注的算法能不能够尽量多的去取代人工,比如人工只做抽样检测或者做检测,但不用再标了。也许这是一个未来的好方向,但一定需要大量的、准确的结构化信息,而且2D数据复用不了。

A:大概在两年前,判断哪一家车厂能够做得更好的时候,我当时总结说,哪一家车厂能够在短时间里面得到大量的、准确的、低成本的结构化信息,谁就会做得更好。

那么在现阶段来说,如果说针对BEV这个模型来说,我觉得重要点在于它要持续的有数据灌入且能持续的迭代。

那么在持续性这个层面,传统车厂要去克服体制的原因,这个情况就是说,我们需要有会做决定的人,他知道要持续的、不断为这个事情,为训练数据收集数据形成数据闭环,去不断的优化算法,这个事情要持续的迭代和升级。

首先,BEV作为算法的Tier1或Tier 2安身立命的东西,他们是有大概率做好的。第二个是以新技术作为卖点的的新造车。

推荐内容