先理解环境还是先学习人类老司机 特斯拉与毫末智行的自动驾驶这样做

  在自动驾驶竞争迎来下半场后,基于软硬件驱动的感知能力已趋于成熟,而基于数据驱动的认知能力,则成为了各大自动驾驶企业角力的重点。

  与感知系统不同,认知系统在自动驾驶中扮演着承上启下的关键角色。其接收来自感知系统的结果,并将其转化为规控策略,最终以转向、制动、提速等动作为结果输出。

  对人类驾驶而言,想要学会开车并不难,但要想学会把车开好,则需要长时间的学习、锻炼、甚至试错,以此来练就一套安全、舒适、高效的驾驶风格。

  而对自动驾驶而言,想要像老练的人类司机一样驾驶,自然也需要一套更加拟人的认知系统,这同样需要自动驾驶企业为之不断付出。

  在所有自动驾驶企业中,属特斯拉的自动驾驶最为瞩目。FSD仅依靠摄像头感知,就能实现接近零接管的全场景高阶辅助驾驶,并且无需高精地图辅助。

  而在国内,被众多媒体称为“中国版特斯拉”的毫末智行,也依靠独特的“重感知”方案走到了行业前列,也就是城市NOH只需要标精地图,就能实现城市域高阶辅助驾驶。

  为此,毫末还提出,一个以大规模数据驱动为标志的自动驾驶3.0时代正在到来。

  

  作为渐进式路线的代表,特斯拉与毫末以数据驱动为方向,为行业发展提供了方向。其中如何借助认知能力,将感知优势转化为更拟人的规控策略,则成为自动驾驶技术突破的关键。

  在不久前两家先后发布的AI DAY上,特斯拉与毫末向我们展示了他们对认知系统的理解,而他们的解决方案,也展现出了许多“求同存异”的特点。

  特斯拉:以强算法、大算力能力,实时输出规控策略

  早在2021 TESLA AI DAY上,特斯拉就介绍了其规控策略:基于感知结果,首先推导可行的轨迹空间,然后快速筛选并生成最优的行驶路径。

  但现实环境是复杂多变的,这又要求规划系统能够实时给到规控策略,否则将因为计算延迟带来安全隐患。

  基于数据驱动逻辑,特斯拉提出使用大数据与大模型,使用标注过的真实及仿真数据对Transformer大模型进行预训练,由此得到的算法模型能够更高效输出规控策略。

  此外,特斯拉也通过推出与算法高度拟合的自研算力平台,保证大数据与大模型能够高效运转,降低因算力、拟合能力不足导致的延迟。

  

  这套规控逻辑,在2022 TESLA AI DAY上,被特斯拉以无保护左转的场景进行了展示:此时的特斯拉正在左转,其左侧有过马路的行人,而右侧有正在直行的车辆。

  无保护左转是行业公认的认知难题。对此,特斯拉首先通过感知结果,预测行人、车辆等物体的轨迹,然后再结合自己的轨迹,规划最佳通行方式。

  这一过程既要保证行人与车辆的安全,又要保证自己能够高效的通过,并且最重要的是,规控策略要足够拟人,保证车内乘客的舒适感,非常考验认知能力。

  但行人与车辆是能被感知到的,在被建筑物、其它车辆遮挡的死角,可能还存在着其它无法被感知到的物体,如果不做以应对,它们将对自动驾驶带来极大的干扰。

  最典型的场景莫过于“鬼探头”。由于行人被路边障碍物遮挡,哪怕是经验丰富的老司机,也难免出现反应不及时的情况,导致事故发生。

  为应对这些感知死角,特斯拉引入了假象动态物体。首先,特斯拉会假设这些死角里存在动态物体,并会与自己发生冲突,然后再基于这一点规划更安全的行驶轨迹。

  

  这一方面进一步提升了特斯拉的认知能力,另一方面又对感知系统带来了一定压力,因为现有的BEV网络对物体的检测还很粗糙,并且还停留在2D阶段。

  于是特斯拉又引入了Occupancy网络,不仅能为感知系统建立更加稠密的3D点云信息,还能将所有感知到的物体进行标注,将其重建为一个完全计算机语义的世界。

  此外,特斯拉还对车道线识别进行了3D化升级,由此获得了能够识别车道起伏的能力,搭配SD标精地图提供的简单车道线信息,认知系统就能以此为基础,规划出更安全、更高效、更舒适的路线。

  值得一提的是,为了降低因车道线磨损、重叠、中断带来的感知信息缺失,特斯拉还引入了NLP领域的Vector Lane模型,这可以让认知系统基于现有的感知信息建立车道线的拓扑关系。

  

  可以看出,特斯拉理想中的认知系统,是拥有实时且精准的规控能力的,这非常类似于人类驾驶时的思维逻辑;而为了将这一能力实现,特斯拉也将其算法和大模型算力及工程实现能力发挥到了极致,这种成功对很多自动驾驶企业来说,是很难复制的。

  毫末智行:引入大规模认知场景库,模拟人类老司机

  在建立认知能力方面,毫末智行有很多方面都与特斯拉相似,例如二者都基于数据驱动逻辑,认为在保证安全的底线上,自动驾驶应从数据中学到更舒适、高效的量化标准。

  此外,二者也都使用了大数据+大模型的组合,通过引入Transformer大模型,并自研自动驾驶计算平台、成立超算中心,掌握高效率标注、训练海量数据的能力。

  但不同之处在于,特斯拉倾向以更稠密的感知信息去获取所有参与者的数据信息,以此作为参考给出规控策略;毫末则更希望能让自动驾驶深度理解参与者的意图。

  举一个类似于“鬼探头”的例子,当车辆前方的盲区里突然冒出来一个足球时,驾驶者往往都会立刻减速,原因并不是害怕足球,而是足球后面,往往跟着一个小孩。

  同样的,当前方处在左转车道的车辆突然开始右转时,他也有可能并不是真的要右转,而是想要左转掉头,因为车辆的转弯半径和道路宽度并不支持他在左转车道“一把过”。

  如果仅依靠感知信息分析,以上这些交通参与者的行为轨迹都是无法预测的——即使违反交通法规的确实是他们,但作为自动驾驶,我们依旧要为自己的安全负责。

  

  对此,毫末智行开始着手为自动驾驶赋予能够理解人类的能力,而具体的实现方式,就是在掌握端到端模拟学习的基础上,引入NLP领域中的Prompt模型。

  首先,毫末能够对真实车主的驾驶数据进行标注,通过筛选优质数据不断训练认知模型,使其输出的规控策略能够更加拟人化。

  在此基础上,借助对Prompt模型的语义分析能力,毫末能够对人类驾驶数据进行分析,去进一步理解驾驶者当时决定转向、制动、加速等动作的原因。

  而基于这一点,毫末就能在掌握驾驶者驾驶习惯的同时,模拟其思维逻辑,在后者开启自动驾驶后,输出更符合其驾驶风格的规控策略。

  这一能力为认知系统带来的提升不仅是根本性的,由于基于Prompt模型的输出是可以解释的,这相当于额外削弱了自动驾驶的“黑盒”属性。

  在Prompt模型的帮助下,毫末得以将大数据转化为输出更安全、舒适、高效的规控策略能力,但随着数据库的膨胀,有价值的新数据又很容易被其稀释,导致迭代停滞。

  

  这又驱使毫末开始建立增量式学习训练平台。在训练过程中,毫末会只抽取部分存量数据,加上新数据组合混合数据集,并要求输出保持尽量一致,对新数据的拟合尽量好。

  另外,为了提升认知能力,毫末也和特斯拉一样,同步提升感知能力。具体来看,毫末会首先借助对激光雷达点云的成熟运用,进一步提升稠密度,模拟Occupancy网络的效果。

  此外,毫末也在尝试让感知系统拟人化,具体在如何理解诸如前车的转向、刹车、倒车灯等交互信息,因为这些都是人类驾驶时输出规控策略的主要参考信息,而在此之前,自动驾驶只能基于其它交通参与者的速度、状态进行判断,这并不拟人。

  

  类似感知系统的数据库,毫末也将为认知系统打造一套认知场景库,其中首当其冲的就是加入对车辆信号灯状态的理解。如此认知系统就可以在处理诸如前车减速、周围车辆切入等场景中,带来更安全、舒适的规控策略。

  可以看出,毫末智行理想中的认知系统,是具备理解并模拟人类思维逻辑能力的,因为“驾驶”这一概念终究是建立在人类认知基础上的,而借助NLP、多模态融合感知、Transformer等成熟运用,不失为在提升认知能力前提下实现“降本增效”的最优解。

  “求同存异”,自动驾驶认知路线的行业范式

  通过对自身自动驾驶技术能力的高度整合,特斯拉与毫末分别为化解自动驾驶认知难题,提出了自己的认知解决方案。

  特斯拉在认知领域的优势是极为巨大的,这不仅表现为对Occupancy网络、假象动态物体、NLP的运用,为了实现近乎实时的规控输出能力,还不惜自研算力平台,并保证与软件的高度拟合,其中需要实现的数据积累和算法能力壁垒自然是奇高的。

  作为后来者,毫末智行虽与特斯拉存在一定差距,但数据驱动的路线是与特斯拉一脉相通的;另外,毫末也借助对大数据、大模型、多模态融合感知、自然语义识别等成熟技术的运用,建立了一套能够不断优化升级的认知智能系统。

  此外,二者也都不约而同的将NLP带入到了认知系统中,即使用法并不相同,但这一就能够为自动驾驶技术的后续发展提供参考。而作为当下自动驾驶领域的头部企业,特斯拉与毫末在认知领域的探索,可以成为自动驾驶行业的技术新范式。

  举报/反馈