2023上海车展|赵祥磊:L3比L2为用户带来的价值更大 有望未来3-5年实现

创闻用户
创闻用户 2023-07-28 14:58:28

2023年4月18日,以“拥抱汽车行业新时代”为主题的2023第二十届上海国际汽车工业展览会在沪举办。2023上海车展作为今年全球第一场A级车展备受全球汽车行业瞩目,创闻号邀请整车及汽车产业链上下游的70余位海内外企业领导者做客“汽车资讯”访谈间,以“车展快问答”的形式就当下汽车产业的发展新趋势、新特点进行深入探讨。

以下为商汤绝影智能驾驶产品总监赵祥磊的访谈实录:

创闻号:欢迎大家来到2023上海车展,今天我们有幸请到的是商汤绝影智能驾驶产品总监赵祥磊,我们先请教赵总两个专业问题,也是现在业内讨论比较多的,一个是关于成本,一个关于技术,成本角度站在您的角度,有没有感受到整车企业施加的成本压力?

赵祥磊:我们在跟车厂交流过程当中,能够感受到车厂本身有这样的压力存在,传导到我们这里的时候,并不是说一定要把我们的价格压的很低,更多是跟我们做方案的探讨,是不是在方案设计上,传感器怎么能够降低,怎么能够最小化的算力资源的应用,从方案设计角度上找到一些成本突破的办法。

创闻号:第二,技术,最近不管是整车企业还是业界其他企业讨论,自动驾驶的发展节奏,是不是跟我们之前预想的稍微慢了一点,有一些企业领导做了一些判断,未来十年L3可能没有办法落地,针对这个技术的发展节奏和未来具体关键节点的时间表,您怎么判断的?

赵祥磊:的确现在听了很多声音,L3不会太快,我同意这个观点,但是有不太一样的观点,L3也不会太慢,为什么这样讲?因为在全球范围内,我们已经看到了无论是本田、奔驰,他们有一些L3方案的落地应用了,虽然他们做了非常多的限制,普通大众不一定能感受到,但能够看到的是大家在这个方向上已经在做一些工作了。

它和L2的本质好处是什么?L3和L2最本质的差异即是否允许驾驶员的眼睛不用监测前方道路,eyes off的这些事情就是能够带来直接价值,可以解放人的时间,现在L2无论它的场景扩展到多广,本质上仍然是占据时间。因为要盯着前面的路,手要扶着方向盘,L3相对而言它给用户带来的价值更大。

我们知道L3从技术角度非常难,意味着车来负全责,出现任何情况他都能搞得定,怎么能够搞定百分之百确实非常难,一开始如果先限定在非常小的范围内,相对封闭的道路上,比如没有行人的情况下,都是车辆运行的主干道上,能不能这样的情况下把车辆的控制权,允许加权不再监管,完全靠系统自己,我认为这个是有可能在3-5年之内,非常有可能实现的,会有一些不一样的观点。

创闻号:但是在现在整个方案里面,现在大家感知上还是有一些讨论,比如说,现在激光雷达上车,责任已经形势共识了,但是成本没有低到能够支持大家更多量产的程度,这个情况下,很多毫米波雷达企业推了4D毫米波雷达,解决了成像问题,针对这两个解决方案,您觉得它俩在技术上的区隔,传导到在整车的功能开发、场景应用上,会不会有一些天然的不一样?

赵祥磊:城市场景,高速还好,道路比较结构化,在城市有非常多的车和非机动车混行的场景,这些场景下通过视觉和毫米波雷达把这些人和车的位置做非常准确的检测,这个挑战非常大,激光雷达近年上车的核心原因主要在这儿。

看一下4D毫米波雷达能不能在这样的场景发挥它应用的作用。讨论4D毫米波雷达因为它有成本优势,当然,4D毫米波雷达相对普通的毫米波也会更贵一点。但是激光雷达的成本也在往下走,我们更多是看这两条曲线到底谁下的更快,如果激光雷达它下的更快,在本身纯的传感器的信号输出的角度来说,激光雷达有天然优势的,除非4D毫米波雷达就是会比激光雷达下降的成本多,确实可能这是一个前瞻性的可行的方案。

创闻号:我们知道商汤绝影在整个视觉识别里面的优势很明显,有很强大的技术研发的能力,刚才在结合这个传感器,咱们整个智能驾驶解决方案里面,除了视觉,其他的传感器融合上是什么样的策略?

赵祥磊:视觉感知我们有一个全自研的能力,激光雷达也是有一个感知能力,我们量产车上也有部署和应用,还有我们现在大家讨论比较热的BEV,在训练BEV算法模型的过程当中,需要有一些激光雷达参考,也是需要激光雷达的感知能力,我们整体的感知能力可以支持到开发这些工作。

此外,这些感知结果出来以后需要做融合,目前行业里面大家在做基于规则的融合,设定一些场景,充分发挥每个场景的优势。我们现在也把传感器的工作用大模型来做,用模型把它做的更好。

创闻号:我们打破了原来大家说的前融合、后融合,不按照这种?

赵祥磊:我们判断技术趋势,大概率是一个模型,先把这个所有的结果全输出了,因为已经看到这样的趋势了。最开始我们做感知的时候,比如一个2D图像先把车框出来,咱们做坐标转换,转换成3D的位置。现在BEV出来之后,不会再图像里面先做检测框再出,是直接提取它的3D特征,这儿的融合还是指一个车上多个摄像机的融合,您刚才提到跟激光雷达、毫米波怎么融合,我们认为有这样的趋势,一个模型是不是把传感器数据都传进去,会把所有的结果做一个输出。

创闻号:最近咱们出了大模型的技术,大模型在自动驾驶和智能座舱里面,有哪些具备杀手锏应用的潜力出来吗?

赵祥磊:我们认为更快是在车舱,跟人的交互和推荐,之前是一问一答的形式,联系上下文的语境,甚至可以帮你解决一些商务问题,比如说生成什么样的邮件以及回复什么样的信息。因为小朋友有非常多的“为什么”,这样的场景,还有看具体场景的语境,跟家长有很多问这问那,在开车希望他不要打扰我,可以跟儿童做很好的陪伴或者游戏的互动

在自动驾驶这儿,我们认为有一个应用的点,可能时间节奏上没有车舱这么快,驾驶员能够解决的问题是能够对整个环境的认知,包括周围目标的行为,主车的行为,一连串的判断和决策的机制都可以拿出来,因为我们当前还是检测一个标志牌,一有标志牌,二标志牌上写的是一个文字,三是通过OCR识别出这个文字是30km/h,四是要做限速,这是现在的提示。

有了大模型,我们看到是多模态的,确实会对整个语境做充分的利用,这是红绿灯、这是斑马线不要开,它能想象的空间、能力上限其实是非常高的。它最终在自动驾驶应用是端到端的应用,传感器的数据,尤其是图像的数据,有可能会形成主车行驶的参考线,包括决策的行为、规划这些它都会做好。

创闻号:是不是可以理解为,它可以让我们的车型更流畅、更灵活?

赵祥磊:对。

创闻号:这仅仅是对整个功能的优化,并没有说让它再上升到更高的台阶?

赵祥磊:如果这件事情做到了,它已经具备了相近于人的大脑的判断、决策的能力,比如说我们为什么认为人很智能,现在开的过程当中,人还是要比系统开的好,至少在当前这段时间,人对于整个的,无论是对环境的理解,包括有大车,前面有一个车,那个车停了,就知道这个大车大概率会绕这个车,我的主车就会做出一些判断。但是这种能力对于当前的自动驾驶来说就很难,但是大模型会让这件事变得可能,它会让整个场景的理解、决策机制更加的完善和充分。

创闻号:在整个行驶策略和维度上上了一个新的台阶,今年大家在推城市辅助驾驶,是不是有更明显的改观,因为交通特别拥挤,对于所有路况动态的预判比高速公路上更复杂一些?

赵祥磊:是的,非常复杂,他多了路口、左转、右转,甚至是无保护的左转,甚至更复杂的环岛,或者施工,突然有人或者车蹿出来,而且多个目标之间他们本身有一个行为上的交互,我要对他们做一个综合预判,城市场景里面有高速相对出现频率比较低的,这就是需要解决的问题。

创闻号:这个领域里面,具体到我们今天上海车展,整个所有的参展商里面,有多少我们的客户,我们现在的方案的搭载率是什么情况?

赵祥磊:我们现在已经对外有公开宣布是广汽,在我们展台也会有展车,我们跟合众也有这样的合作项目在做,也有一两家的头部车厂在做合作中,还没有做官宣。

创闻号:这些是智驾还是智舱?

赵祥磊:智驾,如果智舱会更多。本届车展上还有近30款商汤绝影的合作车型亮相。2022年,绝影智能驾驶和智能车舱产品完成了27款车型的适配和量产交付,新增汽车定点数估计超过800万台,覆盖30多家车企的80多款车型。

创闻号:智驾就是L2+和L++的解决方案是吗?

赵祥磊:我们现在会分几个不同的配置,如果只到城市领域,我们现在还是需要1-3颗激光雷达,5个毫米波再加上7个前车摄像头,4个泊车预案,再加上12个超声波,这是支持到最高的,中配会把3个激光雷达去掉,低配我们现在在开发一个新的低成本方案,行车的过程当中,我不用行车的4个摄像头了,我用4个泊车的鱼眼来对它做传感器的复用,来解决最开始我们提到的成本的问题。所以总体上还是取决于,我们对于高、中、低配不同车型的需求,比如它希望把旗舰的功能配置尽可能高端的功能,可能会上最高配。

如果更多是走量的,我要去有一个性价比比较高的方案,能够让更多用户用到,我们可能会准备低配的方案。三个方案对应的算力需求也会不太一样,这样在低配的方案,因为对于算力资源需求小了,SOC和域控制器的成本也会降低。

创闻号:大家现在在聊,用多少的成本可以解决90%的场景的问题,你觉得这是一种降本的策略吗?会成为大家的主流方式吗?

赵祥磊:我觉得这是取决于我们在思考问题的时候还是站在用户角度,我们现在所说的辅助驾驶功能,究竟给用户解决了什么样的问题,现在能够听到的行业里面或者从终端消费者这儿回答的反馈是,第一,高速上大家认为高速的领航能够一定的缓解驾驶负担的,在高速上可以开。

第二,大家在说城市,认为技术角度有一些头部厂商已经做的非常不错了,形态上已经接近我们过去说的L4的车了,但是终端消费者还是较为紧张的,不确定你行还是不行。当我们讨论覆盖有90%的场景到底在什么样的场景下有这样的体验,举一个例子,有一个功能,能够单车道的居中保持,如果说前面有一个车可以做刹停,如果刚刚切入车道也能够做车道的避让,我可以一条道开到黑,给终端消费者解决收益吗?我认为还是可以的减轻他的负担,上高速就用,到城市场景里面有很多路口,有很多行人非机动车穿行,就不要用,体验没有那么好。这还是可以的。总结一下,从用户体验的角度出发。

创闻号:刚才您提到智舱,现在覆盖率更多,智舱里面我们主要是什么产品方案?

赵祥磊:驾驶员的感知和舱内的感知(DMS+OMS),这一次我们发布了6个功能,包括唇语的识别、还有哨兵模式、紧急救援、AR K歌等等,我们更多的是希望基于舱内的视觉感知做创新的应用。

创闻号:智驾领域里面大家有一个明确的路线,L1、L2、L3、L4,把人的精力解放出来的路线,但是智舱里面有很多想象空间,从咱们规划的角度,现在有一些明确的里程碑的事件,包括重点的应用,这方面有什么重点的规划和信息?

赵祥磊:我们做的最多的就是DMS和OMS,驾驶员的状态感知和乘员的状态感知。驾驶员的状态感知这儿,我们可以看到跟智能驾驶的结合越来越多,国内的在安全评分上对功能点有要求。此外,我们重点布局的语言的大模型,我们这一次车展也有一个未来车舱的展示,我们自己自研的语言大模型,希望它跟舱内做结合,我们认为这一点上,语言上的交互加上视觉上的交互,应该可以提供一些新的体验给到终端用户。

创闻号:今年我们看到有概念车推出来,基于视觉的会把前档变成整个屏幕,我们现在看到的一些已经上车的功能,在第二排上面有一个大的屏,比如说宝马的i7,基于这种视觉,不管是娱乐,还是驾驶功能,因为咱们有视觉的功能,也有语音交互的功能,这方面会有更宽泛的畅想空间吗?

赵祥磊:这块空间我们这么看的,现在它跟智驾还是平行运行的,如果有一天,包括我们刚才说的大屏给人更多还是跟行驶路面做结合,一定会有一天,比如智驾,L3在场景下能够解放驾驶员的时间,不需要你监控前方的道路,一旦时间它释放出来了,能够在舱内做的事情非常多了,这对于它来说是办公室和家义勇的第三个空间,无论是它的工作还是娱乐、休息,都在这个空间下,这个时候我们可能要去探讨在这样的场景下,这是我们的舱内感知,包括我们自己的语言模型,能够给他带来不同的空间下体验的空间,这个想象空间很大。

创闻号:我们看到这样的问题,城市辅助已经开始逐渐上升,我们知道在整个人机共驾的状态下,除了机器自己的能力边界,我们还要考虑到作为驾驶员在整车里面它知道你的能力在哪儿,但如果一旦进入到他不知道你知道,我们没有把能力完全发挥出来,这就影响了体验,驾驶和舱里面有一定的结合共同完成这个方案,这个方面我们现在看到的方案是,整个中控台下面会有行驶路面的信息,除了这个方案,还有什么其他方案吗?还是说这个方案基本就会成为以后大家形成共识的方案?

赵祥磊:这个至少能够解决一些基本问题,我不知道系统到底能不能胜任,我看到那辆车或者那个人,我显示了,就是告诉人已经看到了。

还有一种方式可以通过一些额外的语音或者说振动给到一些提示,甚至在什么样的场景下推荐你使用这样的功能,什么场景下不推荐你使用这样的功能,这也能够辅助,比如开到高速很适合,虽然你没有开,但是它觉得完全可以胜任,就可以提醒你开。比如说在城市复杂的场景,可能不太适合,但你可能不太知道你还在开,你可以告诉它整个的场景不太合适,它可能给你一个建议,这样在大的场景维度下去做一些推荐。

更进一步的还有什么?所有这些,我们默认人还是盯着路的,咱们先不说自动驾驶,我们正常买一辆车,4S店人说你要安全行驶,要看到前面的路,他没有,我就不按照安全行驶,那是你的责任。但我们可以通过舱内的感知在这方面做限制,我要确保你的双手扶着方向盘,眼球的方向是在路面上而不是看中控或者别的地方,加一些约束条件,你在我人工智能的可应用范围之内再开启这个功能。更多是一些细节的点。

创闻号:您刚才提到那个点更智能化,我们现在看到了大多数的系统,你开启了这个功能,如果功能觉得现在这个没有办法处理的时候,我会提醒你这个要人工监管,但是还没有说,提前告诉你,感觉这个路况可以让我来帮你,我们产品里面有还是在规划当中?

赵祥磊:在规划当中,刚才说的是特定的Case,已经发生了才告诉你不行,我们在想能不能做提前预判,整个大的场景很复杂,我告诉你行还是不行,有点像我们两个一起协助做一件事,一个是咱们说好11点有一个采访,10:50我给你说我来不了了,和提前一天告诉你来不了了,这个给你的感受是不一样的,是通过场景识别来做一些事情。

创闻号:这样会对系统能力要求更高吗?还是说我们在现有的系统上,只不过是加入了一个产品检测的模型?

赵祥磊:加入了产品检测的模型。

创闻号:也不会增加太多额外成本,但是会带来很好的体验?

赵祥磊:对,保证这件事的准确率,因为它一旦错了体验就会很差。我明明能用你告诉我不能用,不能用你告诉我还好,如果能用你告诉我不能用的时候,体验很差。

创闻号:这个存在着跟驾驶员沟通的风险,比如说我提醒你能用,比如说再过5分钟的时候,道路复杂,不行,这个时候需要人工监管。

赵祥磊:是的。

创闻号:我们做这个产品前期规划的时候考虑到这个风险,有没有应对的措施?

赵祥磊:当前的试驾系统的确是这样的,我们做的事情是在这个上面做了叠加,当前我们开智驾的系统,基本是这样,它在最后的时刻才会告诉你,所以提前告诉你的是对的,告诉你错的话就是晃了一下,一定不能错,这是它的难度要求可能主要在这儿。

创闻号:这个时候是不是需要更全局的交通路况的信息,是不是要依靠外部数据,因为仅仅靠车身的传感器,感觉范围有限,这个是不是需要车路协同的信息介入?

赵祥磊:还好,如果有定位信息,我知道我在什么样的道路上,基于图像信息,不会基于一帧图像做判断,会行驶一段时间再做判断,这样对于路端的需求没有那么大。

创闻号:位置的判断是说高精地图还是普通地图?

赵祥磊:普通地图就可以。

创闻号:是在城区还是高速,是区分开的?

赵祥磊:没有只是场景区分,功能上不会做区分。

创闻号:这样是说,不用高精地图就可以实现这样的功能。

赵祥磊:对。

创闻号:高精地图在方案成本里面,好多企业在考虑这样的问题,就是高精地图,地图现在的处境和未来是否存在一定的刚需,到了哪个阶段,哪个级别的自动驾驶能力才是刚需?

赵祥磊:我理解,它应该是路径最快的,把我们自动驾驶做出来最快的路径的一种方式,但现在有其他的路径,当然也可以达到相同的目标,只不过其他的路径技术难度、成本更高,我们现在发现了地图的路径存在了问题,所以大家说通过视觉技术来解决这样的问题。就要看,它肯定需要一个周期。大家在这个过程当中,地图本身这条线,能不能找到一个把成本降下来又能够提高体验度的方法,如果它在周期内都不能的话,随着视觉技术的逐步提高,最终的确会被替代掉的。

创闻号:现在从技术角度,作为一种冗余是完全可行的,成本角度我们要做一定的权衡。

赵祥磊:对。

创闻号:针对各个传感方案,都在合理的区间内,高精地图、激光雷达、毫米波雷达等等可能都会存在在整车上面,补足各个场景下各个手段的不足?

赵祥磊:可以简单这么理解,咱们一起要爬珠峰,大家都知道这件事很难,一开始的时候大家会做加法,我们带好所有的装备,怎么快怎么来,但是做到一定程度的时候,大家就会觉得特别重,现在处在第二个阶段怎么做减法,到底能够减掉什么,怎么能够轻装上阵。地图也好,激光雷达也好,低成本方案也好,整体都是符合这样的趋势。

创闻号:最后一个问题请教您,在今年的车展上,您的关注点是什么?您会去看哪些内容,给我们分享一下,可能接下来就是观众日了,大家进来也可以根据您提的建议做参考,有意识的特地的观察一下。

赵祥磊:从我角度上,我更关注的还是刚才提到的,因为大家一直在做自动驾驶方向,还是关注在这个方向上大家的方案上,在第二阶段的减法都是怎么做的。

同时,在公众场景的胜任度上,有很多复杂的场景,我看到很多展台上有很多demo,大家能够做到什么样的状态,更多是行业里面一步步的在迭代、发展、演进,最终我们怎么能够在成本、性能、技术之间找到一个好的平衡点。

创闻号:好的,感谢赵总今天的分享。