激光雷達(dá)的春天何時(shí)到來(lái)取決于點(diǎn)云數(shù)據(jù)應(yīng)用算法的效率和性能,而非激光雷達(dá)本身。對(duì)于點(diǎn)云這種稀疏特征數(shù)據(jù),人類(lèi)目前還未找到合適的應(yīng)用算法,而攝像頭這種稠密矩陣數(shù)據(jù),人類(lèi)已找到了很多高效高性能的應(yīng)用算法。這正是激光雷達(dá)尷尬之處,沒(méi)有合適的算法發(fā)揮不出激光雷達(dá)的優(yōu)勢(shì)。
目前的算法都是針對(duì)或?qū)σ曈X(jué)系統(tǒng)優(yōu)化的算法,而開(kāi)發(fā)合適的算法需要大量的人員投入,這不是激光雷達(dá)廠家所能完成的,而在計(jì)算機(jī)視覺(jué)領(lǐng)域,有幾百萬(wàn)乃至上千萬(wàn)研發(fā)人員,每天都有大量的研究論文發(fā)表。此外,激光雷達(dá)目前的應(yīng)用都集中在點(diǎn)云上,而針對(duì)激光雷達(dá)強(qiáng)度數(shù)據(jù)應(yīng)用的研究幾乎為零,激光雷達(dá)最獨(dú)特的領(lǐng)域無(wú)人問(wèn)津,這是純視覺(jué)聲勢(shì)越來(lái)越強(qiáng)大的主要原因。
激光雷達(dá)行業(yè)正處于寒冬中。在激光雷達(dá)企業(yè)中,無(wú)論是出貨量還是收入均穩(wěn)居第一名的激光雷達(dá)廠家是禾賽科技,2023年2季度禾賽ADAS激光雷達(dá)出貨量達(dá)45694個(gè),自動(dòng)駕駛激光雷達(dá)出貨量為6412個(gè)。

圖片來(lái)源:禾賽財(cái)報(bào)
2023年2季度禾賽收入翻番,出貨量也大幅增加,然而毛利率卻大跌。

圖片來(lái)源:禾賽財(cái)報(bào)
雖然虧損幅度有所收窄,但2023年2季度的毛利率只有29.8%,較去年同期大幅下滑,并且去年同期正值疫情嚴(yán)重時(shí)期,禾賽的生產(chǎn)基地位于封城中的上海。實(shí)際自2020年禾賽的毛利率就呈下滑趨勢(shì),2020年的毛利率為57.5%,2021年為53.0%,2022年是39.2%,估計(jì)2023年大概率低于30%。依靠理想這個(gè)大客戶,禾賽穩(wěn)居激光雷達(dá)第一名,但我們不難算出,針對(duì)ADAS的激光雷達(dá)也就是理想車(chē)上用的激光雷達(dá)毛利率很低。隨著自動(dòng)駕駛熱潮逐漸褪去,高毛利率的自動(dòng)駕駛激光雷達(dá)出貨量必然持續(xù)降低。
相對(duì)而言,禾賽還是表現(xiàn)最好的激光雷達(dá)公司,至少毛利率是正的。之前的激光雷達(dá)明星公司Luminar的毛利率一直是負(fù)數(shù),2023年2季度Luminar收入為1620萬(wàn)美元,毛虧損1830萬(wàn)美元。股市上激光雷達(dá)公司都表現(xiàn)很差,Luminar自2021年2月達(dá)到37.73美元的高點(diǎn)后一路下滑,2023年10月6號(hào)收盤(pán)僅有4.30美元,蒸發(fā)了約90%。對(duì)比來(lái)看,禾賽的跌幅就小多了,2023年2月上市,2月17日達(dá)到最高的22.10美元,10月6號(hào)收盤(pán)是9.62美元,跌幅56.67%。其他激光雷達(dá)公司差不多都是上市即最高點(diǎn),一路跌勢(shì),跌幅普遍都在90%以上,跌幅95%以上的也比比皆是。
以禾賽的出貨量而言,激光雷達(dá)的出貨量已經(jīng)不能算低了,但未見(jiàn)到規(guī)模效應(yīng)帶來(lái)的成本下降。
激光雷達(dá)最大的敵人就是特斯拉。隨著Waymo之流的聲音漸漸消失,特斯拉已是公認(rèn)的自動(dòng)駕駛翹楚,至少在普通消費(fèi)者心中是這樣,并且Waymo等也確實(shí)不爭(zhēng)氣,而特斯拉軟硬一體,不僅有FSD芯片,連訓(xùn)練用芯片Dojo
D1也頗有聲勢(shì),特斯拉已引領(lǐng)潮流,且遙遙領(lǐng)先,同時(shí)特斯拉是堅(jiān)持純視覺(jué)的,一直未用激光雷達(dá),且相當(dāng)鄙視激光雷達(dá)。
理論上激光雷達(dá)有各種優(yōu)勢(shì),但實(shí)際表現(xiàn)是特斯拉的純視覺(jué)不比用激光雷達(dá)的差。這就是牽涉到傳感器融合的問(wèn)題和點(diǎn)云算法的問(wèn)題。
根據(jù)奧卡姆剃刀原則,如無(wú)必要,勿增實(shí)體。也就是簡(jiǎn)潔至上(Simple Is Best),能簡(jiǎn)單就不要復(fù)雜,大道至簡(jiǎn),效率至上,自然界中的進(jìn)化方向就是如此,越簡(jiǎn)單一般效率就越高。傳感器融合就違背這個(gè)原則,傳感器融合一直是難點(diǎn),在nuScenes和Waymo 3D目標(biāo)檢測(cè)數(shù)據(jù)集上,LiDAR-only 方法要比傳感器融合多模態(tài)的方法效果好得多。
目前,激光雷達(dá)與攝像頭融合可以分為三大類(lèi):結(jié)果級(jí)、提案級(jí)和點(diǎn)級(jí)。
結(jié)果級(jí)result-level:FPointNet,RoarNet等。粗粒度融合,結(jié)果是漏檢的可能性更高,反而不如不融合。
提案或特征級(jí)proposal-level:MV3D,AVOD等。由于感興趣區(qū)域通常含有大量的背景噪聲,效果也不佳。
點(diǎn)級(jí)point-level :分割分?jǐn)?shù):PointPainting,F(xiàn)usionPainting,CNN特征:EPNet,MVXNet,PointAugmenting等。
目前,學(xué)術(shù)界主要研究點(diǎn)級(jí),效果比前兩種要好,但要增加不少硬件成本(如FPGA)和計(jì)算成本;產(chǎn)業(yè)界則集中在前兩個(gè)領(lǐng)域內(nèi)研究,因?yàn)榛静辉黾佑布杀尽?/p>
激光雷達(dá)和攝像頭是兩種實(shí)際差異很大的傳感器,點(diǎn)級(jí)融合方法仍存在多個(gè)主要問(wèn)題:
首先,它們通過(guò)元素級(jí)聯(lián)或相加將激光雷達(dá)特征與圖像特征融合,在圖像特征質(zhì)量較低的情況下,性能?chē)?yán)重下降。
其次,尋找稀疏的LiDAR點(diǎn)與密集的圖像像素之間的硬關(guān)聯(lián),不僅浪費(fèi)了大量具有豐富語(yǔ)義信息的圖像特征,而且嚴(yán)重依賴(lài)于兩個(gè)傳感器之間的高質(zhì)量校準(zhǔn),而由于固有的時(shí)空偏差,這種高質(zhì)量校準(zhǔn)永遠(yuǎn)無(wú)法實(shí)現(xiàn)。例如FOV,大部分主攝像頭的FOV是80-100度,而激光雷達(dá)一般是120-140度。激光雷達(dá)的幀率一般是10Hz,攝像頭是25-30Hz,激光雷達(dá)的角分辨率和幀率是反比關(guān)系,幀率越低,角分辨率就越高。兩者的中心點(diǎn)必然有明顯水平或垂直距離,攝像頭可以看成一個(gè)圓球形接收光線的傳感器,激光雷達(dá)是一個(gè)矩形掃描發(fā)射與接收光線的傳感器。高精度,完全統(tǒng)一到一個(gè)坐標(biāo)系下是不可能的。
再次,點(diǎn)云信息的結(jié)構(gòu)性不強(qiáng),如反射率不同的物體,得到的激光反射點(diǎn)差別較大,極端的例子如金屬鏡子與黑色車(chē)輛,同樣的距離,點(diǎn)云數(shù)可能相差十倍以上。
最后,激光雷達(dá)的點(diǎn)云信息是典型的稀疏矩陣,而攝像頭是典型的稠密矩陣。人類(lèi)對(duì)于稠密矩陣的加速計(jì)算已經(jīng)非常成熟,但對(duì)于稀疏矩陣,目前還是處于摸索狀態(tài)。
目前,產(chǎn)業(yè)界還是使用非常古老的pointpillars算法(基于平視Boundingbox),自從特斯拉引入語(yǔ)義分割和occupancy network,這個(gè)算法顯然已落后不少。加上激光雷達(dá)的效果還不如純視覺(jué)效果好。
目前的研究方向是在BEV框架下的激光雷達(dá)與攝像頭融合,并導(dǎo)入transformer。其中有三篇論文值得一提,即:
北京大學(xué)王勇濤課題組與阿里巴巴達(dá)摩院自動(dòng)駕駛實(shí)驗(yàn)室合作完成的《BEVFusion: A Simple and Robust LiDAR-Camera Fusion Framework》
華為智能駕駛IAS與香港科技大學(xué)的《TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers》
MIT韓松團(tuán)隊(duì)與上海交大的論文《BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation》
需要指出,由于深度神經(jīng)網(wǎng)絡(luò)的不可解釋性,這些研究都是基于nuScenes和Waymo 3D目標(biāo)檢測(cè)數(shù)據(jù)集的,換一個(gè)中國(guó)路況的數(shù)據(jù)集可能會(huì)得出完全相反的結(jié)果,而這種現(xiàn)象無(wú)法解釋。只能說(shuō)基于這兩個(gè)數(shù)據(jù)集,這兩種方法效果較好。
TransFusion的整體管線

圖片來(lái)源:《TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers》
TransFusion使用LiDAR-camera融合與軟關(guān)聯(lián)機(jī)制,以處理低劣的圖像條件。具體來(lái)說(shuō),TransFusion由卷積骨干(為什么不用更好的transformer做骨干?因?yàn)橛?jì)算成本會(huì)至少增加幾十倍乃至百倍,汽車(chē)領(lǐng)域是不可能用transformer做骨干的,至少5年內(nèi)如此)和基于Transformers解碼器的檢測(cè)頭組成。
解碼器的第一層使用稀疏的object queries集預(yù)測(cè)來(lái)自LiDAR點(diǎn)云的初始邊界框,其第二層解碼器自適應(yīng)地將object queries與有用的圖像特征融合,充分利用空間和上下文關(guān)系。Transformers的注意力機(jī)制使模型能夠自適應(yīng)決定從圖像中獲取什么信息和從什么位置獲取信息,從而形成一個(gè)魯棒和有效的融合策略。
此外,論文還設(shè)計(jì)了一種圖像引導(dǎo)的query初始化策略來(lái)處理點(diǎn)云中難以檢測(cè)的對(duì)象。
具體過(guò)程:
(1)3D點(diǎn)云輸入3D backbones獲得BEV特征圖。
(2)初始化Object query按照Transformer架構(gòu)輸出初始的邊界框預(yù)測(cè)。
(3)上一步中的3D邊界框預(yù)測(cè)投影到2D圖像上,并將FFN之前的特征作為新的query features通過(guò)SMCA選擇2D特征進(jìn)行融合。
(4)輸出最終的BBOX。
(5)為利用高分辨率的圖像,提高對(duì)小物體檢測(cè)的魯棒性,增加了圖像引導(dǎo)的Object query初始化。對(duì)步驟(2)進(jìn)行增強(qiáng)。
來(lái)看BEVFusion,學(xué)術(shù)圈內(nèi)影響力比較大的還是MIT的那篇BEVFusion,阿里和北大的BEVFusion影響比較小,或許也是阿里達(dá)摩院裁撤自動(dòng)駕駛研究團(tuán)隊(duì)的原因之一。

圖片來(lái)源:《BEVFusion: A Simple andRobust LiDAR-Camera Fusion Framework》
阿里與北大的BEVFusion有點(diǎn)近似提案級(jí)的融合,其最獨(dú)特之處是考慮了激光雷達(dá)失效的狀況。激光雷達(dá)的反射率取決于物體表面光滑程度、物體密度和物體顏色,在某些情況下,如黑色車(chē)輛或物體,其表面不夠平滑,激光雷達(dá)第一次直接反射點(diǎn)稀少,激光雷達(dá)可能出現(xiàn)漏檢,這樣融合就失去意義了。BEVFusion作者認(rèn)為L(zhǎng)iDAR-相機(jī)融合的理想框架應(yīng)該是:無(wú)論其他模態(tài)是否存在,單一模態(tài)的感知不應(yīng)該失效,但同時(shí)擁有兩種模態(tài)能夠進(jìn)一步提高感知準(zhǔn)確性。為此,作者提出了一個(gè)簡(jiǎn)單而有效的框架BEVFusion,它解決了當(dāng)前方法的LiDAR-相機(jī)融合的依賴(lài)性。

圖片來(lái)源:《BEVFusion: A Simple and Robust LiDAR-Camera Fusion Framework》
該框架有兩個(gè)獨(dú)立的流,它們將來(lái)自相機(jī)和LiDAR傳感器的原始輸入編碼至同一BEV空間內(nèi)的特征。在這兩個(gè)流之后,作者設(shè)計(jì)了一個(gè)簡(jiǎn)單模塊來(lái)融合這些BEV特征,以便最終的特征可以傳遞到下游任務(wù)架構(gòu)中。由于BEVFusion是一種通用框架,當(dāng)前用于相機(jī)和LiDAR的單模態(tài)BEV特征提取模型都可以合并到該框架中。
BEVFusion采用Lift-Splat-Shoot作為相機(jī)流,它將多視圖圖像特征投影到3D車(chē)身坐標(biāo)特征以生成相機(jī)BEV特征。對(duì)于LiDAR流,BEVFusion選擇了三個(gè)流行的模型,兩個(gè)基于超體素(voxel)的模型和一個(gè)基于柱子(pillar)的模型,將LiDAR特征編碼到BEV空間中。
這種融合還是后融合,雖然考慮到了激光雷達(dá)失效,但激光雷達(dá)的噪音虛像鬼影則沒(méi)有提及,點(diǎn)級(jí)融合還是目前學(xué)術(shù)圈的主流。早期點(diǎn)級(jí)融合,一種是將camera數(shù)據(jù)投影到點(diǎn)云上,然后用點(diǎn)云檢測(cè)算法進(jìn)行檢測(cè),如PointNet,SparseConvNet;這種方法丟失了圖像的語(yǔ)義信息;另一種是將點(diǎn)云投影到圖像上,用圖像檢測(cè)算法進(jìn)行檢測(cè),但是這種方法丟失幾何信息,比如現(xiàn)實(shí)世界比較遠(yuǎn)的物體,投影到圖片上卻比較近。

圖片來(lái)源:《BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation》
BEVFusion將兩者統(tǒng)一到BEV下,既不損失幾何信息也不損失語(yǔ)義信息。

圖片來(lái)源:《BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation》
Fusion是由Image和PointCloud 兩個(gè)支路在中間合并而成。合并看起來(lái)像是直接疊起來(lái)簡(jiǎn)單融合。而后的BEV Encoder對(duì)CAT后的特征進(jìn)行編碼、特征融合。最后是一個(gè)多任務(wù)的檢測(cè)頭。
Image支路。很明顯這條支路借鑒了LSS(英偉達(dá)在2020年8月發(fā)表的一篇有關(guān)BEV的論文,提出Lift,Splat, Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting to 3D,簡(jiǎn)寫(xiě)為L(zhǎng)SS)的視錐變換view Transform,進(jìn)一步卷積轉(zhuǎn)變?yōu)锽EV下的特征。論文中認(rèn)為每個(gè)相機(jī)的特征像素都投回一個(gè)3D空間下的射線,從而在BEV下保留了大量的語(yǔ)義信息。
PointCloud支路。該路徑下似乎是直接通過(guò)z軸方向的壓縮,把3維點(diǎn)云特征變換為BEV下點(diǎn)云特征。論文中說(shuō)這樣避免了幾何信息失真,不過(guò)這點(diǎn)非常值得懷疑。
合并。合并后通過(guò)BEV Encoder實(shí)現(xiàn)特征編碼(融合)。通常編碼器可以是ResNet(BEVdet)、EfficientNet或者利用Tranformer結(jié)構(gòu)也未嘗不可。
nuScenes 3D目標(biāo)檢測(cè)數(shù)據(jù)集上的成績(jī)對(duì)比

上表中,C指攝像頭,L指激光雷達(dá),R指毫米波雷達(dá),這里的BEVFusion是MIT的,TransFusion就是華為的。目前業(yè)內(nèi)常用的是PointPillars,延遲最小,消耗算力最低,硬件成本最低,性能比純視覺(jué)要好不少。華為的TransFusion與MIT的BEVFusion相差甚微,可以說(shuō)是旗鼓相當(dāng),但華為消耗的算力幾乎是MIT的兩倍。
還有一點(diǎn)要指出,這里的算力消耗是浮點(diǎn)運(yùn)算算力的消耗。汽車(chē)產(chǎn)業(yè)目前都是用的INT8即8位整數(shù)算力,很多汽車(chē)產(chǎn)業(yè)AI硬件是無(wú)法應(yīng)對(duì)浮點(diǎn)運(yùn)算或浮點(diǎn)運(yùn)算效率下降近百倍,如英偉達(dá)的頂配Orin,其號(hào)稱(chēng)254TOPS的算力是INT8格式下的算力,其中170TOPS是純粹的張量核,是針對(duì)INT8的,其GPU部分才能對(duì)應(yīng)浮點(diǎn)運(yùn)算,算力大約5.3TOPS@FP32。
最后說(shuō)一下激光雷達(dá)的稀疏矩陣,即便是128線激光雷達(dá),其點(diǎn)云數(shù)據(jù)也是稀疏的。在AI時(shí)代就是稀疏矩陣,即矩陣中含有大量的0,工業(yè)界針對(duì)稠密張量的硬件設(shè)計(jì)已接近成熟,一些具有代表性的DSA已經(jīng)達(dá)到較高的運(yùn)算效率,如tensor core,systolic array。而稀疏張量的帶寬和算力要求與稠密張量不同,零元素與任意元素相乘的結(jié)果總是零,零元素出現(xiàn)的乘法項(xiàng)對(duì)多項(xiàng)式的結(jié)果沒(méi)有貢獻(xiàn),因此,以矩陣或向量乘法為核心的稀疏張量算子中,存在大量的冗余存儲(chǔ)和無(wú)效計(jì)算。稀疏矩陣有著自己獨(dú)特的坐標(biāo)系表示,負(fù)載差異較大,導(dǎo)致硬件加速設(shè)計(jì)難度較大或者效果欠佳。需要指出谷歌TPU V4所謂的稀疏核不是針對(duì)稀疏矩陣的,它是針對(duì)Transformer嵌入層的稀疏計(jì)算的。
盡管純激光雷達(dá)模式明顯比純視覺(jué)在3D目標(biāo)檢測(cè)上要更好,但不要攝像頭的智能車(chē)顯然不可能存在,必須走融合模式,融合必然帶來(lái)計(jì)算成本和硬件成本的增加。融合模式必須證明自己較純視覺(jué)模式更有價(jià)值,更具性價(jià)比,激光雷達(dá)才能迎來(lái)春天。然而,深度神經(jīng)網(wǎng)絡(luò)的不可解釋性以及高度依賴(lài)數(shù)據(jù)集的特性讓算法與算法之間真正的對(duì)比是無(wú)法實(shí)現(xiàn)的,勝出的關(guān)鍵就在于消費(fèi)者的主觀感受,顯然特斯拉的純視覺(jué)更受推崇。
免責(zé)說(shuō)明:本文觀點(diǎn)和數(shù)據(jù)僅供參考,和實(shí)際情況可能存在偏差。本文不構(gòu)成投資建議,文中所有觀點(diǎn)、數(shù)據(jù)僅代表筆者立場(chǎng),不具有任何指導(dǎo)、投資和決策意見(jiàn)。
18030183032