汽車(chē)革命的上半場(chǎng)是電動(dòng)化,下半場(chǎng)是智能化,電動(dòng)化只是改變了汽車(chē)的動(dòng)力供給方式,并沒(méi)有改變汽車(chē)的性質(zhì),而智能化才是這場(chǎng)革命的主菜,將對(duì)汽車(chē)帶來(lái)顛覆性變化,汽車(chē)將由傳統(tǒng)的機(jī)械體,變?yōu)閾碛袕?qiáng)大計(jì)算能力的智能體。
在汽車(chē)智能化的道路上,有一個(gè)擁有絕對(duì)實(shí)力的引領(lǐng)者,那就是Elon Musk領(lǐng)導(dǎo)下的特斯拉,其打造的自動(dòng)駕駛體系是全球關(guān)注的焦點(diǎn),馬斯克曾在微博上發(fā)文稱特斯拉打造的人工智能是世界上最為先進(jìn)的。
特斯拉是截止目前全球唯一一家實(shí)現(xiàn)了自動(dòng)駕駛核心領(lǐng)域全棧自研自產(chǎn)的科技公司,在數(shù)據(jù)、算法、算力等各個(gè)層面打造了一套包含感知、規(guī)控、執(zhí)行在內(nèi)的全鏈路自動(dòng)駕駛軟硬件架構(gòu)。
整體而言,特斯拉的自動(dòng)駕駛架構(gòu)是采用純視覺(jué)方案實(shí)現(xiàn)對(duì)世界的感知,并基于原始視頻數(shù)據(jù)通過(guò)神經(jīng)網(wǎng)絡(luò)構(gòu)建出真實(shí)世界的三維向量空間,在向量空間中通過(guò)傳統(tǒng)規(guī)控方法與神經(jīng)網(wǎng)絡(luò)相結(jié)合的混合規(guī)劃系統(tǒng)實(shí)現(xiàn)汽車(chē)的行為與路徑規(guī)劃,生成控制信號(hào)傳遞給執(zhí)行機(jī)構(gòu),同時(shí)通過(guò)完善的數(shù)據(jù)閉環(huán)體系和仿真平臺(tái)實(shí)現(xiàn)自動(dòng)駕駛能力的持續(xù)迭代。
下面將分別按照感知、規(guī)劃與控制、數(shù)據(jù)與仿真、算力四個(gè)部分對(duì)特斯拉實(shí)現(xiàn)FSD(Full Self-Drive,完全自動(dòng)駕駛)的核心體系進(jìn)行全面解析。
01 感知
根據(jù)2021年8月Tesla AI Day上的展示,特斯拉最新的感知方案采用純視覺(jué)感知方案,完全摒棄掉激光雷達(dá)、毫米波雷達(dá)等非攝像頭傳感器,僅采用攝像頭進(jìn)行感知,在自動(dòng)駕駛領(lǐng)域獨(dú)樹(shù)一幟。
人類(lèi)通過(guò)眼睛感知世界的原理為:光線通過(guò)眼睛被視網(wǎng)膜采集信息,經(jīng)過(guò)傳遞與預(yù)處理,信息抵達(dá)大腦視覺(jué)皮層,神經(jīng)元從視網(wǎng)膜傳遞的信息中提取出顏色、方向、邊緣等特征結(jié)構(gòu),再傳遞給下顳葉皮層,然后經(jīng)過(guò)認(rèn)知神經(jīng)網(wǎng)絡(luò)的復(fù)雜處理最終輸出感知結(jié)果。

人類(lèi)視覺(jué)感知原理
自動(dòng)駕駛視覺(jué)感知方案是效仿人類(lèi)視覺(jué)系統(tǒng)原理,攝像頭便是“汽車(chē)之眼”,特斯拉汽車(chē)共計(jì)采用八個(gè)攝像頭分布在車(chē)體四周,車(chē)身前部有三個(gè)攝像頭,分別為前視主視野攝像頭、前視寬視野攝像頭(魚(yú)眼鏡頭)以及前視窄視野攝像頭(長(zhǎng)聚焦鏡頭),左右兩側(cè)各有兩個(gè)攝像頭,分別為側(cè)方前視攝像頭和側(cè)方后視攝像頭,車(chē)身后部有一個(gè)后視攝像頭,整體實(shí)現(xiàn)360度全局環(huán)視視野,最大監(jiān)測(cè)距離可以達(dá)到250米。

特斯拉車(chē)身攝像頭環(huán)視視野
通過(guò)“汽車(chē)之眼”采集到的真實(shí)世界圖像數(shù)據(jù),經(jīng)過(guò)復(fù)雜的感知神經(jīng)網(wǎng)絡(luò)架構(gòu)進(jìn)行處理,構(gòu)建真實(shí)世界的三維向量空間,其中包含汽車(chē)、行人等動(dòng)態(tài)交通參與物,道路線、交通標(biāo)識(shí)、紅綠燈、建筑物等靜態(tài)環(huán)境物,以及各元素的坐標(biāo)位置、方向角、距離、速度、加速度等屬性參數(shù),這個(gè)向量空間不需要和真實(shí)世界的模樣完全保持一致,更傾向于是供機(jī)器理解的數(shù)學(xué)表達(dá)。

利用攝像頭采集數(shù)據(jù)通過(guò)神經(jīng)網(wǎng)絡(luò)輸出三維向量空間
根據(jù)特斯拉在AI DAY的公開(kāi)信息,經(jīng)過(guò)多輪升級(jí)迭代,特斯拉目前所采用的視覺(jué)感知框架如下圖所示,這是一套基于視頻流數(shù)據(jù)的共享特征多任務(wù)型神經(jīng)網(wǎng)絡(luò)架構(gòu),擁有物體深度識(shí)別能力和短時(shí)記憶能力。

特斯拉視覺(jué)感知網(wǎng)絡(luò)架構(gòu)
網(wǎng)絡(luò)基礎(chǔ)結(jié)構(gòu):HydraNet多頭網(wǎng)絡(luò)
特斯拉視覺(jué)感知網(wǎng)絡(luò)的基礎(chǔ)結(jié)構(gòu)是由主干(Backbone)、頸部(Neck)與多個(gè)分支頭部(Head)共同組成,特斯拉取名為“HydraNet”,取意自古希臘神話中的九頭蛇。
主干層將原始視頻數(shù)據(jù)通過(guò)殘差神經(jīng)網(wǎng)絡(luò)(RegNet)及BiFPN多尺度特征融合結(jié)構(gòu)完成端到端訓(xùn)練,提取出頸部層的多尺度視覺(jué)特征空間(feature map),最后在頭部層根據(jù)不同任務(wù)類(lèi)型完成子網(wǎng)絡(luò)訓(xùn)練并輸出感知結(jié)果,共計(jì)支持包括物體檢測(cè)、交通信號(hào)燈識(shí)別、車(chē)道線識(shí)別在內(nèi)的1000多個(gè)任務(wù)。

HydraNet多任務(wù)網(wǎng)絡(luò)結(jié)構(gòu)
HydraNet網(wǎng)絡(luò)的核心特點(diǎn)是多個(gè)子任務(wù)分支共享同一個(gè)特征空間,相比單一任務(wù)使用獨(dú)立的神經(jīng)網(wǎng)絡(luò),具有如下優(yōu)勢(shì):
1)使用同一主干統(tǒng)一提取特征并共享給各任務(wù)頭部使用,可以避免不同任務(wù)之間重復(fù)計(jì)算現(xiàn)象,有效提升網(wǎng)絡(luò)整體運(yùn)行效率;
2)不同子任務(wù)類(lèi)型之間可以實(shí)現(xiàn)解耦,每項(xiàng)任務(wù)獨(dú)立運(yùn)行不會(huì)影響到其他任務(wù),因此對(duì)單項(xiàng)任務(wù)的升級(jí)可以不必同時(shí)驗(yàn)證其他任務(wù)是否正常,升級(jí)成本更低;
3)生成的特征空間可以進(jìn)行緩存,便于各任務(wù)需求隨時(shí)調(diào)用,具有很強(qiáng)的可擴(kuò)展性。
數(shù)據(jù)校準(zhǔn)層:虛擬相機(jī)構(gòu)建標(biāo)準(zhǔn)化數(shù)據(jù)
特斯拉通過(guò)不同的汽車(chē)采集到的數(shù)據(jù)共同構(gòu)建一個(gè)通用的感知網(wǎng)絡(luò)架構(gòu),然而不同汽車(chē)由于攝像頭安裝外參的差異,可能導(dǎo)致采集的數(shù)據(jù)存在微小偏差,為此特斯拉在感知框架中加入了一層“虛擬標(biāo)準(zhǔn)相機(jī)”,引入攝像頭標(biāo)定外參將每輛車(chē)采集到的圖像數(shù)據(jù)通過(guò)去畸變、旋轉(zhuǎn)等方式處理后,統(tǒng)一映射到同一套虛擬標(biāo)準(zhǔn)攝像頭坐標(biāo)中,從而實(shí)現(xiàn)各攝像頭原始數(shù)據(jù)的“校準(zhǔn)(Rectify)”,消除外參誤差,確保數(shù)據(jù)一致性,將校準(zhǔn)后的數(shù)據(jù)喂養(yǎng)給主干神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。

在原始數(shù)據(jù)進(jìn)入神經(jīng)網(wǎng)絡(luò)前插入虛擬攝像頭層
空間理解層:Transformer實(shí)現(xiàn)三維變換
由于攝像頭采集到的數(shù)據(jù)為2D圖像級(jí),與現(xiàn)實(shí)世界的三維空間不在一個(gè)維度上,因此要實(shí)現(xiàn)完全自動(dòng)駕駛能力,需要將二維數(shù)據(jù)變換至三維空間。
為了構(gòu)建出三維向量空間,需要網(wǎng)絡(luò)能夠輸出物體深度信息,大部分自動(dòng)駕駛公司采用的方案是使用激光雷達(dá)、毫米波雷達(dá)等傳感器來(lái)獲取深度信息,并與視覺(jué)感知結(jié)果進(jìn)行融合,而特斯拉堅(jiān)持使用純視覺(jué)方案獲取的視頻數(shù)據(jù)來(lái)計(jì)算深度信息,其思路是在網(wǎng)絡(luò)結(jié)構(gòu)中引入一層BEV空間轉(zhuǎn)換層,用以構(gòu)建網(wǎng)絡(luò)的空間理解能力,BEV坐標(biāo)系即鳥(niǎo)瞰俯視圖坐標(biāo)系,是一種忽略高程信息的自車(chē)坐標(biāo)系。
早期特斯拉采取的方案是先在二維圖像空間實(shí)現(xiàn)感知,然后將其映射至三維向量空間,再將所有攝像頭的結(jié)果進(jìn)行融合,但圖像層面感知是基于地面平面假說(shuō),即把地面想象成為無(wú)限大的平面,而實(shí)際世界中的地面會(huì)有坡度,因此會(huì)導(dǎo)致深度信息預(yù)測(cè)不準(zhǔn)確,這也是基于攝像頭的純視覺(jué)方案面臨的最大困難,同時(shí)也會(huì)存在單個(gè)攝像頭無(wú)法看見(jiàn)完整目標(biāo)導(dǎo)致“后融合”難以實(shí)現(xiàn)的問(wèn)題。
為了應(yīng)對(duì)這一問(wèn)題,使感知結(jié)果更準(zhǔn)確,特斯拉采用“前融合”的思路,將車(chē)身四周的多個(gè)攝像頭獲得的不同視頻數(shù)據(jù)直接進(jìn)行融合,然后用同一套神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練實(shí)現(xiàn)特征從二維圖像空間到三維向量空間的變換。

引入BEV三維空間轉(zhuǎn)化層
實(shí)現(xiàn)三維變換的核心模塊是Transformer神經(jīng)網(wǎng)絡(luò),這是一種基于注意力機(jī)制的深度學(xué)習(xí)模型,源自于人腦對(duì)信息處理的機(jī)制,在面對(duì)外界大量信息時(shí),人腦會(huì)過(guò)濾掉不重要的信息,僅將注意力集中在關(guān)鍵信息,可以大大提升信息處理效率,Transformer在應(yīng)對(duì)大規(guī)模數(shù)據(jù)量級(jí)的學(xué)習(xí)任務(wù)時(shí)具有相當(dāng)出色的表現(xiàn)。
Transformer模型需要的三個(gè)核心參數(shù)為Query、Key和Value,其中Key和Value由HydraNet主干部分生成的多尺度特征空間經(jīng)過(guò)一層MLP(多層感知機(jī)網(wǎng)絡(luò))訓(xùn)練得到,而通過(guò)對(duì)特征空間進(jìn)行池化處理得到全局描述向量(context summary),同時(shí)對(duì)輸出的BEV空間各柵格進(jìn)行位置編碼(positional encoder),合成描述向量和位置編碼后再通過(guò)一層MLP可以得到Query。
特斯拉通過(guò)這種方法,可以將地面坡度、曲率等幾何形狀的變化情況內(nèi)化進(jìn)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練參數(shù)中,實(shí)現(xiàn)對(duì)物體深度信息準(zhǔn)確感知和預(yù)測(cè),這也是特斯拉敢于放棄雷達(dá)融合路線走純視覺(jué)路線的底氣。
短時(shí)記憶層:視頻時(shí)空序列特征提取
引入空間理解層后,感知網(wǎng)絡(luò)已經(jīng)具備對(duì)現(xiàn)實(shí)世界的三維向量空間描述能力,但仍然是對(duì)瞬時(shí)的圖像片段進(jìn)行感知,缺乏時(shí)空記憶力,也就是說(shuō)汽車(chē)只能根據(jù)當(dāng)前時(shí)刻感知到的信息進(jìn)行判斷,這會(huì)導(dǎo)致世界空間內(nèi)部分特征感知不到。
例如在行車(chē)過(guò)程中,如果有行人正在穿過(guò)馬路,過(guò)程中被靜止的障礙物遮擋,而汽車(chē)僅有瞬時(shí)感知能力的話,由于在感知時(shí)刻行人正好被汽車(chē)遮擋了,則無(wú)法識(shí)別到行人,導(dǎo)致很大的安全風(fēng)險(xiǎn)。而人類(lèi)司機(jī)在面對(duì)類(lèi)似場(chǎng)景時(shí),則會(huì)根據(jù)之前時(shí)刻看到行人在穿越馬路的記憶,預(yù)測(cè)其當(dāng)前時(shí)刻有很大概率被汽車(chē)遮擋,且有繼續(xù)穿越馬路的意圖,從而選擇減速或者剎車(chē)避讓。
因此自動(dòng)駕駛感知網(wǎng)絡(luò)也需要擁有類(lèi)似的記憶能力,能夠記住之前某一時(shí)間段的數(shù)據(jù)特征,從而推演目前場(chǎng)景下可能性最大的結(jié)果,而不僅僅是基于當(dāng)前時(shí)刻看到的場(chǎng)景進(jìn)行判斷。
為了解決這一問(wèn)題,特斯拉感知網(wǎng)絡(luò)架構(gòu)引入了時(shí)空序列特征層,通過(guò)使用具有時(shí)間維度的視頻片段而非靜態(tài)的圖像來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò),為自動(dòng)駕駛增添了短時(shí)記憶能力。

引入時(shí)空序列特征提取層以實(shí)現(xiàn)短時(shí)記憶能力
特斯拉同時(shí)還引入了IMU傳感器獲取到的包含速度和加速度在內(nèi)的自車(chē)運(yùn)動(dòng)信息,結(jié)合三維向量空間特征,分別生成基于時(shí)間維度和基于空間維度的特征隊(duì)列,其中時(shí)間維度的特征隊(duì)列提供了感知在時(shí)間上的連續(xù)性,而空間特征隊(duì)列的意義是防止由于部分場(chǎng)景等待時(shí)間過(guò)長(zhǎng)導(dǎo)致的時(shí)序信息丟失,并利用三維卷積、Transfomer、RNN等方法實(shí)現(xiàn)時(shí)序信息融合,進(jìn)而得到多傳感器融合的視頻流時(shí)空特征空間。
此外特斯拉還嘗試了一種新的時(shí)序信息融合方法——Spatial RNN,可以省略BEV層的位置編碼,直接將視覺(jué)特征喂給RNN網(wǎng)絡(luò),通過(guò)隱藏層保留多個(gè)時(shí)刻的狀態(tài)編碼,指導(dǎo)應(yīng)對(duì)當(dāng)前環(huán)境需要選取哪些記憶片段使用。
短時(shí)記憶層無(wú)疑增加了特斯拉感知網(wǎng)絡(luò)的魯棒性,針對(duì)惡劣天氣、突發(fā)事件、遮擋場(chǎng)景等,都能保持良好的感知能力。
以上便構(gòu)成了特斯拉的感知網(wǎng)絡(luò)架構(gòu),通過(guò)端到端的訓(xùn)練模型,從視頻數(shù)據(jù)輸入到向量空間輸出。
據(jù)特斯拉AI技術(shù)總監(jiān)Karpathy介紹,基于以上架構(gòu)的特斯拉視覺(jué)感知體系,對(duì)于深度信息的感知能力甚至可以超過(guò)雷達(dá),同時(shí)由于具備短時(shí)記憶,特斯拉可以實(shí)現(xiàn)局部地圖的實(shí)時(shí)構(gòu)建,通過(guò)融合多個(gè)局部地圖,理論上可以得到任何一個(gè)區(qū)域的高精地圖,這也是特斯拉目前沒(méi)有采用高精地圖作為輸入原因。
02 規(guī)劃與控制
人體在感知到周?chē)澜绲男畔⒑?,?huì)基于對(duì)這些信息的認(rèn)知做出相應(yīng)的判斷,來(lái)規(guī)劃自己的軀體應(yīng)該作何反應(yīng)并下發(fā)控制指令,汽車(chē)也是如此,在完成感知任務(wù)后下一步便是對(duì)感知到的信息做出決策方案,指導(dǎo)汽車(chē)完成相應(yīng)執(zhí)行動(dòng)作,這便是自動(dòng)駕駛的規(guī)劃與控制部分。
特斯拉自動(dòng)駕駛規(guī)控的核心目標(biāo)是基于感知網(wǎng)絡(luò)輸出的三維向量空間,通過(guò)規(guī)劃汽車(chē)行為和行車(chē)路徑使汽車(chē)到達(dá)指定目的地,同時(shí)最大化確保行車(chē)安全性、效率性及舒適性。
規(guī)控是一個(gè)非常復(fù)雜的問(wèn)題,一方面汽車(chē)的行為空間具有典型的非凸性,同一個(gè)目標(biāo)任務(wù)可能對(duì)應(yīng)非常多個(gè)解決方案,同時(shí)全局最優(yōu)解難以獲得,具體表現(xiàn)就是汽車(chē)可能由于陷入局部最優(yōu),無(wú)法快速做出準(zhǔn)確決策;另一方面行為空間具有多維性,要制定針對(duì)目標(biāo)任務(wù)的規(guī)劃方案需要在短時(shí)間內(nèi)快速產(chǎn)生速度、加速度等多個(gè)維度的參數(shù)。
特斯拉采用的解決方案是將傳統(tǒng)規(guī)劃控制方法與神經(jīng)網(wǎng)絡(luò)算法相結(jié)合,構(gòu)建一套混合規(guī)劃系統(tǒng),以任務(wù)分解的方式分別解決上述兩大難題,其規(guī)劃控制邏輯如下圖所示。

混合規(guī)劃系統(tǒng)解決方案
在感知獲得的三維向量空間中,基于既定的目標(biāo)位置,先采用粗搜索的方式找到一條初步的路徑,然后根據(jù)安全性、舒適性等指標(biāo),圍繞初步路徑進(jìn)行優(yōu)化,對(duì)與障礙物間距、加速度等參數(shù)做持續(xù)微調(diào),最終獲得一條最優(yōu)的時(shí)空軌跡。
在大部分結(jié)構(gòu)化場(chǎng)景下,例如高速公路等,粗搜索選取的是經(jīng)典的A-Star算法(啟發(fā)式搜索方法),但針對(duì)一些復(fù)雜的場(chǎng)景,例如鬧市中心、停車(chē)場(chǎng)等,由于場(chǎng)景中非結(jié)構(gòu)化元素比較多,搜索空間大,采用傳統(tǒng)A-Star算法消耗運(yùn)算節(jié)點(diǎn)過(guò)多,導(dǎo)致決策速度緩慢。
由此特斯拉引入強(qiáng)化學(xué)習(xí)方法,強(qiáng)化學(xué)習(xí)的機(jī)制類(lèi)似于人類(lèi)學(xué)習(xí)模式,通過(guò)獎(jiǎng)賞正確的行為來(lái)引導(dǎo)人類(lèi)習(xí)得某項(xiàng)能力,首先利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)全場(chǎng)景特點(diǎn)獲得價(jià)值函數(shù),然后通過(guò)MCTS算法(蒙特卡洛樹(shù)搜索)引導(dǎo)搜索路徑不斷靠攏價(jià)值函數(shù),這種方法可以大幅度減少搜索空間,有效提高決策實(shí)時(shí)性。

MCTS算法規(guī)劃停車(chē)場(chǎng)行車(chē)路線
而在行車(chē)過(guò)程中,會(huì)涉及與其他車(chē)輛的博弈問(wèn)題,例如變道過(guò)程、在狹窄路口錯(cuò)車(chē)場(chǎng)景,類(lèi)似場(chǎng)景下一般需要根據(jù)對(duì)方車(chē)輛的反應(yīng)變化隨時(shí)調(diào)整自車(chē)的決策方案。
因此除了單車(chē)規(guī)劃外,特斯拉還做了交通參與者聯(lián)合軌跡規(guī)劃,根據(jù)其他車(chē)的狀態(tài)參數(shù)(速度、加速度、角速度等)規(guī)劃其路徑,進(jìn)而選擇合適的自車(chē)方案,待其他車(chē)狀態(tài)發(fā)生變化后,隨時(shí)調(diào)整自車(chē)方案,盡量避免出現(xiàn)自車(chē)愣在原地不做反應(yīng)的情況,提升自車(chē)的smart性。

狹窄路口聯(lián)合軌跡規(guī)劃
至此,特斯拉FSD的最終架構(gòu)浮出水面,首先通過(guò)視覺(jué)感知網(wǎng)絡(luò)生成三維向量空間,對(duì)于僅有唯一解的問(wèn)題,可直接生成明確的規(guī)控方案,而對(duì)于有多個(gè)可選方案的復(fù)雜問(wèn)題,使用向量空間和感知網(wǎng)絡(luò)提取的中間層特征訓(xùn)練神經(jīng)網(wǎng)絡(luò)規(guī)劃器,得到軌跡分布,再融入成本函數(shù)、人工干預(yù)數(shù)據(jù)或其他仿真模擬數(shù)據(jù),獲得最優(yōu)的規(guī)控方案,最終生成汽車(chē)轉(zhuǎn)向、加速、剎車(chē)等控制指令,由汽車(chē)執(zhí)行模塊接受控制指令實(shí)現(xiàn)汽車(chē)自動(dòng)駕駛。

特斯拉FSD 感知-規(guī)劃-控制整體架構(gòu)
03 數(shù)據(jù)標(biāo)注與仿真
可以看到在特斯拉的自動(dòng)駕駛方案中,無(wú)論是在感知層面還是規(guī)控層面,核心算法基本都是由數(shù)據(jù)驅(qū)動(dòng)的,數(shù)據(jù)的數(shù)量和質(zhì)量決定了算法的性能,因此構(gòu)建一套高效獲取、標(biāo)注及仿真訓(xùn)練數(shù)據(jù)的閉環(huán)至關(guān)重要。
數(shù)據(jù)標(biāo)注
特斯拉每年售出近百萬(wàn)輛汽車(chē),通過(guò)這些汽車(chē)日常運(yùn)行,可以采集到超大規(guī)模的原始數(shù)據(jù)集,對(duì)這些數(shù)據(jù)集的標(biāo)注工作特斯拉最早是外包給合作方,后來(lái)發(fā)現(xiàn)存在交付延遲和質(zhì)量不高的情況,因此便在內(nèi)部發(fā)展了上千人的標(biāo)注團(tuán)隊(duì)并獨(dú)立開(kāi)發(fā)標(biāo)注基礎(chǔ)設(shè)施。
特斯拉的標(biāo)注最初是在二維圖像中進(jìn)行的,后來(lái)發(fā)展為四維實(shí)現(xiàn),除了標(biāo)注三維空間外還有對(duì)時(shí)間維度的標(biāo)注,直接在向量空間中完成標(biāo)注后再反向投影到攝像頭對(duì)應(yīng)的圖像空間中。

特斯拉的四維標(biāo)注
隨著數(shù)據(jù)規(guī)模的逐漸擴(kuò)大,人工標(biāo)注的方式需要消耗大量人力成本,同時(shí)人類(lèi)相對(duì)更擅長(zhǎng)語(yǔ)義分割之類(lèi)的標(biāo)注任務(wù),對(duì)于幾何圖形的標(biāo)注,反倒是機(jī)器更擅長(zhǎng),因此特斯拉引入了自動(dòng)標(biāo)注的方法,實(shí)現(xiàn)人工與機(jī)器相結(jié)合的數(shù)據(jù)標(biāo)注模式。
特斯拉實(shí)現(xiàn)自動(dòng)標(biāo)注的方案是通過(guò)汽車(chē)在一段時(shí)間內(nèi)采集到的視頻、IMU、GPS、里程表等數(shù)據(jù)構(gòu)成最小標(biāo)注單元(Clip),由離線神經(jīng)網(wǎng)絡(luò)系統(tǒng)訓(xùn)練得到中間層結(jié)果,如目標(biāo)物、語(yǔ)義分割、深度、光流等,再通過(guò)大量機(jī)器算法生成最終用以訓(xùn)練的標(biāo)簽集,包括行車(chē)軌跡、靜態(tài)環(huán)境重建、動(dòng)態(tài)物、運(yùn)動(dòng)學(xué)參數(shù)等,人工可以對(duì)自動(dòng)生成的標(biāo)簽集進(jìn)行調(diào)整干預(yù)。

自動(dòng)標(biāo)注方案實(shí)現(xiàn)過(guò)程
對(duì)于靜態(tài)標(biāo)注物,例如對(duì)于某一段道路的標(biāo)注,以攝像頭采集到的路面每個(gè)點(diǎn)的平面坐標(biāo)作為輸入,通過(guò)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)出這個(gè)點(diǎn)的高度及相關(guān)的語(yǔ)義分割、道路線邊界等三維中間結(jié)果,然后將這個(gè)三維點(diǎn)反向投影至各個(gè)攝像頭的二維空間,并將其與原本在二維圖像空間內(nèi)直接做語(yǔ)義分割的結(jié)果進(jìn)行對(duì)比,再基于各個(gè)攝像頭的對(duì)比結(jié)果進(jìn)行跨時(shí)空維度的聯(lián)合優(yōu)化實(shí)現(xiàn)重建,最終得到整個(gè)道路在各攝像機(jī)畫(huà)面內(nèi)及視頻前后幀時(shí)間序列中的一致性標(biāo)注結(jié)果。
通過(guò)不同輛車(chē)不同時(shí)間經(jīng)過(guò)同一路段采集到的視頻數(shù)據(jù),按照上述方法進(jìn)行自動(dòng)標(biāo)注,再將所有標(biāo)注結(jié)果進(jìn)行融合后優(yōu)化,得到該路段的精確標(biāo)注結(jié)果,實(shí)現(xiàn)道路重建。

自動(dòng)標(biāo)注實(shí)現(xiàn)道路重建
通過(guò)這種方式,不僅可以重建道路,還可以重建墻體、屏障、建筑物等所有靜態(tài)環(huán)境物。
對(duì)于動(dòng)態(tài)標(biāo)注物,核心是要標(biāo)注其運(yùn)動(dòng)學(xué)參數(shù)及行為軌跡預(yù)測(cè),通過(guò)不同車(chē)輛在同一路段采集的含時(shí)間序列的視頻標(biāo)注單元,我們不僅可以知道每個(gè)標(biāo)注物過(guò)去時(shí)刻的信息,還可以知道未來(lái)時(shí)刻的信息,因此可以輕易獲取每個(gè)動(dòng)態(tài)標(biāo)注物運(yùn)動(dòng)軌跡和參數(shù)的“真值”,即使被遮擋的運(yùn)動(dòng)物體也可以標(biāo)注出來(lái)。

動(dòng)態(tài)物體自動(dòng)標(biāo)注
通過(guò)對(duì)靜態(tài)物體和動(dòng)態(tài)物體分別標(biāo)注,最終得到一個(gè)最小標(biāo)注單元的完整標(biāo)注結(jié)果,如下圖所示。

自動(dòng)標(biāo)注實(shí)現(xiàn)Clip的完整標(biāo)注
可以看到,只需要汽車(chē)在路上行駛采集到的數(shù)據(jù)作為輸入,然后運(yùn)行標(biāo)注模型,再將結(jié)果進(jìn)行融合優(yōu)化,便可以得到任意場(chǎng)景的標(biāo)注結(jié)果,全過(guò)程自動(dòng)實(shí)現(xiàn),無(wú)人工參與。
一萬(wàn)個(gè)標(biāo)注單元在一周內(nèi)即可完成自動(dòng)化標(biāo)注,而純?nèi)斯?biāo)注則需要幾個(gè)月的時(shí)間,自動(dòng)標(biāo)注大大提升了標(biāo)注效率。
仿真
由于路測(cè)條件的限制,導(dǎo)致積累數(shù)據(jù)和訓(xùn)練算法的效率偏低且成本高昂,為了更高效的實(shí)現(xiàn)數(shù)據(jù)訓(xùn)練,特斯拉構(gòu)建了一個(gè)真實(shí)世界的虛擬仿真空間,來(lái)加速FSD能力的訓(xùn)練,仿真對(duì)于實(shí)現(xiàn)完全自動(dòng)駕駛的價(jià)值如今在行業(yè)內(nèi)已經(jīng)普遍被認(rèn)可。
自動(dòng)駕駛的仿真是在模擬環(huán)境中,通過(guò)調(diào)整各類(lèi)交通參與物及環(huán)境的模型參數(shù)以構(gòu)建各種虛擬場(chǎng)景,以訓(xùn)練算法應(yīng)對(duì)不同場(chǎng)景的性能。

特斯拉仿真場(chǎng)景
其價(jià)值主要體現(xiàn)在以下幾個(gè)方面:
1、通過(guò)仿真可以建立在現(xiàn)實(shí)世界中難以遇到的極端場(chǎng)景(corner case),例如高速公路上一家三口在跑步的場(chǎng)景,類(lèi)似的場(chǎng)景雖然在現(xiàn)實(shí)世界中存在的可能性極低,但考慮到自動(dòng)駕駛的安全性,必須掌握應(yīng)對(duì)此種極端場(chǎng)景的能力,因此可以在仿真環(huán)境下進(jìn)行模擬訓(xùn)練;
2、針對(duì)部分復(fù)雜場(chǎng)景難以直接標(biāo)注的情況,可以通過(guò)仿真進(jìn)行快速標(biāo)注,例如在一個(gè)路況復(fù)雜的十字路口有各種川流不息的汽車(chē)、行人,由于元素眾多,要直接進(jìn)行標(biāo)注難度很大,而在仿真場(chǎng)景中,由于所有的元素的初始參數(shù)都是自行設(shè)定的,因此在模擬復(fù)雜的運(yùn)動(dòng)狀態(tài)時(shí),所需要標(biāo)注的參數(shù)很容易就可以通過(guò)計(jì)算得到,以此實(shí)現(xiàn)快速標(biāo)注;
3、仿真為規(guī)控算法的訓(xùn)練和驗(yàn)證提供了一個(gè)安全的環(huán)境,考慮汽車(chē)駕駛安全問(wèn)題的重要性,自動(dòng)駕駛規(guī)控算法訓(xùn)練和優(yōu)化過(guò)程難以通過(guò)實(shí)際路測(cè)實(shí)現(xiàn),在仿真場(chǎng)景中便具有非常高的自由度;
4、可以用以某些閉環(huán)場(chǎng)景算法的長(zhǎng)期持續(xù)訓(xùn)練,例如泊車(chē)場(chǎng)景,這個(gè)場(chǎng)景下空間是閉環(huán)的,參與者有限,因此通過(guò)仿真持續(xù)模擬各種工況,可以有效地對(duì)自動(dòng)駕駛泊車(chē)能力進(jìn)行訓(xùn)練;
5、對(duì)于現(xiàn)實(shí)世界中FSD失敗的場(chǎng)景,可以通過(guò)仿真重現(xiàn)失敗場(chǎng)景,在仿真環(huán)境中尋找失敗原因并進(jìn)行算法訓(xùn)練和優(yōu)化。
一套完整的仿真體系需要包括仿真場(chǎng)景、仿真系統(tǒng)和仿真評(píng)估三大部分,這里僅介紹特斯拉在仿真場(chǎng)景層面所做的工作。
自動(dòng)駕駛的實(shí)現(xiàn)首先是基于感知能力,因此對(duì)感知系統(tǒng)的準(zhǔn)確仿真非常關(guān)鍵,特斯拉的感知系統(tǒng)是基于純攝像頭,因此對(duì)攝像頭的各種屬性進(jìn)行軟硬件建模,如傳感器噪聲、曝光時(shí)間、光圈大小、運(yùn)動(dòng)模糊、光學(xué)畸變等,甚至對(duì)于擋風(fēng)玻璃上的衍射斑這種細(xì)節(jié),特斯拉也考慮在內(nèi),這套準(zhǔn)確的傳感器仿真系統(tǒng)不僅可以用以FSD的訓(xùn)練和驗(yàn)證,還可以指導(dǎo)攝像頭的硬件選型和設(shè)計(jì)。

準(zhǔn)確的傳感器仿真
為了真實(shí)的模擬現(xiàn)實(shí)世界場(chǎng)景,要求仿真渲染要盡可能做到逼真,特斯拉利用神經(jīng)網(wǎng)絡(luò)渲染技術(shù)來(lái)提升視覺(jué)渲染效果,同時(shí)用光線追蹤的方法來(lái)模擬逼真的光照效果。

逼真的視覺(jué)渲染
為了避免仿真環(huán)境過(guò)于單一,導(dǎo)致感知系統(tǒng)過(guò)擬合的問(wèn)題,特斯拉對(duì)仿真環(huán)境參與物進(jìn)行了充分的建模,包括多元交通參與者(例如車(chē)、行人等)和靜態(tài)環(huán)境物(例如建筑、樹(shù)、道路等)等,截至最新Tesla AI Day公開(kāi)的信息,特斯拉總共已經(jīng)繪制了2000+公里的道路環(huán)境。

多元交通參與者與地理位置
針對(duì)自動(dòng)駕駛可能遇到的各種場(chǎng)景,構(gòu)建了大規(guī)模的可擴(kuò)展場(chǎng)景庫(kù),由計(jì)算機(jī)通過(guò)調(diào)整參數(shù)生成不同的場(chǎng)景形態(tài),例如道路曲度等,同時(shí)由于大量的仿真場(chǎng)景可能是無(wú)用的,例如實(shí)際該場(chǎng)景下汽車(chē)的決策已經(jīng)正確,為了避免計(jì)算資源的浪費(fèi),特斯拉還引入了MLB等神經(jīng)網(wǎng)絡(luò)用來(lái)尋找故障點(diǎn),重點(diǎn)圍繞故障點(diǎn)進(jìn)行仿真數(shù)據(jù)創(chuàng)建,反哺實(shí)際規(guī)劃網(wǎng)絡(luò),形成閉環(huán)。

大規(guī)模場(chǎng)景生成
除了直接在虛擬場(chǎng)景中進(jìn)行仿真訓(xùn)練,特斯拉還希望可以在仿真環(huán)境中重現(xiàn)真實(shí)世界場(chǎng)景,以便可以復(fù)現(xiàn)FSD失敗的場(chǎng)景,實(shí)現(xiàn)在仿真環(huán)境下的優(yōu)化迭代后再反哺汽車(chē)算法模型,實(shí)現(xiàn)“數(shù)據(jù)閉環(huán)”,因此在完成真實(shí)世界片段的自動(dòng)標(biāo)注重建后,再疊加視覺(jué)圖像信息,生成與真實(shí)世界“孿生”的虛擬世界。

場(chǎng)景重現(xiàn)
特斯拉通過(guò)仿真獲得的虛擬數(shù)據(jù)規(guī)模已達(dá)到37.1億張圖片及4.8億標(biāo)注,且已實(shí)際融入車(chē)端模型中,用以提升FSD性能。
04 算力
上面對(duì)特斯拉自動(dòng)駕駛所采用的算法架構(gòu)和數(shù)據(jù)閉環(huán)進(jìn)行了介紹,而超大規(guī)模的數(shù)據(jù)和高性能的算法均需要強(qiáng)大的算力支撐,特斯拉為此自研打造了服務(wù)于自動(dòng)駕駛的全球最強(qiáng)超級(jí)計(jì)算機(jī)——Dojo。
Dojo是一種通過(guò)網(wǎng)絡(luò)結(jié)構(gòu)連接的分布式計(jì)算架構(gòu),具有大型計(jì)算平面、極高帶寬、低延遲、可擴(kuò)展性極強(qiáng)等特點(diǎn),去年8月的AI Day,特斯拉公布了為Dojo超算打造的自研AI訓(xùn)練芯片D1。

Dojo?D1芯片
D1芯片采用分布式結(jié)構(gòu)和7納米制造工藝,單片面積僅645平方毫米,具有500億個(gè)晶體管和354個(gè)訓(xùn)練節(jié)點(diǎn),內(nèi)部電路長(zhǎng)達(dá)17.7公里,單片F(xiàn)P32算力可達(dá)22.6 TOPs,BF16 算力可達(dá)362 TOPs,1TOPS代表處理器每秒鐘可進(jìn)行一萬(wàn)億次(10^12)操作,同時(shí)具有GPU級(jí)的計(jì)算能力和CPU的連接能力,I/O帶寬是最先進(jìn)的網(wǎng)絡(luò)芯片的2倍。
同時(shí)D1芯片之間可以實(shí)現(xiàn)無(wú)縫連接,特斯拉將25個(gè)D1芯片連接起來(lái)組成了獨(dú)立的訓(xùn)練模塊,模塊算力高達(dá)9 PFLOPs(每秒處理9千萬(wàn)億次),I/O帶寬最大達(dá)每秒36TB。

D1組成的訓(xùn)練模塊
那么將120個(gè)訓(xùn)練模塊(包含3000顆D1芯片)集成在一塊,就組成了AI訓(xùn)練計(jì)算機(jī)柜——Dojo ExaPOD,其包含超過(guò)100萬(wàn)個(gè)訓(xùn)練節(jié)點(diǎn),BF16/CFP8算力高達(dá)1.1 EFLOPs(每秒110京次的浮點(diǎn)運(yùn)算,1京=10^18),超越了當(dāng)時(shí)排名全球第一的日本富士通0.415 EFLOPs,且在相同成本下,ExaPOD具有4倍性能和1.3倍能耗節(jié)約,碳排放僅占1/5。

Dojo?ExaPOD 超級(jí)計(jì)算機(jī)
而且由于DI芯片的無(wú)限連接特性,理論上由其組成的Dojo計(jì)算機(jī)性能拓展無(wú)上限,因此目前的算力不是終點(diǎn),特斯拉預(yù)計(jì)下一代Dojo還會(huì)有10倍性能提升。
超強(qiáng)算力將持續(xù)服務(wù)于特斯拉大規(guī)模數(shù)據(jù)訓(xùn)練、自動(dòng)駕駛算法、云計(jì)算能力和其他AI方向。
05 寫(xiě)在最后
特斯拉全棧自研自動(dòng)駕駛體系在全球已經(jīng)處于領(lǐng)先地位,卻也仍然有非常大的提升空間,例如:
1、感知層面進(jìn)一步逼近人類(lèi)甚至超越人類(lèi),馬斯克曾在采訪中提到過(guò)特斯拉已經(jīng)在使用攝像頭采集可見(jiàn)光的光子信息,跳過(guò)圖像信號(hào)處理階段,直接將最原始的光子數(shù)據(jù)輸入給神經(jīng)網(wǎng)絡(luò)訓(xùn)練,這將使純視覺(jué)方案獲得遠(yuǎn)超人類(lèi)的夜間視距。
2、規(guī)控層面提升自動(dòng)駕駛的“老司機(jī)”屬性,特斯拉目前公開(kāi)的決策規(guī)劃的技術(shù)方案并不多,從已公開(kāi)的部分可以看到整體比較中規(guī)中矩,如何進(jìn)一步發(fā)展規(guī)控能力,讓人類(lèi)對(duì)自動(dòng)駕駛擁有更多信任感,是一個(gè)非常重要的課題。
3、仿真層面打造自動(dòng)駕駛“數(shù)字孿生”,仿真是實(shí)現(xiàn)完全自動(dòng)駕駛的關(guān)鍵一環(huán),主要由于仿真的試錯(cuò)成本非常低,可以加速自動(dòng)駕駛能力訓(xùn)練,促進(jìn)L4級(jí)以上自動(dòng)駕駛提早到來(lái)。
自動(dòng)駕駛作為人工智能技術(shù)的“皇冠”,可以說(shuō)是智能時(shí)代的“核彈”,是全球高科技企業(yè)競(jìng)相追逐的科技高地,自動(dòng)駕駛的持續(xù)發(fā)展最終很有可能將引發(fā)汽車(chē)交通行業(yè)乃至整個(gè)人類(lèi)社會(huì)運(yùn)行方式的巨大變革。
數(shù)據(jù)、算法、算力是驅(qū)動(dòng)自動(dòng)駕駛的三駕馬車(chē),特斯拉通過(guò)大規(guī)模汽車(chē)生產(chǎn)獲取數(shù)據(jù)、持續(xù)迭代FSD算法反哺汽車(chē)性能、自研超級(jí)算力服務(wù)AI訓(xùn)練的模式成功打造了實(shí)現(xiàn)完全自動(dòng)駕駛的良性飛輪。
特斯拉正在并將持續(xù)引領(lǐng)智能汽車(chē)革命。
編輯:黃飛
?
電子發(fā)燒友App









評(píng)論