工業(yè)機(jī)器人

不看算力看效率,更高級別的自動(dòng)駕駛需要多少 “FPS”?

ainet.cn   2021年04月02日

  特斯拉Hardware3.0的效率之謎

  特斯拉在其推出的Hardware3.0自動(dòng)駕駛平臺中,采用自研芯片替代了NvidiaDrivePX2,其理論算力直線提升了12倍,而以MAPS方式來評估,其真實(shí)AI性能更是驚人的提升了21倍。具體而言,Hardware2.0時(shí)每秒只能處理110幀圖像,而現(xiàn)在則高達(dá)2300幀。

  那么,Hardware的效率提升應(yīng)該如何認(rèn)識呢?在“算力至上”的今天,如何透過數(shù)字直剖本質(zhì)評估AI芯片的真實(shí)性能?

算力攀升,為什么卻看不到實(shí)用性?

  隨著芯片制程技術(shù)的演進(jìn),摩爾定律的發(fā)展卻逐漸進(jìn)入瓶頸期,這與當(dāng)下計(jì)算 AI 計(jì)算需求量爆發(fā)式的增長顯得格格不入。追求純算力突破并不可持續(xù),同時(shí)算力也并不代表汽車智能芯片“真實(shí)性能”,芯片計(jì)算效率也同樣需要關(guān)注。于是,軟硬結(jié)合、算法加持的 AI 芯片接過了跑贏新場景的接力棒。

  當(dāng)前,行業(yè)普遍以“TOPS”為單位來評估AI的理論峰值算力。盡管在目前主流的AI芯片性能基準(zhǔn)測試( MLPerf )下很多頂級廠商頻繁刷新榜單記錄,但在實(shí)際場景下的算力有效利用率卻差強(qiáng)人意。

  人們逐漸認(rèn)識到,AI芯片理論峰值算力并不一定能在實(shí)際運(yùn)行中完全釋放。例如,一款擁有理論峰值算力為16TOPS的芯片,在計(jì)算不同模型時(shí)甚至?xí)薪咏?0%的差異。此外,在卷積神經(jīng)網(wǎng)絡(luò)任務(wù)實(shí)測中,從2014年到2019年,最好的神經(jīng)網(wǎng)絡(luò)計(jì)算效率相差了100倍,相當(dāng)于計(jì)算效率每9個(gè)月翻一倍,遠(yuǎn)快于每18個(gè)月翻倍的摩爾定律。因此在模型算法演進(jìn)速度遠(yuǎn)快于芯片性能提升的速度的現(xiàn)在,不僅需要算力更高的芯片,也需要更合理的性能評估方法幫助用戶選擇適合的AI芯片。

  對這些AI時(shí)代出現(xiàn)的新變化,以地平線為代表的AI芯片企業(yè)認(rèn)為,單純依賴于 PPA 芯片設(shè)計(jì)指標(biāo),很容易陷入算力至上的“誤區(qū)”,但算力并不是完全反應(yīng)芯片性能唯一評估標(biāo)準(zhǔn)。因此,地平線提出了 MAPS(Mean Accuracy-guaranteed Processing Speed)概念和評估方法,以此作為檢驗(yàn)AI性能的真正標(biāo)準(zhǔn)。通俗來說,就是在特定的 AI 應(yīng)用領(lǐng)域,看芯片處理 AI 任務(wù)的速度和精度,即“多快”和“多準(zhǔn)”。

MAPS 動(dòng)態(tài)評估芯片真實(shí) AI 性能

  隨著 AI 算法的不斷演進(jìn),幾乎每 10-14 個(gè)月,相同的計(jì)算精度計(jì)算量可以下降一半。這種提升與算法設(shè)計(jì)的精妙程度息息相關(guān),但算法的快速演進(jìn)也對計(jì)算架構(gòu)提出巨大的挑戰(zhàn),尤其是對傳統(tǒng)通用的并行架構(gòu)而言,例如亟需高效AI專用處理器的自動(dòng)駕駛場景。

  MAPS 其實(shí)是在物理算力的基礎(chǔ)上,通過對大量模型的測試,綜合各個(gè)模型的速度(正比與物理算力*實(shí)際利用率)和準(zhǔn)確率得到的最佳方案的量化結(jié)果。它更聚焦于使用戶能夠通過可視化的圖表直觀的感知 AI 芯片真實(shí)算力。正如對于汽車來說,馬力(單位: HP)不如百公里加速時(shí)間(單位:秒)更真實(shí)反映整車動(dòng)力性能;算力(單位: TOPS)并不反映汽車智能芯片實(shí)際性能,而每秒準(zhǔn)確識別幀率 MAPS(單位: FPS)才是更真實(shí)的性能指標(biāo)。

MAPS=最佳模型多邊形面積/(精度上界—精度下界),其中橫軸反應(yīng)幀率,縱軸反應(yīng)精度

  此外,在自動(dòng)駕駛中應(yīng)該如何對速度和精度做取舍呢?現(xiàn)實(shí)生活中我們經(jīng)常遇到一些極端的案例,例如當(dāng)汽車遭遇小孩子橫穿馬路的突發(fā)狀況時(shí),如果自動(dòng)駕駛識別延時(shí)過高,會剎車不及時(shí);如果精度不夠,則會造成無法識別。在很多類似的場景中,我們往往面臨既要“快”,又要兼顧“準(zhǔn)”的境況。而在 MAPS 評估方法下,我們可以清晰看到幀率和精度之間的動(dòng)態(tài)關(guān)系,這也是其對實(shí)際場景的重要價(jià)值之一。

更高級別自動(dòng)駕駛需要多少“FPS”?

  軟件定義的汽車的趨勢下,未來汽車正逐步成為四個(gè)輪子上的超級計(jì)算機(jī)??梢郧逦A(yù)見的是,電動(dòng)車賣點(diǎn)不是車,而是「智能」,這是一個(gè)堪比計(jì)算機(jī)誕生級別的創(chuàng)新。

  特斯拉在 Hardware 3.0 中,采用其自研 AI 芯片 FSD Chip 替代了 Hardware 2.5 中的 Nvidia Drive PX2,算力從 12 TOPS 提升到了 144 TOPS,但運(yùn)行同樣模型的精度卻驚人的提升了 21 倍。具體而言,Hardware 2.0 時(shí)每秒只能處理 110 幀圖像,而現(xiàn)在則高達(dá) 2300 幀。除了絕對算力的提升,額外提升則來自于利用率的提升。同時(shí)特斯拉也宣布針對 Hardware 3.0 重寫自動(dòng)駕駛軟件,從而在 2020 年 10 月推出了 FSD beta,這是唯一不受場地限制、大規(guī)模測試的自動(dòng)駕駛方案。

  特斯拉革命性技術(shù)的重構(gòu)與 MAPS 背后體現(xiàn)的理念有相通之處:提升物理算力(HW 3.0 提升 12 倍)、提升利用率(提升近 2 倍),找到最佳的速度和準(zhǔn)確率提升(重寫自動(dòng)駕駛軟件),使得特斯拉從簡單場景的 NOA 一步步突破到不受限的自動(dòng)駕駛。而地平線在芯片設(shè)計(jì)之中一直貫徹 MAPS 背后的技術(shù)理念,關(guān)注提升物理算力的同時(shí)關(guān)注利用率的提升,并且不斷把算法發(fā)展趨勢,使得軟硬件可以協(xié)同共振,發(fā)揮最高效能。

  為了助力汽車廠商突破“特斯拉困境”,實(shí)現(xiàn)高級別自動(dòng)駕駛的落地。地平線即將推出的征程 5 MAPS 整體跑分高達(dá) 3020 FPS,其中 MAPS@COCO (檢測任務(wù)COCO MAPS) 跑分可高達(dá) 116,而 Nvidia Xavier MAPS@COCO 為 41 FPS (GPU&DLA@32W mode ),如此高的性能將助力車廠加速實(shí)現(xiàn)自動(dòng)駕駛方案的落地。

  驅(qū)動(dòng)新基建數(shù)字底座,需要有算力也要有效率。自成立以來,地平線便致力于兼?zhèn)渌懔εc效率的高性能芯片。未來,地平線將推出性能更強(qiáng)大的征程6,其不僅在功耗、面積優(yōu)化的基礎(chǔ)上,同時(shí)在MAPS上繼續(xù)提升一個(gè)數(shù)量級,助力全行業(yè)共同努力進(jìn)一步大幅提升自動(dòng)駕駛的安全性。

(轉(zhuǎn)載)

標(biāo)簽:地平線 HorizonRobotics 我要反饋 
泰科電子ECK、ECP系列高壓直流接觸器白皮書下載
優(yōu)傲機(jī)器人下載中心
億萬克
專題報(bào)道
聚力同行 · 新智“碳”索
聚力同行 · 新智“碳”索

“新華社-智能·零碳”項(xiàng)目策劃以“聚力同行·新智‘碳’索”為主題的新能源專題,主要圍繞光伏、儲能、鋰電、氫能、風(fēng)能五大新... [更多]

2025中國國際機(jī)床展覽會
2025中國國際機(jī)床展覽會

4月21至26日,以“融合創(chuàng)新,數(shù)智未來”為主題的第十九屆中國國際機(jī)床展覽會在首都國際會展中心盛大舉辦。憑借場館的卓越服... [更多]

2023-2024 智能·零碳成果展映
2023-2024 智能·零碳成果展映

“2023-2024智能·零碳成果展映”展示國內(nèi)外企業(yè)推進(jìn)“雙碳”實(shí)踐的最新成果,鼓勵(lì)更多企業(yè)、科研機(jī)構(gòu)、投資機(jī)構(gòu)等廣泛... [更多]