Roboflow擁有一個備受歡迎的語料庫 - Udacity數(shù)據(jù)集2,主要用于訓(xùn)練自動駕駛汽車模型,不過,最近該公司表示該數(shù)據(jù)集缺少了關(guān)鍵數(shù)據(jù)。
機器學(xué)習(xí)模型的性能取決于其訓(xùn)練的數(shù)據(jù)集的質(zhì)量,而在自動駕駛領(lǐng)域,讓此種性能不會受到失誤的影響是至關(guān)重要的。據(jù)外媒報道,計算機視覺初創(chuàng)公司Roboflow發(fā)布了一份報告,據(jù)該公司創(chuàng)始人Brad Dwyer所說,用于訓(xùn)練自動駕駛汽車模型的語料庫確實遺漏了關(guān)鍵數(shù)據(jù)。
Dwyer表示,Udacity數(shù)據(jù)集2包含1.5萬張白天在山景城和附近城市開車時拍攝的照片,其中就遺漏了關(guān)鍵數(shù)據(jù)。在大約5000個樣本中,有數(shù)千輛未標(biāo)記的車輛,數(shù)百名未標(biāo)記的行人以及數(shù)十名未標(biāo)記的騎自行車的車,占總數(shù)的33%(而217個樣本中根本都沒有任何注釋,此類樣本涵蓋了汽車、卡車、路燈或行人)。更糟糕的是,還有“幻覺”注釋以及除了“嚴(yán)重”加大的邊界框(邊界框指代感興趣的對象),還有重復(fù)注釋的邊界框。
考慮到標(biāo)簽是讓人工智能(AI)系統(tǒng)理解模式的含義(如有人走到了汽車前面),并基于此類知識評估未來事件,上述現(xiàn)象是很有問題的。錯誤標(biāo)記或未標(biāo)記的物體可能會導(dǎo)致準(zhǔn)確性低、決策糟糕,從而為自動駕駛汽車帶來災(zāi)難。
AI很容易因為數(shù)據(jù)集不完整或不正確導(dǎo)致偏差,這很好理解。例如,單詞嵌入(word embedding)是一種常見的算法訓(xùn)練技術(shù),需要將單詞與向量連接起來的,不可避免地會捕捉到源文本和對話中隱含的偏見內(nèi)容,在最糟糕的情況下,此種偏見還會被放大。此外,相比于白人,很多面部識別系統(tǒng)錯誤識別有色人種的次數(shù)更多,而且谷歌圖片(Google Photos)曾經(jīng)將深膚色的人識別為“大猩猩?!?/P>
但是,如果將表現(xiàn)不佳的AI用于汽車,就會造成更大的傷害。目前,還沒有自動駕駛汽車引發(fā)碰撞事故的記錄,但是目前公共道路上的自動駕駛汽車數(shù)量很少。不過,這種情況很可能會改變,根據(jù)市場營銷公司ABI的數(shù)據(jù),到2025年,將有多達(dá)800萬輛無人駕駛汽車上路;而Research and Markets公司預(yù)計,到2030年,美國將有大約2000萬輛無人駕駛汽車投入使用。
如果數(shù)百萬的汽車運行的是有缺陷的AI模型,帶來的影響可能是毀滅性的,會讓公眾更加不信任無人駕駛汽車。有兩項研究 – 一項由布魯金斯學(xué)會(Brookings Institution)和一項由高速公路與汽車安全倡議者(AHAS)表示,大多數(shù)美國人并不相信無人駕駛汽車的安全性。在布魯金斯學(xué)會進(jìn)行的調(diào)查中,超過60%的受訪者表示,傾向于不乘坐自動駕駛汽車;而在AHAS的調(diào)查中,近70%的受訪者對于與自動駕駛汽車共享道路表示了擔(dān)憂。
解決數(shù)據(jù)集問題的方法可能在于更好地進(jìn)行標(biāo)記。根據(jù)Udacity數(shù)據(jù)集2的GitHub頁面所說,眾包語料庫注釋公司Autti結(jié)合使用機器學(xué)習(xí)與人工監(jiān)工的方式來處理標(biāo)記,目前尚不清楚是否此種方法導(dǎo)致了上述錯誤,不過嚴(yán)格的驗證程序可能有助于發(fā)現(xiàn)上述錯誤。
(轉(zhuǎn)載)