人類的視覺機制是一個能夠進行三維信息采樣的系統(tǒng),它能夠?qū)⑷S空間中的物體投影到我們的視網(wǎng)膜上形成二維圖像,而我們則通過解析這些二維圖像來感知和理解物體的三維特性,如形態(tài)、大小、距離、紋理以及運動狀態(tài)(包括方向和速度)?;谶@一原理,機器視覺技術(shù)應(yīng)運而生。機器視覺系統(tǒng)是指用計算機來實現(xiàn)人的視覺功能,即用計算機來實現(xiàn)對客觀的三維世界的識別,是一個“光、機、電、算、 軟”等技術(shù)高度集成的系統(tǒng)。未來人形機器人也將大量依賴視覺感知來獲取信息。
本文將系統(tǒng)梳理機器視覺相關(guān)的內(nèi)容,分為五部分:
核心組件;
工作流程;
四大功能;
機器視覺典型的技術(shù)方案;
人形機器人視覺典型的技術(shù)方案。
3D視覺傳感器構(gòu)成(以Astra系列為例),來源:奧比中光
機器視覺系統(tǒng)由五大核心組件構(gòu)成:光學成像、圖像傳感器、圖像處理、輸入輸出(IO)以及顯示模塊。在光學成像模塊中,通過精心設(shè)計的光源與光路布局,物體空間的信息經(jīng)由鏡頭精確投射至成像面,從而捕獲目標物的物理特性。圖像傳感器模塊則承擔著將光信號轉(zhuǎn)化為電信號的關(guān)鍵任務(wù)。圖像處理模塊依托CPU為核心或?qū)S眯畔⑻幚硇酒Y(jié)合完善的圖像處理方案與算法庫,高效提取并解析圖像中的關(guān)鍵數(shù)據(jù)。IO模塊則負責將機器視覺系統(tǒng)的處理結(jié)果與數(shù)據(jù)向外輸出。而顯示模塊則為用戶提供了直觀監(jiān)控系統(tǒng)運行狀態(tài)與圖像可視化的便捷途徑。國產(chǎn)替代進口的進程預計將遵循由易到難的順序逐步推進,首先實現(xiàn)光源、相機、鏡頭的國產(chǎn)化替代,隨后逐步攻克開發(fā)軟件領(lǐng)域的國產(chǎn)替代難題。
工業(yè)相機作為將光信號轉(zhuǎn)化為電信號的關(guān)鍵設(shè)備,廣泛應(yīng)用于自動化流水線中以實現(xiàn)精確測量與判斷。工業(yè)相機一般安裝在機器流水線上代替人眼來做測量和判斷,通過數(shù)字圖像攝取目標轉(zhuǎn)換成圖像信號,傳送給專用的圖像處理系統(tǒng),圖像系統(tǒng)對這些信號進行各種運算來抽取目標的特征,進而根據(jù)判別的結(jié)果來控制現(xiàn)場的設(shè)備動作。它根據(jù)傳感器結(jié)構(gòu)分為線陣與面陣,按輸出信號分為模擬相機和數(shù)字相機,按響應(yīng)頻率則分為可見光(普通)相機、、紅外相機和紫外相機等類型。其核心部件圖像傳感器主要分為CCD和CMOS兩大類,后者因集成放大器與模數(shù)轉(zhuǎn)換,正逐漸取代CCD成為主流。當前,國產(chǎn)化進程加快,國內(nèi)品牌如大恒圖像、??禉C器人等在中低端市場已初具規(guī)模,而高端市場仍由國外品牌主導,但國產(chǎn)替代趨勢明顯。
鏡頭是機器視覺圖像采集的核心部件,對成像質(zhì)量至關(guān)重要。它將目標成像在圖像傳感器的光敏面上,分辨率、對比度、景深以及像差等指標對成像質(zhì)量具有關(guān)鍵性影響。機器視覺系統(tǒng)處理的所有圖像信息均通過鏡頭得到,鏡頭的質(zhì)量直接影響到視覺系統(tǒng)的整體性能。鏡頭種類繁多,按功能和視角可分為定焦、變焦、變光圈及普通、廣角、遠攝等類型,還有遠心、顯微、微距、紫外、紅外等特殊用途鏡頭。隨著光電子技術(shù)與移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、AI的快速發(fā)展,光學鏡頭的應(yīng)用已從傳統(tǒng)領(lǐng)域拓展至安防監(jiān)控、機器人、數(shù)碼產(chǎn)品、智能駕駛、智能家居、VR/AR設(shè)備等多領(lǐng)域,為行業(yè)持續(xù)發(fā)展提供新動力。
光源在機器視覺圖像采集中扮演關(guān)鍵角色,它影響成像質(zhì)量的重要因素,它的作用是突出物體的特點,抑制不相關(guān)特征,提高被探測區(qū)域和未探測區(qū)域的反差,并保證光源有足夠的亮度和穩(wěn)定性,從而保證圖像的成像質(zhì)量。選擇適合的光源至關(guān)重要,需考慮反射與吸收效果,同時機器視覺光源對照度、均勻性和穩(wěn)定性有更高要求。按類別和形狀,光源有多種分類,按照類別區(qū)分,光源可分為 LED 光源、鹵素燈以及高頻熒光燈;按照形狀區(qū)分,光源也可分為環(huán)形、條形、平面、線等形狀。全球視覺照明市場原由海外企業(yè)主導,但中國廠商如奧普特、沃德普、銳視光電、緯朗光電等已崛起,與國際廠商同臺競技。市場可分為三梯隊,第一梯隊以CCS和奧普特為代表,市場份額超5%;第二梯隊以美國 AI、中國銳視光電、中國康視達等企業(yè)為代表,市場份額在1%-5%之間;第三梯隊則以日本 Moritex、中國沃德普和中國緯朗光電等企業(yè)為代表,包括市場份額不足1%。
機器視覺系統(tǒng)通過算法分析傳感器生成的數(shù)字圖像,經(jīng)過圖像提取、特征突出、特征分析、規(guī)范比較等步驟做出決策。機器視覺軟件如同系統(tǒng)“大腦”,負責識別、定位、測量等功能,分為底層算法和二次開發(fā)軟件包兩類,前者是包含大量處理算法的工具庫,用以開發(fā)特定應(yīng)用,主要使用者為集成商與設(shè)備商。在中國市場,機器視覺軟件以自主研發(fā)或開源平臺二次開發(fā)為主,MVTec的Halco、??禉C器人的Vision Master和康耐視的Vision Pro占據(jù)市場前列,對外采購品牌軟件的情況相對較少。
圖像采集:通過攝像頭或其他成像設(shè)備(如CMOS和CCD相機)捕捉到目標物體的二維或三維圖像信息。這些圖像可以是可見光、紅外、紫外、X射線等多種形式,根據(jù)應(yīng)用場合的不同選擇合適的成像方式。
圖像處理:采集到的圖像信號被傳送給專用的圖像處理系統(tǒng),進行數(shù)字化轉(zhuǎn)換。這個過程會涉及到對像素分布、亮度、顏色等圖像信息被轉(zhuǎn)成數(shù)字信號。
圖像分析:圖像處理系統(tǒng)運用各種算法對數(shù)字化后的信號進行運算,以提取目標的關(guān)鍵特征,如物體的形狀、紋理、顏色、尺寸等,為后續(xù)的物體識別和分類提供數(shù)據(jù)支持。
圖像輸出:根據(jù)分析的結(jié)果,輸出相應(yīng)的信息,如判斷物體是否合格、尺寸是否符合標準等,并將這些結(jié)果傳遞給后續(xù)的控制或執(zhí)行系統(tǒng),實現(xiàn)精準的物料抓取、裝配、焊接等自動化作業(yè),以及無人機自主導航、自動駕駛路徑規(guī)劃等功能。
機器視覺主要集中在四大功能:識別、測量、定位和檢測。
識別:機器視覺能夠識別圖像或視頻中的特定物體、符號、文字或人臉等。這通常涉及特征提取、模式匹配和分類算法。識別功能在自動化生產(chǎn)線上的產(chǎn)品識別、安防監(jiān)控中的人臉識別以及智能交通中的車牌識別等方面都有廣泛應(yīng)用。
測量:機器視覺能夠精確測量物體的尺寸、形狀、位置以及表面特征等。通過圖像處理技術(shù),可以計算出物體的實際尺寸、角度、距離等參數(shù)。這在質(zhì)量控制、精密制造和機器人導航等領(lǐng)域尤為重要。
定位:機器視覺能夠確定物體在圖像或空間中的準確位置。這通常涉及圖像匹配、特征點檢測和坐標變換等技術(shù)。定位功能在自動化裝配、機器人抓取以及無人駕駛汽車的路徑規(guī)劃等方面發(fā)揮著關(guān)鍵作用。
檢測:機器視覺能夠檢測圖像中的異常、缺陷或特定目標。通過圖像分析算法,可以識別出產(chǎn)品表面的瑕疵、生產(chǎn)線上的異物或安全隱患等,如裂縫、凹陷、劃痕、異物、缺失部件等。檢測功能在質(zhì)量控制、安全檢查以及環(huán)境監(jiān)測等領(lǐng)域具有廣泛應(yīng)用。
機器視覺系統(tǒng)構(gòu)造,來源:《2022 年中國機器視覺產(chǎn)業(yè)發(fā)展白皮書》
不同應(yīng)用領(lǐng)域或場景對視覺的測量范圍、測量精度、尺寸和功耗等性能要求均不同,根據(jù)成像維度的差異,主要被劃分為2D視覺技術(shù)和3D視覺技術(shù)兩大類。
2D 視覺技術(shù):2D視覺技術(shù),歷經(jīng)數(shù)十年的發(fā)展,其分辨率實現(xiàn)了從數(shù)十萬到數(shù)億的巨大飛躍,使得圖像的色彩還原更加逼真,圖像質(zhì)量也顯著提升。它通過攝像頭捕捉平面圖像,并依賴圖像分析或比對來識別物體。但僅限于獲取表面紋理信息,無法獲取物體與相機之間的距離信息,無法進行三維測量,且易受光照和顏色/灰度變化影響。
3D 視覺技術(shù):3D視覺技術(shù)提供豐富維度信息,包括旋轉(zhuǎn)、俯仰、橫擺等,能真實還原立體世界并實現(xiàn)三維尺寸精確測量,是2D技術(shù)的有效補充。它增強了工業(yè)機器人的環(huán)境感知能力,拓寬了應(yīng)用場景,被視為視覺技術(shù)發(fā)展史上的重大突破。3D視覺技術(shù)作為機器人感知的最先進、最重要的方法,根據(jù)成像原理的不同,可進一步劃分為光學和非光學兩大類。其中,光學方法因其高效、準確的特點而得到廣泛應(yīng)用。光學3D視覺技術(shù)包括但不限于飛行時間(ToF)法、結(jié)構(gòu)光法、激光掃描法等多種方法。這些方法各有優(yōu)勢,能夠滿足不同應(yīng)用場景對精度、速度、成本等方面的需求。
當前,人形機器人市場在全球范圍內(nèi)正經(jīng)歷著快速增長,眾多制造商已經(jīng)展示了他們的產(chǎn)品原型,并且一些行業(yè)先鋒已經(jīng)開始籌備大規(guī)模生產(chǎn)。在人形機器人的研發(fā)與設(shè)計過程中,3D視覺傳感器已經(jīng)確立了其作為主流視覺解決方案的地位,各類深度相機被廣泛采納。有些公司選擇將激光雷達與3D視覺傳感器融合使用,例如Agility Robotics的Digit、宇樹的H1和智元的遠征A1,這種組合顯著提升了機器人對環(huán)境感知和避障的能力。與此同時,也有一部分制造商使用純攝像頭方案,如特斯拉的Optimus和1X Technologies的早期產(chǎn)品EVE。
下面是系統(tǒng)介紹幾種典型廠商人形機器人視覺方案:
1、特斯拉 Optimus:2D 視覺傳感器+FSD
特斯拉延續(xù)汽車以視覺為主技術(shù)路線,硬件成本低,對軟件算法要求高。Optimus 的 3D 傳感模塊以多目視覺為主,頭部使用三顆 Autopilot 攝像頭作為感知系統(tǒng):左肩和右肩各一顆攝像頭,提供高清的2D圖像信息,用于捕捉細節(jié)和進行深度感知。前置中央還配置了一顆廣角魚眼攝像頭,其視角設(shè)計巧妙地模擬了人類的視覺范圍,實現(xiàn)了超過180度的前方場景覆蓋。
對于Optimus機器人而言,技術(shù)遷移過程中唯一的挑戰(zhàn)在于需要重新收集訓練數(shù)據(jù)。特斯拉在這方面擁有顯著優(yōu)勢,他們自主研發(fā)了基于神經(jīng)網(wǎng)絡(luò)的訓練體系,并組建了一支由全球1000多名專業(yè)人才構(gòu)成的數(shù)據(jù)標注團隊。這支團隊每天對視頻數(shù)據(jù)中的物體進行精細標注,結(jié)合人工標注的細致入微和自動標注的高效,僅需一次標注,就能在“矢量空間”中自動完成所有攝像頭多幀畫面的標注工作。這為特斯拉積累了數(shù)以億計的高質(zhì)量、多樣化的原生數(shù)據(jù),這些數(shù)據(jù)是神經(jīng)網(wǎng)絡(luò)培訓的重要基礎(chǔ)。特斯拉還采用了多任務(wù)學習HydraNets神經(jīng)網(wǎng)絡(luò)架構(gòu),這一架構(gòu)能夠巧妙地將攝像頭捕捉的畫面拼接起來,并在視頻畫面的延遲和精準度之間找到完美平衡。通過對環(huán)境和動靜物體的逐幀分析,系統(tǒng)能夠深入了解物體的深度、速度等關(guān)鍵信息。這些信息隨后被用于機器人的學習過程,幫助它繪制出3D鳥瞰視圖,并形成包含4D空間和時間標簽的“路網(wǎng)”,幫助車輛/機器人更準確地理解環(huán)境,更精準的尋找最優(yōu)路徑。
值得注意的是,Optimus不僅繼承了特斯拉車輛的FSD(全自動駕駛)技術(shù),還融入了Autopilot相關(guān)的神經(jīng)網(wǎng)絡(luò)技術(shù)。其智能處理的核心是自主研發(fā)的AI訓練Dojo D1芯片和超級計算機Dojo。這套系統(tǒng)能夠高效處理攝像頭采集的信息,并通過強大的神經(jīng)網(wǎng)絡(luò)完成各種任務(wù)的識別和處理,所有這些工作都在其胸腔的FSD全套計算機上完成。


來源:車右智能、與非網(wǎng)、Tesla AI Day 2022-Bot
2、優(yōu)必選:四目系統(tǒng)及雙 RGBD 傳感器
優(yōu)必選 Walker X 采用基于多目視覺傳感器的三維立體視覺定位,其視覺模塊配備了四目視覺系統(tǒng)和兩個RGB-D傳感器:胸部采用了四目視覺設(shè)計,而頭部和腰部則各配置了一個RGBD傳感器,此外,腰部還裝備了4個毫米波雷達以增強避障能力。
在導航與路徑規(guī)劃方面,Walker X采用了SLAM(即時定位與地圖構(gòu)建)視覺導航技術(shù),并結(jié)合了Coarse-to-fine(由粗到精)的多層規(guī)劃算法。通過第一視角的實景AR導航交互和2.5D立體避障技術(shù),它能夠在動態(tài)環(huán)境中自主規(guī)劃并導航至全局最優(yōu)路徑。此外,Walker X還融合了基于深度學習的物體檢測與識別算法、人臉識別算法以及跨風格人臉數(shù)據(jù)生成技術(shù),能夠在復雜多變的環(huán)境中準確識別出人臉、手勢以及各類物體,從而實現(xiàn)對外部環(huán)境的豐富而準確的理解與感知。
優(yōu)必選人形視覺方案,來源:優(yōu)必選
上一代液壓驅(qū)動版本是RGB攝像頭 + 3D ToF深度相機 +激光雷達。今年推出的最新一代電機驅(qū)動產(chǎn)品,沒查到到是否帶激光雷達,初步推測是RGB攝像頭+3D ToF深度相機。
波士頓動力 Atlas 視覺外觀,來源:車右智能
Atlas 使用 TOF 深度相機以每秒 15 幀的速度生成環(huán)境的點云,點云是測距的大規(guī)模集合。機器人感知算法用于將來自相機和激光雷達(LiDAR)等傳感器的數(shù)據(jù)轉(zhuǎn)換為對決策和規(guī)劃實際動作有用的數(shù)據(jù)。Atlas 的感知軟件使用一種名為多平面分割的算法從點云中提取平面。多平面分割算法的輸入饋入到一個映射系統(tǒng)中,該系統(tǒng)為 Atlas 通過相機看到的各種不同對象構(gòu)建模型,Atlas 再基于它構(gòu)建的模型來規(guī)劃路徑。

深度相機拍攝的 Atlas 機器人的點云旋轉(zhuǎn)視圖
宇樹的視覺解決方案當前主要融合了結(jié)構(gòu)光技術(shù)、雙目或多目RGB傳感器,以及TOF(飛行時間)傳感器等多種技術(shù)組合。在Unitree H1機器人上,激光雷達被巧妙地安裝在機器人的后腦勺位置,這一設(shè)計使其能夠捕獲遠距離且廣泛的環(huán)境信息。同時,機器人的腦門上方則配備了深度相機,專注于提供近距離且高度精確的深度數(shù)據(jù)。這種3D激光雷達與深度相機的強強聯(lián)合,賦予了Unitree H1卓越的環(huán)境感知能力。它不僅能夠自主移動、準確識別周圍環(huán)境,還能進行有效的交互,即便在復雜多變的環(huán)境中,也能展現(xiàn)出卓越的導航和避障性能。
宇樹科技 G1 視覺方案,來源:宇樹科技公眾號
360°激光雷達+6顆高清攝像頭融合感知,實現(xiàn)全景無盲區(qū)。RGB 攝像頭疊加 3D 視覺傳感器同時捕捉彩色圖像和深度圖像,采集物體的顏色、形狀以及距離信息,而激光雷達則提供了高精度的距離和幾何形狀信息。此外,遠征系列機器人還采納了自動駕駛領(lǐng)域的Occupancy前沿感知技術(shù),并融入SLAM算法,顯著增強了其對環(huán)境的理解和解析能力,使得機器人能夠在各種環(huán)境下實現(xiàn)全域安全自主導航,并具備出色的局部避障能力。
遠征A2,來源:智元官網(wǎng)
6、小米:Mi-Sense 視覺系統(tǒng)(iToF +RGB)
小米發(fā)布的 CyberOne 機器人采用“AI 交互相機+Mi Sensense 自研空間視覺模組”方案,其中 Mi-Sense 深度視覺模組是由小米設(shè)計,歐菲光協(xié)同開發(fā)完成。根據(jù)歐菲光公開的信息,其機器視覺深度相機模塊包含iToF模組、RGB模組,并可選配IMU模塊。在RGB+iToF的融合方案中,iToF技術(shù)雖然無法捕捉物體的顏色紋理細節(jié),但RGB相機卻能彌補這一不足,提供豐富的色彩和紋理信息。將RGB與iToF技術(shù)相結(jié)合,不僅能獲取物體的精確深度數(shù)據(jù),還能同時捕捉到物體的顏色紋理,從而極大地拓寬了機器人的應(yīng)用場景。具體來說,RGB信息可被用于物體的檢測與識別,而深度信息則助力機器人進行環(huán)境建模和避障操作。
小米 Mi Sense 視覺技術(shù),來源:小米
綜上所述,人形機器人的視覺系統(tǒng)作為其感知外界、理解環(huán)境并與人類世界互動的關(guān)鍵技術(shù),正經(jīng)歷著前所未有的快速發(fā)展。從基礎(chǔ)的圖像識別到復雜的三維場景重建,再到模仿人類視覺注意機制和情感理解的高級功能,技術(shù)的進步不僅極大地提升了機器人的環(huán)境適應(yīng)能力和作業(yè)精度,也為實現(xiàn)更加自然流暢的人機交互奠定了堅實基礎(chǔ)。隨著深度學習、計算機視覺以及傳感器技術(shù)的不斷融合與創(chuàng)新,未來的人形機器人將擁有更加敏銳、智能且富有“洞察力”的視覺系統(tǒng),能夠在更廣泛的領(lǐng)域內(nèi)發(fā)揮重要作用,從工廠服務(wù)、家庭服務(wù)、醫(yī)療輔助到災難救援,乃至太空探索,人形機器人及其視覺技術(shù)的進步將持續(xù)推動科技前沿,深刻改變我們的生活方式與工作模式,開啟人機交互的新紀元。(來源焉知人形機器人)