編者按:自成立以來,商湯秉持著堅持原創(chuàng)的初心,穩(wěn)步前行。在商湯,有40位教授引領(lǐng)研發(fā)工作,他們?yōu)榧夹g(shù)創(chuàng)新提供了強(qiáng)大后盾,也進(jìn)一步推動了商業(yè)化成功。
在智能影像領(lǐng)域,商湯的AI技術(shù)已經(jīng)應(yīng)用在上億臺手機(jī)之中,并成功探索出軟硬一體化的業(yè)務(wù)模式。最近,商湯君采訪了智能影像首席科學(xué)家顧金偉,聊了聊他對前沿技術(shù)及應(yīng)用的心得,以及如何帶領(lǐng)團(tuán)隊(duì)披荊斬棘,闖出一條少有人走的路。
“艷陽十六陰天八,多云十一日暮四”,這樣的光圈口訣曾是很多攝影愛好者熟稔的法則。光圈、快門、感光度、白平衡…… 復(fù)雜的攝影參數(shù),在自動化相機(jī)出現(xiàn)之前,對大眾用戶來說并不友好。
如今,智能影像技術(shù),正在讓攝影擺脫沉重的設(shè)備,幫助小白們成為攝影高手。超分辨率、夜景增強(qiáng)、超清人像、高動態(tài)HDR、景深合成、拍后對焦、全景拼接等技術(shù)已然成為智能手機(jī)的標(biāo)配,用AI算法使成像更加通透且富有層次感,在畫質(zhì)和美學(xué)上進(jìn)行全自動化的提升。
在這一領(lǐng)域,商湯通過多年AI技術(shù)積累,研發(fā)了大量智能影像技術(shù),為業(yè)內(nèi)輸出專業(yè)而優(yōu)質(zhì)的多樣化的圖像處理方案,支持400多個手機(jī)型號,已應(yīng)用在上億臺手機(jī)相機(jī)中。
圍繞智能影像和計算攝影這個話題,商湯君在近日采訪了商湯智能影像首席科學(xué)家顧金偉,深入了解相關(guān)技術(shù)的底層邏輯,以及他對未來影像技術(shù)的思考。
一篇論文背后的緣分
金偉的研究領(lǐng)域,一直是在計算攝影與成像。
他曾擔(dān)任美國羅徹斯特理工學(xué)院助理教授,并先后在華為北美研究中心及NVIDIA擔(dān)任資深研究員,在學(xué)術(shù)上有深厚造詣。
生活中,金偉亦酷愛手機(jī)攝影,他習(xí)慣用手機(jī)記錄自己和家人每一個或平凡、或精彩的時刻。
“工作與興趣的契合,是一件非常美好的事?!?/FONT>
2014年底,一篇論文進(jìn)入了他的視野。這篇論文叫做ImageSuper-Resolution Using Deep Convolutional Networks,來自香港中文大學(xué)信息工程系及微軟亞洲研究院,其中介紹了一種用深度卷積網(wǎng)絡(luò)做圖像超分辨率處理的方法。
“計算攝影與成像在工業(yè)界的應(yīng)用非常多,那時候用的都是基于特征的傳統(tǒng)圖像處理算法。用深度學(xué)習(xí)網(wǎng)絡(luò)做圖像超分辨率的論文,這算是第一篇?!?/FONT>
也正是這篇論文,冥冥之中帶來了某種緣分。
在2018年的CVPR(國際計算機(jī)視覺與模式識別會議)上,金偉見到了商湯科技創(chuàng)始人、香港中文大學(xué)信息工程系教授湯曉鷗,與商湯科技聯(lián)合創(chuàng)始人王曉剛教授。湯曉鷗教授正是那篇圖像超分辨率論文的重要參與者。
彼時商湯正考慮在北美駐點(diǎn),擴(kuò)展國際業(yè)務(wù),吸納更多優(yōu)秀人才。湯曉鷗教授與王曉剛教授希望金偉能幫助商湯在硅谷建立研究中心。接觸之后,金偉感到雙方理念一致,于是不久后正式加入商湯,擔(dān)任研究執(zhí)行總監(jiān),負(fù)責(zé)硅谷研究中心的工作。
回憶當(dāng)時剛加入時的情景,金偉仍然歷歷在目,招人、辦公選址,很多事、各種細(xì)節(jié)都需要計劃和解決。
2018年,商湯科技硅谷辦公室成立不久時,顧金偉(右)與商湯聯(lián)合創(chuàng)始人王曉剛教授的合影
“當(dāng)時只有一個小小的辦公室,但大家工作熱情都很高?!边@段時間也是他加入商湯幾年中,最為深刻的一段記憶之一。
持續(xù)創(chuàng)新,是最大的核心競爭力
2018年正是智能手機(jī)市場進(jìn)入白熱化競爭的階段,整體增長越來越趨于瓶頸,各家必須拿出最硬核的技術(shù)打動消費(fèi)者,而手機(jī)的影像畫質(zhì)正是核心賣點(diǎn)之一。
這推動了整個手機(jī)產(chǎn)業(yè)鏈都積極將各種最先進(jìn)的智能化黑科技,應(yīng)用在手機(jī)影像系統(tǒng)中,比如近些年出現(xiàn)的拍月亮、拍太空夜景、視頻超級夜景等創(chuàng)新功能。
“這些對科技創(chuàng)新的真實(shí)需求,給我們算法公司提供了非常多難得的機(jī)會?!?/FONT>
得益于影像需求的增長,商湯的AI算法SDK產(chǎn)品成功應(yīng)用在了各大主要手機(jī)廠商的系列產(chǎn)品中,提供包括超分辨率、雙攝虛化、人像修復(fù)、超級夜景等功能。到目前,已有數(shù)億部手機(jī)搭載了商湯的影像技術(shù)。
AI夜景增強(qiáng)效果
但金偉沒有為此而滿足,他很快意識到,手機(jī)行業(yè)的影像技術(shù)更新非???,這樣的機(jī)會可能轉(zhuǎn)瞬即逝,而且也暗藏不少新挑戰(zhàn)。
“做好一個產(chǎn)品,就算其中90%是靠人工智能技術(shù)解決,但并不是說把人工智能算法做好就夠了,可能剩下70%的工作量是解決剩下的10%,這才決定了產(chǎn)品最終的差異化。”
影像畫質(zhì)產(chǎn)品也是這樣一個系統(tǒng)工程,最后的產(chǎn)品競爭力,不僅僅是取決于軟件算法公司自身,還取決于與上下游廠商的溝通與合作,整個鏈條非常長,存在很多不可控的因素。
另一方面,手機(jī)廠商也組建有自研算法團(tuán)隊(duì),他們直接接觸廣大的終端用戶,對于產(chǎn)品需求有更快、更準(zhǔn)確的判斷,而且在引入三方算法的時候,其自研團(tuán)隊(duì)可以說既是“裁判”又是“運(yùn)動員”。
“商湯在產(chǎn)品和技術(shù)先進(jìn)性等方面,必須要有比較大的創(chuàng)新和優(yōu)勢,才有可能在客戶那里保持競爭力。所以,我們的技術(shù)路徑還有合作布局,都是圍繞這種領(lǐng)先性的。”
在軟件方案競爭白熱化的趨勢下,金偉帶領(lǐng)團(tuán)隊(duì)做出了軟硬一體化的前瞻性轉(zhuǎn)變。
2019年,商湯開始尋求與全球主流的圖像傳感器廠商開展緊密合作,將AI算法和傳感器進(jìn)行直接融合,研發(fā)軟硬一體的解決方案。
同時,商湯還獨(dú)立開發(fā)AI ISP芯片,充分發(fā)揮新型傳感器的性能,根據(jù)AI算法特點(diǎn)重新設(shè)計最優(yōu)的ISP鏈路,這是目前市面上很多手機(jī)芯片做不到的。
再加上商湯在AI畫質(zhì)算法的積累,如圖像分割、場景的識別和理解等等,將這些結(jié)合起來,就形成了在智能影像上的綜合優(yōu)勢。
如今,金偉領(lǐng)導(dǎo)的智能影像部門,可以為移動端提供軟硬一體的高清畫質(zhì)解決方案,帶來極致和流暢的拍照和視頻體驗(yàn)。
這種解決方案中,硬件包含圖像傳感器、光學(xué)鏡頭、圖像畫質(zhì)處理芯片(ISP)上的算法開發(fā)和IP固化,軟件則主要包含多幀融合、多攝融合等算法SDK。兩者互為一體,能發(fā)揮最大的優(yōu)勢。
曾經(jīng)一波三折,卻打通新的業(yè)務(wù)模式
軟硬一體的解決方案,相比于僅僅提供算法SDK,更加具有技術(shù)壁壘,但其發(fā)展過程也是一波三折。
基于圖像傳感器的AI算法開發(fā)難度十分大,因?yàn)橛布挠嬎隳芰Ψ浅S邢?,但需要處理的?shù)據(jù)卻非常大,對畫質(zhì)和功耗的要求也十分嚴(yán)格,這種矛盾讓開發(fā)難度呈指數(shù)級增長。
“有一家國際領(lǐng)先的影像傳感器公司曾經(jīng)嘗試過兩次,但都失敗了,所以我們一開始找到他們合作的時候,對方也沒什么信心?!?/FONT>
但事件很快迎來轉(zhuǎn)機(jī),2019年一家國內(nèi)頭部的手機(jī)廠商希望做基于成像傳感器相關(guān)的算法開發(fā),這讓金偉及部門的同事非常興奮。
當(dāng)時,項(xiàng)目時間非常緊張,很多同事春節(jié)也沒有休假,最終趕在時間截止前完成了交付。但到了次年初,對方的需求又變了,更希望將這種核心的技術(shù)方案交由自研團(tuán)隊(duì)去做,合作也因此不了了之。這讓金偉和同事們備受打擊。
慶幸的是,在這些波折中,智能影像團(tuán)隊(duì)沒有落下研發(fā)的進(jìn)度,技術(shù)效果與性能都在持續(xù)提升。抱著試一試的心態(tài),他們又將技術(shù)方案推給了前述的傳感器廠商,并最終在2020年7月正式立項(xiàng)。
但立項(xiàng)只是長征的第一步。
“一方面,技術(shù)上有挑戰(zhàn),我們對將算法轉(zhuǎn)換成硬件語言代碼的經(jīng)驗(yàn)不足;另一方面,人手不夠,當(dāng)時做傳統(tǒng)算法SDK的業(yè)務(wù)也很缺人,我們的硬件語言開發(fā)只有兩位同事支持,節(jié)奏非常緊。”
更要命的是,項(xiàng)目計劃在2021年2月驗(yàn)收,而到1月時,在成像速度與畫質(zhì)達(dá)標(biāo)后,功耗又出現(xiàn)了問題,這在移動端是非常致命的。好在團(tuán)隊(duì)成員齊心協(xié)力,最終完成交付。
對于當(dāng)時的感受,金偉記憶猶新。
“大家都不知道能不能成功,因?yàn)橛泻芏嗟牟淮_定性,就算做成了,也不確定能否在手機(jī)市場上成為爆點(diǎn)。”
最終,市場獎勵了那些勇于堅持創(chuàng)新的人。開發(fā)成功后,三四個同類項(xiàng)目緊隨而來,更重要的是,這次突破為公司帶來了新的業(yè)務(wù)合作模式,護(hù)城河進(jìn)一步加深。
現(xiàn)在,商湯的算法在多款新型圖像傳感器上成功落地,包括新型的RGBW圖像傳感器,2億像素全方向?qū)沟膱D像傳感器,以及多光譜圖像傳感器。
這些產(chǎn)品近期將會大規(guī)模量產(chǎn),應(yīng)用在一些新旗艦手機(jī)上,未來還會推廣到車載、互娛、機(jī)器視覺等領(lǐng)域。
深挖行業(yè)需求,研發(fā)可調(diào)可控畫質(zhì)技術(shù)
談及影像技術(shù)的未來,金偉認(rèn)為,可控可調(diào)的深度學(xué)習(xí)技術(shù)和基于場景理解的畫質(zhì)提升,會是大趨勢。
“可控可調(diào)的深度學(xué)習(xí)技術(shù),是現(xiàn)在圖像畫質(zhì)算法方面非常缺乏的一點(diǎn)?!?/FONT>
傳統(tǒng)的圖像處理算法一般有很多有物理意義的參數(shù),可以留給客戶去控制調(diào)試。圖像畫質(zhì)有時候也是一種主觀的體驗(yàn),這種選擇權(quán)可以讓手機(jī)廠商靈活地根據(jù)用戶喜好或者硬件配置去調(diào)整調(diào)試算法效果。
但這種可調(diào)可控,目前在深度學(xué)習(xí)中還沒有成熟的技術(shù)。深度學(xué)習(xí)技術(shù)訓(xùn)練完的網(wǎng)絡(luò)模型,萬一出現(xiàn)問題,只能重新收集數(shù)據(jù)再訓(xùn)練,它沒有辦法在運(yùn)行時去調(diào)整。
“所以,我們在畫質(zhì)方面會強(qiáng)調(diào)如何開發(fā)可控可調(diào)的深度學(xué)習(xí)算法,讓它能夠根據(jù)客戶的需求、硬件的配置,做到更加方便的調(diào)控?!?/FONT>
基于場景理解的畫質(zhì)提升,具體來說,就是讓算法識別出拍攝時的場景,比如當(dāng)按下快門時,如果相機(jī)會知道是室內(nèi)還是室外、夕陽還是婚禮,那這些場景信息會有助于算法調(diào)整顏色、對比度、細(xì)節(jié)等,最終合成出最符合場景畫質(zhì)的圖片和視頻。
其實(shí)這不僅是一種技術(shù)趨勢,也隱含了金偉本人樸素的期待。采訪中,商湯君問到,智能影像部的愿景是什么?
金偉說,“我希望所有這些相關(guān)的技術(shù)和產(chǎn)品,會使手機(jī)拍照和視頻畫質(zhì)在不久的將來大幅超越單反相機(jī),能更好地記錄我們生活中每一個美好的瞬間?!?/FONT>
(轉(zhuǎn)載)