人工智能

商湯董事長兼CEO徐立:人工智能的十年演進 | WAIC 2025主論壇

ainet.cn   2025年07月27日

從人工智能誕生之初,一個核心命題便貫穿始終:智能到底從哪里來?

人類的智能起源于對世界的持續(xù)自主探索,在與物理空間的交互中沉淀并進化;機器智能的進化,依賴于人類積累的有限知識,僅靠這些,似乎難以真正觸達并融入物理空間。

隨著單一模態(tài)的進化觸及邊界,AI的演進路徑是什么?

商湯科技董事長兼CEO徐立,在2025世界人工智能大會主論壇上發(fā)表主旨演講《人工智能的十年演進》,以下為演講全文:

大家好,很高興有機會在這里分享一下我們關于人工智能演進的一些思考。

題目是《人工智能的十年演進》,原因在于過往的十年,是人工智能認知變化最快的十年,而商湯科技也是成立十年,所以正好就談談這十年。

智能躍遷:從感知AI到生成式AI

谷歌搜索趨勢清晰顯示過往十來年人工智能熱度有數(shù)次躍升,這標志著大眾認知在這三個時間點發(fā)生了顯著變化。

最初是感知AI——2011到2012年深度學習在視覺領域興起,隨著 CNN、ResNet 等算法迭代共同推動了第一波認知升級和產業(yè)落地。 2017-2018 年,伴隨Transformer 及自然語言模型的發(fā)展,進入了生成式AI的階段,帶動行業(yè)發(fā)展并逐步重塑大眾認知至當前高峰,從GPT到智能體、多模態(tài)大模型,乃至到現(xiàn)在第三個熱點高峰旨在改變現(xiàn)實世界的具身AI與世界模型。

我們始終在思考一個核心問題:在這幾個階段中,智能本身從何而來?算法迭代與生產力爆發(fā)(包括GPU 發(fā)展)固然重要,但還有一個本質問題在于:AI 和機器學習,究竟學習的是什么?

感知AI時代,受益于互聯(lián)網(wǎng)上對現(xiàn)實世界的大量“拷貝”——圖片、視頻等數(shù)據(jù)已廣泛存在。因此,感知時代的智能主要來自人工標注:AI是通過學習人工標注獲得能力。大量標注數(shù)據(jù)被用于訓練一個個垂直領域模型,例如我們當時推出的“商湯方舟”產品平臺,便集成了一萬多個感知模型,可以做很多不同垂直領域的識別任務。

感知模型的能力源于學習特定數(shù)量級的標注數(shù)據(jù)。以2012 年 Hinton 團隊在 ImageNet 上的突破性成果為例(使用約 1400 萬張圖片),若換算成一個人標注,大約需要 10 年。這看似數(shù)據(jù)龐大,但僅憑單人 10 年的知識,模型的泛化能力仍受局限。因此,彼時 AI 的工具屬性明顯,局限于各垂直領域的感知任務,也就是在很多垂直的方向上,我們需要做專屬的模型。

那么,生成式(或更通用的)人工智能有何不同?一個關鍵區(qū)別在于:現(xiàn)在說得更通用的 AI 根植于自然語言?;ヂ?lián)網(wǎng)文本天然蘊含知識,無需后期標注加工。雖然圖片、視頻數(shù)量遠超文本,但可以認為文本的知識密度更高。以GPT-3 處理 7500 億 token 為例,若由一個人創(chuàng)作這些文本,需耗時約十萬年??梢姡瑥?10 年到 10 萬年,數(shù)據(jù)量相差萬倍。正是自然語言的高知識密度,促成了模型的強大泛化與通用能力,成為當今通用AI 發(fā)展的關鍵基石。

當然,我們已意識到:此類數(shù)據(jù)或將被消耗殆盡。圖片標注依賴人工;而自然語言數(shù)據(jù)據(jù)預測,可能在2027-2028 年耗盡——事實上是其產生速度遠落后于算力增長速度,造成模型數(shù)據(jù)需求的“倒掛”。能否從原始、無序的視頻圖像中挖掘更多知識?有可能,但這仍需更多更深入的工作。

我們選擇了一條自然路徑:融合視覺感知與語言能力,構建原生多模態(tài)系統(tǒng)。具體而言,建立更自然的圖文關聯(lián),形成更長的多模態(tài)思維鏈。借助這種思維鏈持續(xù)激發(fā)模型能力,智能是被激發(fā)出來的,難以在毫無基礎的環(huán)境中憑空產生。雖然如今模型亦有可進行遞歸自學習推進,但本質上,我們仍需構建一條系統(tǒng)化的基礎模型進化路徑。

當我們加入大量圖文數(shù)據(jù)甚至高階多模態(tài)思維鏈時,觀察到一個有趣現(xiàn)象,同一模型在音頻交互、多模態(tài)推理能力俱佳的同時,其文本推理能力也大幅提升。這正得益于引入充足而豐富的多模態(tài)思維鏈。該現(xiàn)象表明:存在能將互聯(lián)網(wǎng)多模態(tài)數(shù)據(jù)中的知識提煉出來,融入文本模型,從而提升文本模型對特定任務,比如空間和物理世界的理解力;這樣的模型亦能更精準地控制生成,甚至引導圖像與視頻的生成。

破局之道:攻克主動交互數(shù)據(jù)稀缺難題

然而,人類終將面臨一個根本性問題:當書本與互聯(lián)網(wǎng)知識窮盡時,下一代的智能將從何處獲取?第一階段靠標注,第二階段靠語言,接下來呢?

讓我們審視人類的學習方式:人類自誕生起,便通過與現(xiàn)實世界的不斷互動探索獲得智能,而非始于語言或監(jiān)督的認知學習。這種與世界的交互是智能增長的重要源泉。這自然啟示我們:與現(xiàn)實世界互動產生的大量數(shù)據(jù)可以帶來智能。

為何要大量的數(shù)據(jù)?因為探索需要覆蓋多樣化的物理空間。當前機器人及具身智能的潛在瓶頸,正在于對此類高質量數(shù)據(jù)采集的巨大需求。

有個有趣的工作,1963 年的“主動貓與被動貓”實驗——兩只貓通過轉軸相連,一只可自由活動、可以與現(xiàn)實世界互動,另一只不能動,僅被動觀察相同視覺畫面,也就說同樣的視覺輸入,那只會互動的貓顯然成長的速度會非常的快。這也是具身理念的來源,強調與現(xiàn)實世界的探索與交互至關重要。

但還會面臨問題,機器實體真實地與復雜龐大的現(xiàn)實世界互動,探索空間極其廣闊,具身亦采用模擬平臺,但也必然面臨“模擬到現(xiàn)實(Sim-to-Real)”的差距。那有沒有可能通過所謂的對于現(xiàn)實世界的理解來做理解生成統(tǒng)一的世界模型。是會有,但也會面臨挑戰(zhàn)。

例如,使用模型生成數(shù)據(jù)(目前主要用于自動駕駛領域)效果顯著。但它可能違反物理規(guī)律, 例如出現(xiàn)車輛“幽靈穿越”十字路口或難以控制的隨機事故。此外,即便最優(yōu)的視頻生成模型,其響應速度也通常較慢。若需實時交互,往往需要等待很久才有生成結果,甚至可能“抽卡”(意指隨機采樣)——生成內容無法預知。

世界模型,推動AI邁入真正與物理世界交互時代

那接下來怎么辦?需要強大的現(xiàn)實世界理解模型+ 深度 3D 理解模型來協(xié)同提升該能力。

那么,我們推出自己的“開悟”世界模型,由日日新V6.5賦能。“開悟”世界模型也是視頻生成模型,但它考慮了時間、空間的一致性。

我們舉個簡單的例子。自動駕駛需采集大量復雜視角(如七路攝像頭typo數(shù)據(jù))。而我們模型能僅憑自然語言描述,即可生成右側逼真的七路攝像頭視角模擬數(shù)據(jù)。

我們看下細節(jié),首先,車輛運動時,其在各鏡頭中的位置變化精準同步, 時間一致性也可以得到保障:車輛無論遠近,各攝像頭捕捉到的不同時刻影像中細節(jié)(如車牌)均保持一致。倘若視頻引擎對于物理世界的規(guī)律沒有足夠理解,方向盤轉動可能導致視野突變(例如路旁樹木位置錯亂),就無法保障時空可控性。

我們來看生成自動駕駛里的一個“長尾場景”——汽車加塞兒(Cut-in),在駕駛里普遍,對于人類駕駛來講也是個難題,新手畏難,老手則冒風險。自動駕駛系統(tǒng)必須學習應對:太保守則影響通行效率,太激進易引發(fā)碰撞。以兩輛自動駕駛車輛為例,兩車試圖加塞卻相互牽制,陷入博弈循環(huán)。而真實路況中大量采集此類高危險性加塞數(shù)據(jù)極為困難且占比低。

“開悟”世界模型能生成七路攝像頭視角的加塞視頻嗎?當然可以。

「開悟」世界模型生成的多視角

如圖中描述大型車輛的加塞方向、時間、角度,模型生成的視頻確保了時空一致性,尤其可貴的是能穩(wěn)定生成大量、多樣化且可控的場景——可調節(jié)光照(白天、黑夜)、天氣(晴、陰、雨)、道路結構(直道、彎道、甚至 F1 賽道)、車流密度、車速以及車型(小到大)等變量。

這意味著,基于可控生成的視頻,我們開啟了AI通過模擬進行真實世界探索的可能性。早期做自動駕駛時,我們曾開發(fā)模擬器(類似機器人強化學習平臺)用于模擬演練后投入現(xiàn)實,但存在 Sim-to-Real Gap。

現(xiàn)在,隨著基模型能力增強、對世界理解加深,理解與生成的統(tǒng)一開創(chuàng)了新的交互可能性。

這是個特殊的例子,輸入為方向盤、剎車和油門來控制這個視頻的生成,卻驅動生成逼真的七攝像頭視角駕駛模擬。

用戶仿佛在真實的街道場景中玩“極品飛車”——手握方向盤控制方向,環(huán)境光照與車輛條件多變,每個攝像頭有不同的視角,各視角圖像一致統(tǒng)一。這一功能將為眾多行業(yè)賦能,對真實世界的探索有更大的可能性。能否用部分數(shù)據(jù)生成更多數(shù)據(jù),甚至實現(xiàn)一定程度的AI Self Learning,是極其值得探索的課題。

“舉一反千”,今天我們正式推出開悟世界模型產品平臺?,F(xiàn)在,任何人都可以通過自然語言描述場景,生成符合3D 物理規(guī)則的、特定視角的視頻片段。我們要求的不是視頻的質量達到電影級別,而是它符合物理的規(guī)則、物理的定律,并且能夠真正意義切進用戶的使用場景,讓你在真實的世界中開上極品飛車。而這部分能力,完全可以擴展到機器人的學習和應用中,非常值得期待。

我們也期待和大家一起經(jīng)歷AI發(fā)展的三個變化,感知世界,進而更好地理解世界生成世界,最后與現(xiàn)實的硬件交互來改變我們的世界。

謝謝!

(來源:商湯科技)

標簽:商湯科技 我要反饋 
泰科電子ECK、ECP系列高壓直流接觸器白皮書下載
億萬克
專題報道
2025世界人工智能大會
2025世界人工智能大會

2025世界人工智能大會暨人工智能全球治理高級別會議(簡稱“WAIC 2025”)將于7月在上海世博中心和世博展覽館舉行... [更多]

加入全球AI浪潮第一現(xiàn)場
加入全球AI浪潮第一現(xiàn)場

2025世界人工智能大會暨人工智能全球治理高級別會議將于7月26日至28日在上海世博中心和世博展覽館舉辦,本屆大會主題為... [更多]

聚力同行 · 新智“碳”索
聚力同行 · 新智“碳”索

“新華社-智能·零碳”項目策劃以“聚力同行·新智‘碳’索”為主題的新能源專題,主要圍繞光伏、儲能、鋰電、氫能、風能五大新... [更多]