人工智能

爆火的DeepSeek-V3強(qiáng)在哪?

ainet.cn   2025年01月06日

最近,DeepSeek-V3在國外火了。

它為什么火呢?主要有三個(gè)原因:

一,性能非常出色。

在許多測試中,它都超過了其他頂尖模型,比如GPT-4o和Claude 3.5 Sonnet。特別在數(shù)學(xué)和代碼生成方面,表現(xiàn)尤為突出。

二,它的訓(xùn)練成本相對(duì)較低。只要600萬美元就能完成訓(xùn)練,與其他頂級(jí)模型相比,性價(jià)比極高。

三,它是開源的。全球的開發(fā)者都可以免費(fèi)使用和測試它。

因此,它火了。不過,隨著它的火爆,很多人開始好奇:這個(gè)模型來自哪里?它與其他模型有何不同?

帶著同樣的疑問,我查看了它12月26日在GitHub上發(fā)布的報(bào)告——DeepSeek-V3 Technical Report??偨Y(jié)出五點(diǎn)內(nèi)容,關(guān)于模型架構(gòu)設(shè)計(jì)、基礎(chǔ)設(shè)施、預(yù)訓(xùn)練、后訓(xùn)練模型,以及評(píng)估結(jié)果。現(xiàn)在向你匯報(bào)一下。

先來說說這家公司:‍

DeepSeek-V3由中國幻方量化公司開發(fā),它是基于自研MoE模型的新一代大語言模型。

MoE,全稱Mixture of Experts,也叫混合專家技術(shù),是一種機(jī)器學(xué)習(xí)架構(gòu),是通過組合多個(gè)專家模型,在處理復(fù)雜任務(wù)時(shí),讓效率和準(zhǔn)確度都大大提升。

以前,人們總愛把“DeepSeek”比作AI界的拼多多。

因?yàn)樗_啟了中國大模型的價(jià)格戰(zhàn)。2024年5月,它們推出了一個(gè)名為DeepSeek V2的開源模型。這個(gè)模型的性價(jià)比超級(jí)高,每百萬個(gè)token的推理計(jì)算成本只要1塊錢。

這個(gè)價(jià)格,大概是Llama3 70B的1/7,也是GPT-4 Turbo的1/70。

這個(gè)消息一出,字節(jié)、騰訊、百度、阿里,還有kimi這些AI公司都跟著降價(jià)。所以,DeepSeek憑借它的高性價(jià)比,在中國大模型市場掀起了第一場價(jià)格戰(zhàn)。

但是,V2.5版本的更新速度不快,直到9月份才有動(dòng)靜;現(xiàn)在又過了3個(gè)月,V3版本終于來了。這次,大家最想知道的就是,它的架構(gòu)有什么新變化。

這家公司的老板梁文鋒說過,以前中國公司習(xí)慣于做應(yīng)用變現(xiàn),但現(xiàn)在DeepSeek的目標(biāo)是走在技術(shù)前沿。他希望用技術(shù)推動(dòng)整個(gè)生態(tài)的發(fā)展。他認(rèn)為,中國公司應(yīng)該從“搭便車”的角色,轉(zhuǎn)變?yōu)?ldquo;貢獻(xiàn)者”,主動(dòng)參與到全球創(chuàng)新的大潮中。

那么,DeepSeek-V3到底有哪些技術(shù)架構(gòu)上新亮點(diǎn)呢?

圖釋:DeepSeek-V3MoE架構(gòu)工作流程‍

報(bào)告中(第4P到第6P部分)說:DeepSeek-V3的架構(gòu)設(shè)計(jì)非常精巧,主要有四點(diǎn):

專家團(tuán)(MoE架構(gòu));

多頭潛在注意力(MLA);

無輔助損失的負(fù)載平衡策略;

多令牌預(yù)測訓(xùn)練目標(biāo)。

分別是什么意思呢?首先,DeepSeek-V3有671億個(gè)參數(shù),像一個(gè)超級(jí)大腦。這個(gè)大腦采用的技術(shù)叫做MoE架構(gòu),就是混合專家技術(shù)。這意味著它里面有很多專家模型,但每次只需要調(diào)用37億個(gè)參數(shù)來工作就可以了。

為了讓專家模型高效工作,DeepSeek-V3得有個(gè)聰明的調(diào)度員,確保每個(gè)專家都有活干,不會(huì)有的很忙,有的很閑。

因此,DeepSeek-V3裝載了信息過濾器,叫做“MLA”,它能讓模型只關(guān)注信息中的重要部分,不會(huì)被不重要的細(xì)節(jié)分散注意力。

但是,這樣還不夠,DeepSeek-V3還得確保每個(gè)專家都能得到合理的工作量,并且訓(xùn)練模型去預(yù)測接下來的幾個(gè)步驟,不只是下一步;這就是無輔助損失的負(fù)載平衡策略和多令牌預(yù)測訓(xùn)練目標(biāo)的用處。

簡單來說,讓每個(gè)專家都有合理的工作量,同時(shí)訓(xùn)練模型去預(yù)測接下來的幾個(gè)步驟,這樣模型在實(shí)際工作中就能表現(xiàn)得更好,比如在處理長篇文章時(shí)能更好地理解上下文。

所以,DeepSeek-V3的架構(gòu)有四個(gè)要點(diǎn):

一,MLA技術(shù),通過壓縮注意力機(jī)制減少需要處理的信息量,提高效率。二,DeepSeekMoE技術(shù),用更細(xì)粒度的專家和共享專家提高訓(xùn)練效率,并且動(dòng)態(tài)調(diào)整專家間的工作量均衡。

三,無輔助損失的負(fù)載平衡策略,確保專家間工作量均衡,不依賴額外的損失項(xiàng);四,多令牌預(yù)測訓(xùn)練目標(biāo),提高模型的預(yù)測能力和數(shù)據(jù)效率。

總之,DeepSeek-V3的架構(gòu),像一個(gè)高效的團(tuán)隊(duì),每個(gè)成員都有特定的任務(wù),而且團(tuán)隊(duì)能夠預(yù)測并準(zhǔn)備接下來的工作,這樣的設(shè)計(jì)才能讓模型在處理信息時(shí)既快速又準(zhǔn)確。

報(bào)告第11頁到第12頁詳細(xì)講解了DeepSeek-V3的訓(xùn)練技術(shù)。首先,DeepSeek-V3是在擁有2048個(gè)NVIDIA H800 GPU的超級(jí)計(jì)算機(jī)上進(jìn)行訓(xùn)練的。

這些GPU通過NVLink和NVSwitch在單個(gè)節(jié)點(diǎn)內(nèi)連接,節(jié)點(diǎn)之間則通過InfiniBand(IB)連接,形成了一個(gè)強(qiáng)大的分布式計(jì)算網(wǎng)絡(luò)。

接下來說說訓(xùn)練框架。DeepSeek-V3用了一個(gè)叫做DualPipe的算法,這個(gè)算法能讓模型更智能地分配任務(wù),減少等待時(shí)間,確保每個(gè)部分都能在正確的時(shí)間做正確的事。

這個(gè)算法具體包括兩點(diǎn):

一,DualPipe和計(jì)算通信重疊。就像兩組工人,一組加工零件,一組準(zhǔn)備材料。如果他們不同步,加工好的零件就會(huì)堆積。

DeepSeek-V3的DualPipe算法讓這兩組工人的工作節(jié)奏同步,一邊加工零件,一邊準(zhǔn)備材料,這樣就沒有等待時(shí)間,生產(chǎn)過程更流暢。

二,高效實(shí)現(xiàn)跨節(jié)點(diǎn)全對(duì)全通信。你可以想象一個(gè)大工廠的不同車間需要共享信息。DeepSeek-V3通過高效的通信技術(shù),確保不同“車間”(計(jì)算節(jié)點(diǎn))之間的信息能快速共享,就像建立了一個(gè)快速的信息傳遞網(wǎng)絡(luò)。

兩者組合,就能在有限的硬件資源下訓(xùn)練更大的模型。

有了算法還不夠,還要精練。怎么精練?DeepSeek-V3推出了一種叫FP8的新技術(shù)。簡單來說,通過五個(gè)步驟用更小的數(shù)字代替原來的大數(shù)字,讓計(jì)算機(jī)更快地做計(jì)算,同時(shí)節(jié)省電力。

舉個(gè)例子:

在超市買東西,大多數(shù)情況下不用精確到小數(shù)點(diǎn)后,大概齊就行了。但是,用小數(shù)字代替大數(shù)字可能會(huì)影響精細(xì)工作。

怎么辦?DeepSeek-V3在關(guān)鍵的地方會(huì)用更精確的大數(shù)字(FP32)來確保質(zhì)量,比如:矩陣乘法,這就像在做精細(xì)活兒時(shí),在關(guān)鍵步驟用上好工具,其他時(shí)候用差點(diǎn)的也沒事。

在訓(xùn)練過程中,DeepSeek-V3還會(huì)用FP8存儲(chǔ)中間結(jié)果,節(jié)省更多的內(nèi)存空間。這就像整理東西時(shí),不用把所有東西都放在顯眼的地方,而是合理地收納起來,需要時(shí)再拿出來。

最后,DeepSeek-V3在實(shí)際使用時(shí)也會(huì)根據(jù)情況來決定用不用FP8,這樣就能在保證效果的同時(shí),讓模型跑得更快,更省資源。

如同我們?cè)谌粘I钪袝?huì)根據(jù)不同的情況來選擇不同的工具,既高效又節(jié)約,這就是它的底層基礎(chǔ)技術(shù)。

DeepSeek-V3是怎么做預(yù)訓(xùn)練的呢?

報(bào)告里說,DeepSeek-V3的預(yù)訓(xùn)練涉及六個(gè)方面:數(shù)據(jù)建設(shè)、超參數(shù)調(diào)整、長上下文擴(kuò)展、評(píng)估基準(zhǔn)、消融研究,還有輔助無損耗平衡策略。

首先是“數(shù)據(jù)建設(shè)”。

DeepSeek-V3用了14.8萬億個(gè)高質(zhì)量的數(shù)據(jù)點(diǎn)來訓(xùn)練,這些數(shù)據(jù)覆蓋了很多不同的領(lǐng)域和語言,這樣模型就能學(xué)到很多不同的知識(shí)。

然后,在訓(xùn)練開始之前,得設(shè)置一些重要的參數(shù),比如學(xué)習(xí)率。DeepSeek-V3會(huì)仔細(xì)挑選這些參數(shù),讓模型能以最好的方式學(xué)習(xí),這叫超參數(shù)調(diào)整(Hyper-Parameters)。

緊接著,對(duì)長上下文擴(kuò)展(Long Context Extension)。

這就像教模型讀長故事。DeepSeek-V3用了一些特別的技術(shù),比如YaRN,來增加模型能處理的文本長度,從4K字節(jié)增加到128K字節(jié)。這樣,模型就能理解更長的文章和故事了。

在學(xué)習(xí)的過程中,還得檢查模型學(xué)得怎么樣。這就是“評(píng)估基準(zhǔn)”的作用。DeepSeek-V3會(huì)在各種測試上進(jìn)行評(píng)估,比如MMLMU-Pro、GPQA-Diamond等,確保模型在不同的任務(wù)上都能表現(xiàn)得很好。

圖釋:DeepSeek-V3訓(xùn)練數(shù)據(jù)的方法‍

消融研究(ablation experiment)是什么?

DeepSeek-V3會(huì)做很多實(shí)驗(yàn),看看哪些方法最管用。比如研究無輔助損失的負(fù)載平衡策略,找出哪些技術(shù)最能提高模型的性能等。

最后,模型通過動(dòng)態(tài)調(diào)整,使得每個(gè)專家的工作量更加均衡,而不是通過輔助損失來強(qiáng)制平衡。如此一來,預(yù)訓(xùn)練階段就能吸收和處理很多信息,學(xué)會(huì)理解和生成文本,為后面的訓(xùn)練打下堅(jiān)實(shí)的基礎(chǔ)。

看完這段報(bào)告后我覺得,訓(xùn)練模型就像給一個(gè)5歲孩子提供學(xué)習(xí)資源和環(huán)境一樣,讓它在成長過程中能夠全面發(fā)展。

問題是:只有預(yù)訓(xùn)練還不夠,后訓(xùn)練才能讓模型更成熟。那么,DeepSeek-V3是怎么做的后訓(xùn)練呢?

首先是監(jiān)督微調(diào)(Supervised Fine-Tuning,SFT)。

DeepSeek團(tuán)隊(duì)為模型準(zhǔn)備了150萬個(gè)實(shí)例的特別訓(xùn)練集,就像是一本包含各種生活場景的百科全書。每個(gè)訓(xùn)練集都是精心設(shè)計(jì),確保模型能學(xué)會(huì)在不同情況下應(yīng)該怎么處理。

對(duì)于那些需要邏輯和計(jì)算的數(shù)據(jù),比如數(shù)學(xué)問題或者編程挑戰(zhàn),團(tuán)隊(duì)用了一個(gè)已經(jīng)訓(xùn)練好的模型(DeepSeek-R1)來生成例子。

雖然這些例子通常很準(zhǔn)確,但有時(shí)可能太復(fù)雜或者格式不規(guī)范。所以,團(tuán)隊(duì)的目標(biāo)是讓數(shù)據(jù)既準(zhǔn)確又容易理解。

為了做到這一點(diǎn),他們結(jié)合了監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)的方法,訓(xùn)練了一些“專家模型”。這些專家模型就像專業(yè)的老師,負(fù)責(zé)教模型如何在特定領(lǐng)域做得更好。

在訓(xùn)練過程中,他們會(huì)創(chuàng)造兩種類型的例子:一種是直接的問題和答案,另一種加上了“系統(tǒng)提示”的問題、答案和R1模型的響應(yīng)。這些系統(tǒng)提示就像教學(xué)大綱,指導(dǎo)模型如何給出有深度和經(jīng)過驗(yàn)證的答案。

對(duì)了,在“強(qiáng)化學(xué)習(xí)”階段,模型會(huì)嘗試不同的回答,根據(jù)效果得到獎(jiǎng)勵(lì)或懲罰。

通過這個(gè)過程,模型就學(xué)會(huì)了給出更好的答案;最后,團(tuán)隊(duì)會(huì)用“拒絕采樣”的方法挑選最好的示例,用于最終模型的訓(xùn)練,這確保了用于模型學(xué)習(xí)的數(shù)據(jù)既準(zhǔn)確又容易理解。

對(duì)于非推理數(shù)據(jù),比如:寫故事或者角色扮演,團(tuán)隊(duì)用了另一個(gè)模型(DeepSeek-V2.5)來生成回答,然后讓人工檢查這些回答是否準(zhǔn)確和合適。這兩個(gè)步驟,報(bào)告中稱之為“評(píng)價(jià)標(biāo)準(zhǔn)”。

最后,DeepSeek團(tuán)隊(duì)對(duì)DeepSeek-V3-Base進(jìn)行了兩個(gè)時(shí)期的微調(diào),采用了從5×10-6到1×10-6的“余弦衰減學(xué)習(xí)率調(diào)度”。

在訓(xùn)練期間,每個(gè)序列都由多個(gè)樣本組成,但他們采用了“樣本屏蔽策略”,確保示例相互獨(dú)立,這是一種“開放評(píng)估”的模型。

通過這些后訓(xùn)練步驟,DeepSeek-V3能夠在實(shí)際應(yīng)用中做到更加精準(zhǔn),就像完成基礎(chǔ)訓(xùn)練后,再給它進(jìn)行一些專業(yè)技能的培訓(xùn)。

他們給它起的名字叫“生成獎(jiǎng)勵(lì)模型”,這讓它不僅是一個(gè)學(xué)習(xí)者,還成為了一個(gè)評(píng)委;如此周而復(fù)始,建立一套正向反饋機(jī)制。

那么,通過這套模型訓(xùn)練出來的成果如何呢?

DeepSeek-V3做了一系列的全面基準(zhǔn)測試,這些測試相當(dāng)于給超級(jí)大腦出了一套標(biāo)準(zhǔn)化的試卷,看看它在各個(gè)科目上能得多少分。這些科目包括教育知識(shí)、語言理解、編程技能、數(shù)學(xué)問題解決等。

在數(shù)學(xué)推理上:

在MATH-500測試中,DeepSeek-V3得了90.2分,這個(gè)分?jǐn)?shù)不僅比所有開源競爭對(duì)手高,比如Qwen 2.5的80分和Llama 3.1的73.8分,也超過了閉源模型GPT-4o的74.6分。

在MGSM(小學(xué)數(shù)學(xué))測試中,DeepSeek-V3得了79.8分,超過了Llama 3.1的69.9分和Qwen 2.5的76.2分。在CMath(中國數(shù)學(xué))測試中,DeepSeek-V3得了90.7分,比Llama 3.1的77.3分和GPT-4o的84.5分都要好。

圖解:DeepSeek-V3基準(zhǔn)測試數(shù)據(jù)‍

在編程和編碼能力方面:

在LiveCodeBench測試中,DeepSeek-V3的通過率達(dá)到了37.6%,領(lǐng)先于Llama 3.1的30.1%和Claude 3.5 Sonnet的32.8%。

在HumanEval-Mul測試中,DeepSeek-V3得了82.6%,比Qwen 2.5的77.3%高,并且和GPT-4o的80.5%差不多。在CRUXEval-I測試中,DeepSeek-V3得了67.3%,明顯優(yōu)于Qwen 2.5的59.1%和Llama 3.1的58.5%。

在多語言和非英語任務(wù)上:

在CMMLU(中文多語言理解)測試中,DeepSeek-V3得了88.8分,超過了Qwen 2.5的89.5分,并且領(lǐng)先于Llama 3.1的73.7分。

在C-Eval,中國評(píng)估基準(zhǔn)測試中,DeepSeek-V3得了90.1分,遠(yuǎn)遠(yuǎn)領(lǐng)先于Llama 3.1的72.5分。

其他數(shù)據(jù)還有很多,總的來說,DeepSeek-V3成績遙遙領(lǐng)先;對(duì)了,還有一句要提的是:DeepSeek-V3的訓(xùn)練成本只有557.6萬美元,這只是訓(xùn)練Meta的Llama 3.1所需估計(jì)的5億美元的一小部分。

所以,DeepSeek-V3新的模型結(jié)構(gòu),無疑是如今人工智能領(lǐng)域中一次新的變革。高效、省力、省成本;難怪連OpenAI的前首席科學(xué)家Andrej Karpathy也表示,這是一次“令人印象深刻的展示”。

如果DeepSeek-V3在資源有限的情況下,都能表現(xiàn)出如此卓越的工程能力,以后是不是不需要大型GPU集群了?這個(gè)問題值得我們思考。

(來源王智遠(yuǎn))

標(biāo)簽:DeepSeek-V3 我要反饋 
泰科電子ECK、ECP系列高壓直流接觸器白皮書下載
優(yōu)傲機(jī)器人下載中心
億萬克
專題報(bào)道
2025世界人工智能大會(huì)
2025世界人工智能大會(huì)

2025世界人工智能大會(huì)暨人工智能全球治理高級(jí)別會(huì)議(簡稱“WAIC 2025”)將于7月在上海世博中心和世博展覽館舉行... [更多]

加入全球AI浪潮第一現(xiàn)場
加入全球AI浪潮第一現(xiàn)場

2025世界人工智能大會(huì)暨人工智能全球治理高級(jí)別會(huì)議將于7月26日至28日在上海世博中心和世博展覽館舉辦,本屆大會(huì)主題為... [更多]

聚力同行 · 新智“碳”索
聚力同行 · 新智“碳”索

“新華社-智能·零碳”項(xiàng)目策劃以“聚力同行·新智‘碳’索”為主題的新能源專題,主要圍繞光伏、儲(chǔ)能、鋰電、氫能、風(fēng)能五大新... [更多]