大數(shù)據(jù)

200萬IOPS突破傳統(tǒng)存儲(chǔ)瓶頸!Polaris定義智算數(shù)據(jù)讀寫新基準(zhǔn)

ainet.cn   2025年04月16日

在智算時(shí)代,AI技術(shù)的迅猛發(fā)展不斷突破數(shù)據(jù)處理能力的邊界,存儲(chǔ)系統(tǒng)的性能已成為制約大規(guī)模AI訓(xùn)練效率的關(guān)鍵瓶頸。其中,IOPS(每秒讀取次數(shù))作為衡量存儲(chǔ)性能的核心指標(biāo)之一,直接決定了系統(tǒng)處理海量數(shù)據(jù)請(qǐng)求的能力。尤其在自然語言模型訓(xùn)練等場(chǎng)景中,動(dòng)輒百萬級(jí)的小文件高頻讀取需求,使得傳統(tǒng)存儲(chǔ)架構(gòu)面臨前所未有的挑戰(zhàn)。這種突破物理介質(zhì)極限的性能要求,不僅重新定義了智算時(shí)代存儲(chǔ)系統(tǒng)的能力標(biāo)準(zhǔn),更催生了分布式存儲(chǔ)架構(gòu)的創(chuàng)新革命。

AI訓(xùn)練為什么需要百萬IOPS

近年來,AI領(lǐng)域取得了顯著的發(fā)展,成為廣泛關(guān)注的熱點(diǎn)。AI的工作負(fù)載主要由兩個(gè)關(guān)鍵階段組成:訓(xùn)練和推理。在訓(xùn)練階段,存儲(chǔ)系統(tǒng)的性能對(duì)于整體效率至關(guān)重要,特別是在兩個(gè)方面:訓(xùn)練數(shù)據(jù)的加載和檢查點(diǎn)(checkpoint)的保存。檢查點(diǎn)是一組GB到TB級(jí)不等的大文件,快速保存檢查點(diǎn)對(duì)存儲(chǔ)的要求是提供高帶寬能力。那么訓(xùn)練數(shù)據(jù)的特點(diǎn)是什么?對(duì)存儲(chǔ)的要求又是什么?

以H100和A100推薦存儲(chǔ)性能為例,可以更清晰地了解AI服務(wù)器在處理自然語言模型時(shí)對(duì)存儲(chǔ)系統(tǒng)的要求。在自然語言處理任務(wù)中,數(shù)據(jù)集通常由大量小文本文件組成,平均文件大小約為2KB。對(duì)于A100單節(jié)點(diǎn)AI服務(wù)器,其推薦的讀帶寬為2GB/s。這意味著,為了充分利用這一帶寬,系統(tǒng)需要每秒處理多達(dá)100萬個(gè)小文件的讀取操作。

同樣,H100單節(jié)點(diǎn)AI服務(wù)器在滿帶寬條件下的需求更為顯著,每秒需要讀取多達(dá)200萬個(gè)小文件。這些數(shù)據(jù)表明,AI服務(wù)器在自然語言模型訓(xùn)練中對(duì)存儲(chǔ)系統(tǒng)提出了極高的性能要求,尤其是在小文件的高頻讀取方面。存儲(chǔ)系統(tǒng)必須具備極高的并發(fā)處理能力和低延遲,以確保在如此高的文件訪問頻率下仍能保持穩(wěn)定和高效的性能。

超百萬IOPS是如何煉成的

處理海量小文件的讀寫操作通常會(huì)帶來高額的I/O開銷和沉重的元數(shù)據(jù)管理負(fù)擔(dān)。在這些操作中,元數(shù)據(jù)處理往往占據(jù)了很大的比例,可能達(dá)到整體操作的70%至80%。這使得元數(shù)據(jù)性能成為限制系統(tǒng)IOPS的主要瓶頸之一。

為應(yīng)對(duì)這一挑戰(zhàn),Polaris系統(tǒng)引入了一種高效的元數(shù)據(jù)管理框架,能夠提供百萬級(jí)的IOPS性能。首先,Polaris采用了一種全局分散的元數(shù)據(jù)處理策略,將元數(shù)據(jù)均勻分布到多個(gè)節(jié)點(diǎn)進(jìn)行處理。這種方法有效地消除了單點(diǎn)瓶頸,極大地提高了系統(tǒng)的并發(fā)處理能力。

其次,Polaris引入了全局共享的分布式緩存策略,為業(yè)務(wù)I/O提供了一個(gè)共享的分布式緩存加速資源池。用戶的寫請(qǐng)求在被寫入該緩存池后立即返回成功確認(rèn),從而顯著提升了請(qǐng)求的響應(yīng)速度。在數(shù)據(jù)落盤時(shí),Polaris通過ROW(Redirect-on-write:寫時(shí)重定向)技術(shù),將隨機(jī)的小I/O操作聚合成大I/O進(jìn)行順序?qū)懭搿_@不僅有效地減少了EC(糾刪碼)場(chǎng)景下的寫懲罰,還降低了元數(shù)據(jù)操作次數(shù)及CPU的開銷,同時(shí)減少了容量浪費(fèi)。

這些技術(shù)應(yīng)用顯著提升了Polaris在處理小文件時(shí)的性能表現(xiàn),使其能夠更高效地應(yīng)對(duì)海量小文件操作帶來的挑戰(zhàn)。

全局分散的元數(shù)據(jù)處理方式:

● MDS(元數(shù)據(jù)服務(wù))采用全主模式,每個(gè)元數(shù)據(jù)節(jié)點(diǎn)提供n個(gè)VMDS服務(wù)。

● 每個(gè)VMDS處理歸屬自己的元數(shù)據(jù),處理能力隨硬件資源提升線性提升。

● 目錄A創(chuàng)建后,系統(tǒng)會(huì)為其自動(dòng)生成x個(gè)虛擬目錄

● 虛擬目錄通過hash算法隨機(jī)打散到VMDS上。每個(gè)虛擬目錄對(duì)應(yīng)固定的VMDS服務(wù)(假設(shè)虛擬目錄1對(duì)應(yīng)的元數(shù)據(jù)服務(wù)是VMDS n)。

● 當(dāng)向目錄A寫入文件file1時(shí),系統(tǒng)會(huì)根據(jù)file1的文件名稱計(jì)算落到哪個(gè)虛擬目錄(假設(shè)落到虛擬目錄1),file1的元數(shù)據(jù)處理就自動(dòng)分配到VMDS n。

全局分布式緩存&ROW技術(shù):

● 業(yè)務(wù)主機(jī)下發(fā)的小IO寫入分布式緩存后,即返回完成,縮短IO路徑。

● 數(shù)據(jù)在分布式緩存中,隨機(jī)小IO通過ROW技術(shù)聚合成大IO順序落盤。EC場(chǎng)景則聚合成滿條帶寫入持久化介質(zhì)。避免了未滿條帶的情況下帶來的寫懲罰,無需將原有數(shù)據(jù)讀出后計(jì)算新的校驗(yàn)位再寫入。減少了元數(shù)據(jù)的操作次數(shù)和CPU開銷,從而提升了系統(tǒng)性能。

伴隨著AI的快速發(fā)展,高效的數(shù)據(jù)存儲(chǔ)系統(tǒng)必將成為AI訓(xùn)練增效的下一個(gè)引擎。新華三的Polaris全閃分布式存儲(chǔ)系統(tǒng),憑借其超強(qiáng)性能、架構(gòu)簡(jiǎn)化和極致穩(wěn)定性,為更多企業(yè)和用戶提供了便捷、高效的AI存儲(chǔ)解決方案,推動(dòng)數(shù)據(jù)存儲(chǔ)、AI計(jì)算和大模型訓(xùn)練的高效協(xié)同,為AI創(chuàng)新注入新的活力。

(來源:新華三)

標(biāo)簽:新華三 我要反饋 
泰科電子ECK、ECP系列高壓直流接觸器白皮書下載
ABB協(xié)作機(jī)器人,自動(dòng)化從未如此簡(jiǎn)單
優(yōu)傲機(jī)器人下載中心
億萬克
專題報(bào)道
聚力同行 · 新智“碳”索
聚力同行 · 新智“碳”索

“新華社-智能·零碳”項(xiàng)目策劃以“聚力同行·新智‘碳’索”為主題的新能源專題,主要圍繞光伏、儲(chǔ)能、鋰電、氫能、風(fēng)能五大新... [更多]

2025中國(guó)國(guó)際機(jī)床展覽會(huì)
2025中國(guó)國(guó)際機(jī)床展覽會(huì)

4月21至26日,以“融合創(chuàng)新,數(shù)智未來”為主題的第十九屆中國(guó)國(guó)際機(jī)床展覽會(huì)在首都國(guó)際會(huì)展中心盛大舉辦。憑借場(chǎng)館的卓越服... [更多]

2023-2024 智能·零碳成果展映
2023-2024 智能·零碳成果展映

“2023-2024智能·零碳成果展映”展示國(guó)內(nèi)外企業(yè)推進(jìn)“雙碳”實(shí)踐的最新成果,鼓勵(lì)更多企業(yè)、科研機(jī)構(gòu)、投資機(jī)構(gòu)等廣泛... [更多]