面對智算應(yīng)用的大規(guī)模部署,用戶的IT開支正在向GPU傾斜。在大模型訓練的成本構(gòu)成中,硬件投資包括算力、運力、存力,其中算力相關(guān)硬件投資占比80%。一個千億級參數(shù)的大模型,往往需要上萬顆GPU的算力,可在實際訓練過程中,GPU的平均利用率卻不足50%。制約因素包括大模型參數(shù)需要頻繁調(diào)優(yōu)、訓練中斷后恢復(fù)周期長、數(shù)據(jù)加載速度慢等等。如何確保智算系統(tǒng)高效運行?加速算力的同時,提升數(shù)據(jù)供給能力,或許是當下應(yīng)對智算挑戰(zhàn)的最優(yōu)解。
大模型需要什么樣的存儲性能?
一次完整的AI大模型訓練流程,通常分為數(shù)據(jù)集準備、模型開發(fā)、模型訓練、模型推理幾個階段。其中每個階段對數(shù)據(jù)存儲的性能需求并不十分一致,屬于混合復(fù)雜異構(gòu)的工作負載,要求數(shù)據(jù)存儲系統(tǒng)提供強大的綜合性能表現(xiàn)。
舉例來說,數(shù)據(jù)集準備階段,涉及到不同終端、不同來源的大量數(shù)據(jù),來源豐富且規(guī)模巨大,這些數(shù)據(jù)都需要存儲到系統(tǒng)中,需要數(shù)據(jù)存儲提供較大的帶寬性能和高吞吐能力;此外,在長時間訓練模型時,需要定期將階段性的訓練成果寫入硬盤,這個過程即Checkpoint,這個過程對存儲系統(tǒng)的小文件讀寫性能和帶寬性能都要求非常高,如果存儲系統(tǒng)性能不足,就會出現(xiàn)加載效率低,GPU空等的情況,從而拉低整個訓練效率。
強悍存力,提升智算系統(tǒng)算力利用率
基于新一代傲擎平臺的新華三AI數(shù)據(jù)存儲平臺H3C UniStor Polaris X20000系列,通過對存儲軟件棧進行重構(gòu)和優(yōu)化,大幅精簡系統(tǒng)無效IO,優(yōu)化數(shù)據(jù)讀寫路徑,單節(jié)點性能就可實現(xiàn)80GB帶寬和200萬IOPS,大幅提升不同階段的數(shù)據(jù)加載效率,可以減少30%的訓練等待時間,保障智算系統(tǒng)的有效算力供給。
Polaris X20000系列通過多項技術(shù)革新提升在智算場景下的性能體驗,包括:
元數(shù)據(jù)性能優(yōu)化
對高性能智算存儲來說,元數(shù)據(jù)管理是至關(guān)重要的部分,將直接影響到文件系統(tǒng)的性能、可擴展性和可靠性。Polaris X20000系列創(chuàng)新性地針對分布式kv數(shù)據(jù)庫進行了優(yōu)化,來支撐整個元數(shù)據(jù)讀寫需求;同時設(shè)計了多級的元數(shù)據(jù)緩存,對元數(shù)據(jù)緩存結(jié)構(gòu)做了針對性精簡,減少內(nèi)存占用,對元數(shù)據(jù)訪問具有極大的加速效果。此外,采取多MDS、元數(shù)據(jù)打散、元數(shù)據(jù)協(xié)程化免鎖等多種元數(shù)據(jù)性能優(yōu)化手段,提升Polaris X20000系列的性能表現(xiàn)。
CPU智能分組
Polaris X20000系列針對AI/HPC 場景做了深度分析和軟件優(yōu)化設(shè)計,對CPU實現(xiàn)智能分組、綁核處理,實現(xiàn)專核專用,避免資源搶占,減少核間調(diào)度,最大程度發(fā)揮CPU性能。
高性能EPC客戶端
同時,通過獨有的高性能EPC客戶端,Polaris X20000系列可同時連接多個存儲節(jié)點,對上層應(yīng)用提供標準POSIX和MPI-IO接口,獲得更好的兼容性和更優(yōu)的性能,多存儲節(jié)點實現(xiàn)IO級負載均衡,最大程度發(fā)揮單節(jié)點性能。
AI訓練綜合負載能力提升
高帶寬:通過RDMA、內(nèi)存零拷貝、EPC、400G網(wǎng)絡(luò)(結(jié)合硬件交換機)提升系統(tǒng)并行訪問能力,實現(xiàn)高帶寬性能;
高IOPS:通過Dcache技術(shù),在小IO讀寫時,先寫入高速緩存層,并通過ROW寫時重定向快照,將多個小IO聚合成為大IO再一次性落盤,提升IOPS性能表現(xiàn);
混合負載優(yōu)化:在 EC邏輯層之上引入加速引擎層,對不同IO實現(xiàn)分組與流控調(diào)度,可同時滿足大IO高帶寬、小IO高IOPS與低時延的“混合負載”需求。
當前,大模型參數(shù)從千億向萬億演進,更大的模型參數(shù)需要更大規(guī)模的算力供給。新華三基于對智算場景的深入理解,對數(shù)據(jù)存儲產(chǎn)品實現(xiàn)持續(xù)優(yōu)化。面向未來,新華三集團將秉持“精耕務(wù)實,為時代賦智慧”的理念,不斷深化“內(nèi)生智能·成就智慧存儲”技術(shù)戰(zhàn)略,充分發(fā)揮自身在數(shù)字領(lǐng)域的創(chuàng)新優(yōu)勢,持續(xù)推動產(chǎn)品的智能進化,攜手百行百業(yè)激發(fā)數(shù)據(jù)潛能,邁向智能新未來。