6月11-12日,以“全棧智算 算存網(wǎng)加速進(jìn)化”為主題的第三屆中國智算中心全棧技術(shù)大會(huì)在上海如期舉行。本屆大會(huì)由開放計(jì)算標(biāo)準(zhǔn)工作委員會(huì)(OCTC)、新一代計(jì)算標(biāo)準(zhǔn)工作委員會(huì)、全國信標(biāo)委算力標(biāo)準(zhǔn)工作組、益企研究院、CDCC聯(lián)合主辦,聚焦算力性能突破、存儲(chǔ)效率革新、網(wǎng)絡(luò)傳輸優(yōu)化等前沿議題,匯聚行業(yè)頂尖專家與技術(shù)領(lǐng)袖,共同探討如何通過架構(gòu)創(chuàng)新、技術(shù)融合與生態(tài)協(xié)同,推動(dòng)智算中心全棧技術(shù)加速演進(jìn)。紫光股份旗下新華三集團(tuán)受邀出席并深度分享智算網(wǎng)絡(luò)技術(shù)創(chuàng)新成果,全面展示在構(gòu)建高效協(xié)同、無損傳輸架構(gòu)方面的最新實(shí)踐,助力客戶夯實(shí)智算中心網(wǎng)絡(luò)底座,釋放更大算力價(jià)值。
新華三集團(tuán)交換機(jī)產(chǎn)品管理部總監(jiān)陳伯超發(fā)表主題演講
多元融合驅(qū)動(dòng)智算網(wǎng)絡(luò)革新
DDC架構(gòu)重塑無損傳輸新范式
隨著AI大模型步入萬億參數(shù)時(shí)代,智算中心對網(wǎng)絡(luò)架構(gòu)、性能與穩(wěn)定性的要求不斷攀升。網(wǎng)絡(luò)雖非算力成本核心,卻已成為影響模型訓(xùn)練效率與算力利用率的關(guān)鍵杠桿。新華三集團(tuán)交換機(jī)產(chǎn)品管理部總監(jiān)陳伯超指出,當(dāng)前智算網(wǎng)絡(luò)正向“異構(gòu)算力兼容”與“復(fù)雜流量敏捷調(diào)度”的雙能力演進(jìn),開源生態(tài)的繁榮加速了流量模式的多樣化,對網(wǎng)絡(luò)帶寬、時(shí)延控制與調(diào)度策略提出前所未有的挑戰(zhàn)。
面向這一變革趨勢,新華三前瞻布局,重磅推出基于DDC(Diversified Dynamic-Connectivity)架構(gòu)的新一代無損網(wǎng)絡(luò)解決方案。該方案融合信元級(jí)交換與Scheduled Fabric核心技術(shù),打通跨交換機(jī)流量調(diào)度瓶頸,面向AI高并發(fā)場景有效化解網(wǎng)絡(luò)擁塞難題。方案支持400G/800G高速接入,具備支撐超7萬卡集群的能力,全面滿足大模型集群化部署需求。權(quán)威測試機(jī)構(gòu)Tolly數(shù)據(jù)顯示,在All-to-All流量模型下,該方案總線帶寬性能較業(yè)界平均水平提升2.5%,在大消息傳輸場景下表現(xiàn)尤為突出。
除了技術(shù)突破,新華三亦積極推動(dòng)行業(yè)標(biāo)準(zhǔn)共建,攜手生態(tài)伙伴基于OSF(人工智能網(wǎng)絡(luò)開放調(diào)度架構(gòu))制定DDC核心標(biāo)準(zhǔn)框架,并在標(biāo)準(zhǔn)中引入對BGP協(xié)議的擴(kuò)展,作為關(guān)鍵調(diào)度信息的通告機(jī)制,支持網(wǎng)元之間的開放協(xié)同。在此基礎(chǔ)上,構(gòu)建開放、解耦的生態(tài)體系,推動(dòng)異構(gòu)設(shè)備間的互聯(lián)互通與高效協(xié)同。該標(biāo)準(zhǔn)聚焦負(fù)載均衡、擁塞控制與網(wǎng)絡(luò)可靠性三大核心能力,加速面向AI場景的智算網(wǎng)絡(luò)架構(gòu)演進(jìn)。
端網(wǎng)協(xié)同
以太網(wǎng)方案賦能國產(chǎn)算力生態(tài)加速發(fā)展
在國產(chǎn)算力生態(tài)持續(xù)演進(jìn)的背景下,如何實(shí)現(xiàn)網(wǎng)絡(luò)與算力的高效協(xié)同,成為建設(shè)新型智算中心的關(guān)鍵。順應(yīng)這一趨勢,新華三推出端網(wǎng)協(xié)同以太網(wǎng)方案,通過全面適配國產(chǎn)化算力生態(tài)、構(gòu)建端側(cè)與網(wǎng)絡(luò)協(xié)同調(diào)優(yōu)機(jī)制,打造“算力×聯(lián)接”的最佳實(shí)踐樣板,為國產(chǎn)智算網(wǎng)絡(luò)的規(guī)?;ㄔO(shè)注入強(qiáng)勁動(dòng)能與信心。
在硬件層面,旗艦交換機(jī)H3C S9825-8C-G基于全國產(chǎn)芯片與元器件打造,具備高帶寬、強(qiáng)兼容性與多場景適配能力。產(chǎn)品采用靈活插卡設(shè)計(jì),實(shí)現(xiàn)端口速率從200G向800G的平滑演進(jìn),并全面支持RoCE協(xié)議,為國產(chǎn)智算網(wǎng)絡(luò)的大規(guī)模部署奠定堅(jiān)實(shí)基礎(chǔ)。結(jié)合新華三全棧自研的服務(wù)器與存儲(chǔ)產(chǎn)品,構(gòu)建出性能卓越、協(xié)同高效的一體化智算方案,助力新型智算中心加速落地與規(guī)?;l(fā)展。
在算法層面,新華三端網(wǎng)協(xié)同方案整合網(wǎng)絡(luò)與網(wǎng)卡信息,基于增強(qiáng)版CBRC算法引入網(wǎng)絡(luò)狀態(tài)參數(shù),實(shí)現(xiàn)更精準(zhǔn)的流量調(diào)度,在緩解擁塞的同時(shí)提升訓(xùn)練效率;端側(cè)流控機(jī)制可聯(lián)動(dòng)網(wǎng)卡配置,動(dòng)態(tài)響應(yīng)鏈路狀態(tài)變化,加快問題恢復(fù),降低停機(jī)風(fēng)險(xiǎn)。整體方案通過在網(wǎng)卡側(cè)優(yōu)化哈希參數(shù),從而提升ECMP多路徑的鏈路利用率與負(fù)載均衡能力;同時(shí)結(jié)合流控反饋實(shí)現(xiàn)帶寬調(diào)節(jié)與擁塞控制,進(jìn)一步增強(qiáng)網(wǎng)絡(luò)的感知能力與調(diào)優(yōu)效率,全面提升整體性能表現(xiàn)。在Llama3 70B測試模型中,新華三基于全棧自主產(chǎn)品構(gòu)建的一體化智算方案,聯(lián)合AD-DC智算版開展聯(lián)動(dòng)測試。結(jié)果顯示,端網(wǎng)協(xié)同方案在高負(fù)載、大流量場景下整體性能較傳統(tǒng)ECMP提升超16%,展現(xiàn)出強(qiáng)勁的應(yīng)用潛力。
長距RDMA方案
加速算力跨域流動(dòng)
除了集群內(nèi)的無損傳輸外,跨域算力流動(dòng)同樣對網(wǎng)絡(luò)穩(wěn)定性提出了更高挑戰(zhàn)。鏈路距離拉長后,傳統(tǒng)的擁塞感知和通告機(jī)制面臨響應(yīng)延遲、調(diào)整周期過長等問題,導(dǎo)致流量控制不及時(shí),業(yè)務(wù)頻繁出現(xiàn)速率波動(dòng),嚴(yán)重影響穩(wěn)定性與訓(xùn)練效率。針對這一痛點(diǎn),新華三推出長距RDMA優(yōu)化方案,由網(wǎng)絡(luò)設(shè)備代替接收端主動(dòng)探測流量并提前發(fā)送擁塞通知,顯著縮短降速響應(yīng)周期,實(shí)現(xiàn)了對原始業(yè)務(wù)流的透明處理,確保接收端無感知、不干擾,保障業(yè)務(wù)連續(xù)性。實(shí)測數(shù)據(jù)顯示,該方案在跨域鏈路中可將響應(yīng)時(shí)間提升約81.4%,吞吐量提升約11%,有效支撐跨地域智算資源的高效協(xié)同。
展望未來,隨著AI驅(qū)動(dòng)的算力需求持續(xù)攀升,新華三將堅(jiān)定以技術(shù)創(chuàng)新與生態(tài)聯(lián)動(dòng)為核心動(dòng)力,不斷釋放算力與網(wǎng)絡(luò)的協(xié)同潛能,助力構(gòu)建更智能、高效、開放的智算生態(tài),為數(shù)字經(jīng)濟(jì)發(fā)展注入強(qiáng)勁動(dòng)力。
(來源:新華三)