核心網(wǎng),是通信網(wǎng)絡(luò)的大腦,承擔(dān)著網(wǎng)絡(luò)全局資源的調(diào)度及管理。進(jìn)入5G時代,核心網(wǎng)肩上的擔(dān)子更重了,其承載著來自千行百業(yè)的多樣化業(yè)務(wù)需求。如何實現(xiàn)5G時代的核心網(wǎng)高效、低成本和高可靠運(yùn)維,成為了運(yùn)營商及業(yè)界關(guān)注的焦點(diǎn)。那5G時代的核心網(wǎng)運(yùn)維有哪些挑戰(zhàn)?又有哪些新變化呢?
5G時代的核心網(wǎng)運(yùn)維挑戰(zhàn)
運(yùn)維對象規(guī)模和復(fù)雜性急劇上升——不同于以往4G時代,5G時代由于網(wǎng)絡(luò)應(yīng)用深入到多樣化的業(yè)務(wù)場景,網(wǎng)絡(luò)規(guī)模急劇加大。通過切片方式來進(jìn)行業(yè)務(wù)的管理,導(dǎo)致了業(yè)務(wù)也會更加動態(tài)和復(fù)雜,從而讓網(wǎng)絡(luò)管理難度大幅增加;網(wǎng)絡(luò)的管理對象也急劇增多,除了傳統(tǒng)意義上的運(yùn)營商的公網(wǎng),還有各行各業(yè)的行業(yè)用戶專網(wǎng),如何能夠針對不同對象合理化,分域的運(yùn)維,基于各個行業(yè)進(jìn)行SLA保障,也是非常棘手的一個問題;同時,隨著NFV,微服務(wù)架構(gòu)等技術(shù)的不斷引入,網(wǎng)絡(luò)實現(xiàn)了分層解耦,按需部署,但同時也帶來了運(yùn)維復(fù)雜度的上升,故障的定位定界成為了5G時代運(yùn)維極大的挑戰(zhàn);2/3/4/5G時代遺留下來多個獨(dú)立的運(yùn)維入口,也讓原本就復(fù)雜的運(yùn)維工作,變得更加的繁瑣,傳統(tǒng)煙囪式的運(yùn)維團(tuán)隊和流程模式也因數(shù)據(jù)之間相互隔離,流程的非自動化,無法在5G時代繼續(xù)下去。
人力要求和企業(yè)成本的挑戰(zhàn)——與4G主要面向消費(fèi)者市場不同,5G將賦能千行百業(yè),與各行各業(yè)的生產(chǎn)效率、業(yè)務(wù)創(chuàng)新等緊密相關(guān),這要求5G新業(yè)務(wù)能敏捷上線,業(yè)務(wù)發(fā)布將從原來的幾個月縮短到幾天,甚至是小時級,還要求運(yùn)營商提供高SLA的網(wǎng)絡(luò)來保障企業(yè)的生產(chǎn)、業(yè)務(wù)等流程高效穩(wěn)定運(yùn)行,否則可能會給行業(yè)帶來經(jīng)濟(jì)損失,這單靠傳統(tǒng)的人工運(yùn)維模式無法支撐業(yè)務(wù)及網(wǎng)絡(luò)的要求。同時,5G時代不僅網(wǎng)絡(luò)更復(fù)雜,業(yè)務(wù)更多樣化,伴隨著低時延應(yīng)用和行業(yè)專網(wǎng)興起,還將有大量MEC邊緣節(jié)點(diǎn)廣泛分布于網(wǎng)絡(luò)的不同位置,這都將新增大量的上站維護(hù)工作量和運(yùn)維成本,因此,如何最大程度減少Opex,是運(yùn)營商在5G這個新戰(zhàn)場上不得不考慮的問題。
如何破除以上挑戰(zhàn)?
讓網(wǎng)絡(luò)像自動駕駛汽車一樣,自動化,智能化的行駛
在這樣的挑戰(zhàn)背景下,業(yè)界做了很多的探索和嘗試,試圖在方案架構(gòu),運(yùn)維技術(shù),運(yùn)維方式等方面進(jìn)行變革,將自動化,智能化引入5G核心網(wǎng)運(yùn)維。有人提出一個有趣的設(shè)想,我們的網(wǎng)絡(luò)是否可以像自動駕駛汽車一樣,在沒有人干預(yù)的情況下,自動,智能的行駛。這樣的假設(shè)讓業(yè)界產(chǎn)生了很強(qiáng)的共鳴,也展開了無數(shù)的討論,其中比較著名的就是TMF提出的自動駕駛網(wǎng)絡(luò)的5層演進(jìn)節(jié)奏,全面詮釋了網(wǎng)絡(luò)在未來10年的演進(jìn)方向。
來源:自動駕駛網(wǎng)絡(luò)白皮書
這個圖將自動駕駛網(wǎng)絡(luò)的演進(jìn)分為從level0到level5幾個級別,讓我們知道網(wǎng)絡(luò)自動化將會是一個長期的目標(biāo),是一個逐步實現(xiàn)的過程,其中AI的能力也會逐步的引入各個領(lǐng)域?qū)崿F(xiàn)整個演進(jìn)的轉(zhuǎn)變。
那5G時代的核心網(wǎng)運(yùn)維如何逐步實現(xiàn)“自動駕駛”呢?
運(yùn)維架構(gòu)轉(zhuǎn)型
首先需要考慮的是運(yùn)維架構(gòu)層面的改變。
眾所周知,存量網(wǎng)絡(luò)的管理系統(tǒng)多且孤立分散,數(shù)據(jù)相互隔離;管理面能力沒有服務(wù)化,無法按需進(jìn)行靈活的部署,導(dǎo)致了底層資源浪費(fèi);傳統(tǒng)管理面和業(yè)務(wù)網(wǎng)元是分離的,這不符合5G時代核心網(wǎng)網(wǎng)元實時控制,本地自治的訴求。為了解決這些問題,就需要在管理面架構(gòu)上進(jìn)行融合,實現(xiàn)跨域跨代跨平臺跨層的統(tǒng)一管理。就如華為提供的iMaster MAE-CN方案,非常巧妙的將傳統(tǒng)網(wǎng)管,VNFM LCM, NFVO,NSSMF,MEAO及相關(guān)運(yùn)維工具子系統(tǒng)進(jìn)行融合。一方面,這些組件并不是粗暴式的堆疊,而是以微服務(wù)的方式存在,方便客戶按需部署,另一方面,最重要的是它打通了傳統(tǒng)煙囪式的運(yùn)維體系,讓數(shù)據(jù)可無縫互通,不僅能夠讓日常運(yùn)維操作簡單許多,更重要的是增加了發(fā)掘數(shù)據(jù)更多價值的可能性。同時,這些組件都連接著一個智能的調(diào)度引擎,通過系統(tǒng)而靈活的調(diào)度,實現(xiàn)從網(wǎng)絡(luò)設(shè)計,部署,到運(yùn)維、優(yōu)化的端到端的管理,而不僅僅是傳統(tǒng)意義上簡單的運(yùn)維。
AI引入日常監(jiān)控場景——主動預(yù)防實現(xiàn)亞健康狀態(tài)精準(zhǔn)識別
另一個非常重要的轉(zhuǎn)變就是技術(shù)的改變。這里,大部分的廠商都嘗試通用引入AI技術(shù),自動化,智能化的處理核心網(wǎng)運(yùn)維問題。
熟知核心網(wǎng)運(yùn)維的工程師,一定深有體會,在建網(wǎng)初期,工程師要花費(fèi)大量時間逐條進(jìn)行上萬個KPI指標(biāo)對象的閾值設(shè)置,這個閾值是根據(jù)以往的專家經(jīng)驗進(jìn)行設(shè)置,由于是靜態(tài)的閾值,這就給后續(xù)日常監(jiān)控埋下了可能出現(xiàn)誤報,漏報異常的情況的隱患,告警的可信度大打折扣。況且不同子網(wǎng)情況不同,子網(wǎng)間這些閾值的設(shè)置無法復(fù)制,工程師只能通過人工的方式,一個個子網(wǎng)進(jìn)行設(shè)置。最棘手的是異常檢測之后的根因分析,工程師需要人工逐條KPI進(jìn)行故障定位,同時在大量KPI指標(biāo)中篩選出該異常KPI的關(guān)聯(lián)KPI,通過查看關(guān)聯(lián)KPI的測量值,進(jìn)一步定位異常的原因。這樣全程人工主導(dǎo)的運(yùn)維方式,效率提升真的是難上加難。
那如何通過AI技術(shù)去解放工程師日常的運(yùn)維工作呢?
我們從閾值的設(shè)置入手,看看通過AI如何進(jìn)行智能的KPI的異常檢測。剛才我們提到,傳統(tǒng)的閾值設(shè)置是基于專家經(jīng)驗設(shè)定的靜態(tài)閾值,工作量大,也不準(zhǔn)確,隔上一段時間,還需要根據(jù)現(xiàn)網(wǎng)的實際情況進(jìn)行閾值的糾正調(diào)整。這里,華為提出了動態(tài)閾值的概念,如何理解呢?首先,有一個AI的訓(xùn)練模型,每周對現(xiàn)網(wǎng)歷史數(shù)據(jù)進(jìn)行采樣,通過AI算法持續(xù)的去訓(xùn)練校準(zhǔn)這個模型。然后,將現(xiàn)網(wǎng)的實時KPI數(shù)據(jù)導(dǎo)入訓(xùn)練好的模型中,得到動態(tài)閾值范圍,也就是說,當(dāng)網(wǎng)絡(luò)發(fā)生變化時,閾值范圍也會發(fā)生變化,因此,在網(wǎng)絡(luò)出現(xiàn)異常的早期階段,就會有潛在的KPI指標(biāo)超過閾值范圍,系統(tǒng)上報異常。這樣,在某種程度上,可以幫助我們提前發(fā)現(xiàn)網(wǎng)絡(luò)隱患和故障,而不是在主要KPI已經(jīng)異常后去處理故障。
動態(tài)的閾值,能夠精準(zhǔn)的發(fā)現(xiàn)網(wǎng)絡(luò)隱性事故,但是實現(xiàn)運(yùn)維的閉環(huán),還需要智能的對異常情況進(jìn)行分析,快速找到根因。這里,華為提供了一種多指標(biāo)關(guān)聯(lián)分析功能,如果某個KPI指標(biāo)異常了,系統(tǒng)可以按照貢獻(xiàn)度去對相關(guān)的指標(biāo)進(jìn)行排序,工程師可以基于此快速的找到最大貢獻(xiàn)度的KPI,從而快速的定位問題的根因。
AI引入變更操作場景——構(gòu)筑“三道防線”實現(xiàn)機(jī)器值守
除了日常監(jiān)控場景外,重大變更場景也會使用AI。
我們知道,在5G時代,產(chǎn)品版本發(fā)布頻率越來越高。因此,會進(jìn)行大量的重大操作,如普通升級、灰度升級、配置變更、擴(kuò)容等?,F(xiàn)網(wǎng)70%以上的重大事故是由于網(wǎng)絡(luò)變更導(dǎo)致的。一旦異常,對業(yè)務(wù)和用戶體驗影響很大。每年有數(shù)千次的變更,給運(yùn)營商帶來了巨大的挑戰(zhàn)。同時,由于人工操作量大,網(wǎng)絡(luò)異常識別平均耗時5小時。導(dǎo)致在業(yè)務(wù)影響增加時,無法提前分析和發(fā)現(xiàn)異常,這樣就錯過了解決問題的時間窗口。
因此,在這種場景下,工程師希望運(yùn)維方案能夠建立變更前、變更中、變更后三道防線,提前規(guī)避風(fēng)險和問題。
現(xiàn)在,讓我們來看看這個系統(tǒng)是如何工作的。
首先,在變更前,系統(tǒng)自動進(jìn)行在線健康檢查,確保待變更網(wǎng)絡(luò)健康。其次,變更過程中,所有變更準(zhǔn)備和操作均按照規(guī)范自動執(zhí)行。例如,在變更前的計劃中明確每個操作的結(jié)果。這樣,每一步的操作,都可以有依據(jù),方便變更過程中進(jìn)行對比。最后,在變更值守階段,需要持續(xù)實時監(jiān)控網(wǎng)絡(luò)異常情況。這里,華為利用復(fù)合LSTM神經(jīng)網(wǎng)絡(luò)遞歸生成多指標(biāo)關(guān)聯(lián)分析。其將指標(biāo)分為呼叫類指標(biāo)組、注冊類指標(biāo)組、接入類指標(biāo)組等。該算法可以訓(xùn)練每個組,使每個組可以生成出一個關(guān)聯(lián)性。當(dāng)某個異常發(fā)生時,對應(yīng)群組的關(guān)聯(lián)性就會發(fā)生改變。這樣就可以快速定位異常指標(biāo)組。再通過KPI貢獻(xiàn)度,識別出異常KPI。接下來,我們再來看看如何快速定界異常點(diǎn)。其根據(jù)歷史的專家經(jīng)驗,在系統(tǒng)中預(yù)置了很多故障場景;同時,把告警、日志、KPI等多維度因素作為一個事件,與預(yù)置場景進(jìn)行匹配,這樣就能快速定界網(wǎng)絡(luò)異常了。這樣就可以幫助我們快速、及時地定位問題了。
AI的引入,最終實現(xiàn)從被動運(yùn)維到主動運(yùn)維轉(zhuǎn)型
以上分享了兩個引入AI的運(yùn)維場景。不難發(fā)現(xiàn),將AI引入到運(yùn)維的場景后,傳統(tǒng)運(yùn)維方式逐漸發(fā)生了變化。傳統(tǒng)的方式是一種被動的運(yùn)維方式,就是當(dāng)故障已經(jīng)出現(xiàn)了,我們才通過各種各樣的系統(tǒng),方法,以及人工的方式,去盡可能快速準(zhǔn)確的進(jìn)行故障定界定位,從而快速恢復(fù)。而AI的引入,讓我們對運(yùn)維的模式有了新的想法。我們可以基于AI技術(shù)去進(jìn)行主動運(yùn)維,也就是說在故障發(fā)生之前,主動的識別網(wǎng)絡(luò)的風(fēng)險,將網(wǎng)絡(luò)的亞健康問題暴露出來,在它變成故障之前就把它處理掉,而不是等亞健康問題變成故障后,才去解決問題。然后再通過AI技術(shù),快速的定位問題,將風(fēng)險快速識別。
5G讓網(wǎng)絡(luò)自動駕駛成為了焦點(diǎn),而AI的引入加速了網(wǎng)絡(luò)自動駕駛的演進(jìn)。未來的5到10年將是網(wǎng)絡(luò)自動駕駛快速孵化,演進(jìn)的時代,讓我們拭目以待。
(轉(zhuǎn)載)