網(wǎng)絡(luò)數(shù)智化是指人工智能、大數(shù)據(jù)技術(shù)與通信網(wǎng)絡(luò)的硬件、軟件、系統(tǒng)、流程等深度融合,而利用AI、大數(shù)據(jù)技術(shù)助力通信網(wǎng)絡(luò)運維數(shù)智化,是實現(xiàn)自動駕駛網(wǎng)絡(luò)高階能力的基石。國務(wù)院國資委《關(guān)于加快推進國有企業(yè)數(shù)字化轉(zhuǎn)型工作的通知》系統(tǒng)闡明了國有企業(yè)數(shù)字化轉(zhuǎn)型的基礎(chǔ)、方向、重點和舉措,“上云用數(shù)賦智”貫穿始終。
中國移動(600941)數(shù)字化戰(zhàn)略進程逐步推進,對網(wǎng)絡(luò)的訪問質(zhì)量、靈活調(diào)度、可靠性等特性提出更高的要求,以算力網(wǎng)絡(luò)為代表的基礎(chǔ)設(shè)施更是以“數(shù)字時代新能源”為目標,要求具備相應(yīng)的數(shù)字化網(wǎng)絡(luò)支撐能力。
運維領(lǐng)域網(wǎng)絡(luò)故障診斷技術(shù)分析
通過對行業(yè)內(nèi)頭部企業(yè)和專業(yè)公司的走訪、調(diào)研、交流,筆者發(fā)現(xiàn)行業(yè)內(nèi)網(wǎng)絡(luò)故障診斷技術(shù)主要分為兩類:一類是主動探測技術(shù),例如端到端探針埋點;另一類是被動探測技術(shù),包括旁路分析、帶內(nèi)報文染色。
端到端探針埋點
端到端探針埋點是通過部署在不同網(wǎng)絡(luò)區(qū)域、設(shè)備下的探針,進行雙向業(yè)務(wù)及網(wǎng)絡(luò)測試,生成端到端的SLA報告,根據(jù)異常探針位置定位某一段網(wǎng)絡(luò)故障。該模式存在以下不足:一是復(fù)雜數(shù)據(jù)中心網(wǎng)絡(luò)部署難度大,通用性低;二是缺少與網(wǎng)絡(luò)設(shè)備的數(shù)據(jù)交互。
帶內(nèi)報文染色
網(wǎng)絡(luò)故障發(fā)現(xiàn)、定界、定位主要依賴帶內(nèi)報文染色、撥測流多因子關(guān)聯(lián)分析,帶內(nèi)報文染色利用診斷模型對數(shù)據(jù)進行挖掘、交叉分析,選出故障概率最高的網(wǎng)元及根因。但報文染色特性對設(shè)備兼容性要求高,在電信運營、政務(wù)、交通、金融等領(lǐng)域難落地,可推廣性不強。
本文提出基于知識圖譜AI算法,以真實業(yè)務(wù)流、撥測流中國移動IT云資源池網(wǎng)絡(luò)故障診斷的探索和實踐異常檢測為故障觸點,結(jié)合異常流的訪問路徑、資產(chǎn)、組網(wǎng)特征等關(guān)聯(lián)屬性,進行交叉共性分析、故障場景模型匹配,從而實現(xiàn)故障網(wǎng)元自動定界定位。
網(wǎng)絡(luò)故障智能診斷體系
中國移動IT云數(shù)據(jù)中心的網(wǎng)絡(luò)數(shù)智化運維依托云網(wǎng)絡(luò)基礎(chǔ)設(shè)施,結(jié)合運維大數(shù)據(jù),構(gòu)建數(shù)字化網(wǎng)絡(luò)平面,打造了一個以感知、定位、決策為核心路徑的網(wǎng)絡(luò)自動駕駛平臺。以真實業(yè)務(wù)流、撥測流異常檢測為故障觸點,結(jié)合異常流的訪問路徑、資產(chǎn)、組網(wǎng)特征等關(guān)聯(lián)屬性,進行交叉共性分析,自動感知資源池全局到局部的異常狀態(tài),自動定位故障發(fā)生的網(wǎng)絡(luò)節(jié)點,匹配故障決策場景,實現(xiàn)網(wǎng)絡(luò)自動駕駛。網(wǎng)絡(luò)故障診斷流程如圖1所示。
![]()
網(wǎng)絡(luò)流采集
網(wǎng)絡(luò)流采集運用報文分析技術(shù),實現(xiàn)原理為:數(shù)據(jù)中心中的每個網(wǎng)絡(luò)節(jié)點包含n個應(yīng)用服務(wù),應(yīng)用間調(diào)用依賴網(wǎng)絡(luò)節(jié)點的數(shù)據(jù)包轉(zhuǎn)發(fā)。通過在網(wǎng)絡(luò)中的關(guān)鍵節(jié)點配置端口鏡像,如防火墻、負載均衡器、匯聚節(jié)點等,將業(yè)務(wù)流量切片,接入到鏡像交換機,分析服務(wù)器采集鏡像交換機中的鏡像報文,分析應(yīng)用在每個關(guān)鍵節(jié)點上TCP/UDP層的行為,生成時延、成功率、數(shù)量等顯性指標。
網(wǎng)絡(luò)流分類
網(wǎng)絡(luò)流的統(tǒng)計分類可以基于生產(chǎn)環(huán)境運維過程中的故障輻射范圍,從云資源池、POD內(nèi)、POD外,到網(wǎng)絡(luò)平面、VPC,也可以靈活自定義分類。
報文在網(wǎng)絡(luò)中的流轉(zhuǎn)分為業(yè)務(wù)路徑及網(wǎng)絡(luò)路徑。
業(yè)務(wù)路徑:每個業(yè)務(wù)系統(tǒng)由若干功能模塊組成,每個功能模塊由若干應(yīng)用服務(wù)組成,而系統(tǒng)內(nèi)所有應(yīng)用服務(wù)間的調(diào)用邏輯組成了系統(tǒng)業(yè)務(wù)路徑。
網(wǎng)絡(luò)路徑:每個應(yīng)用服務(wù)的一次調(diào)用,在網(wǎng)絡(luò)中形成一對五元組的流,將流從源地址到目標地址訪問過程中的每一次轉(zhuǎn)發(fā)匯總,形成一條網(wǎng)絡(luò)路徑。
異常流檢測
在分析研究網(wǎng)絡(luò)流實測數(shù)據(jù)特征后,本文采用ARIMA模型算法來做異常檢測。該模型相較于一元線性回歸模型,對多因素、復(fù)雜的問題解釋性高;相較于ARMA模型,可以將非平穩(wěn)時間序列轉(zhuǎn)換為平穩(wěn)的時間序列;相較于SARIMA模型,網(wǎng)絡(luò)流的數(shù)據(jù)不具有季節(jié)性變化。
構(gòu)建模型需要提取每個指標的歷史數(shù)據(jù),剔除負面歷史數(shù)據(jù),根據(jù)每周期移動平均值、每周期差分系數(shù)、每波動周期趨勢系數(shù),生成各類指標的預(yù)測值、上波動值、下波動值。
同時在實際生產(chǎn)過程中,指標預(yù)測容易因瞬時值、故障值變化導(dǎo)致數(shù)據(jù)失真,因此應(yīng)采用“削峰去谷”、異常標注等方法,提高樣本精準度。
“削峰去谷”:將樣本自定義n個周期,每周期內(nèi)剔除m%的峰、谷指標,剔除的指標根據(jù)樣本補齊算法自動替換。
異常標注:根據(jù)指標的告警、恢復(fù)周期,自動標識并剔除異常指標,根據(jù)樣本補齊算法自動替換。
故障定位
常用的網(wǎng)絡(luò)故障管理方法有模糊邏輯檢測、專家診斷、神經(jīng)網(wǎng)絡(luò)系統(tǒng)檢測診斷和各種智能化診斷等。由于這些方法各有優(yōu)劣,所以在應(yīng)用中大多結(jié)合使用。
本文提出的方案以異常撥測流數(shù)據(jù)為觸點,通過網(wǎng)絡(luò)路徑的共性分析,得到撥測流路徑中交叉網(wǎng)元信息,計算網(wǎng)元中異常流與正常流的占比,得到故障網(wǎng)元的概率分布。
基于路由表項、策略引流配置,自動生成每條探測流之間經(jīng)過的網(wǎng)元,當異常流產(chǎn)生時,根據(jù)交叉網(wǎng)元經(jīng)過的異常流與正常流占比,推算共性網(wǎng)元的故障概率。
假設(shè)某個POD1內(nèi)有4個異常流,分別命名為POD1-1、POD1-2、POD1-3、POD1-4,展開每個異常撥測流訪問路徑,包括二層路徑、三層路徑以及路徑中經(jīng)過的每個網(wǎng)元節(jié)點,根據(jù)路徑中的交叉性、入網(wǎng)屬性、歸一性,以及異常占比,計算共性網(wǎng)元的故障概率,取故障概率最高值定義為故障共性網(wǎng)元。
故障場景匹配
故障網(wǎng)元定位出來后,需要幫助運維人員縮短故障處理時間,本文引入知識圖譜模型;谥R圖譜模型、歷史故障的數(shù)據(jù)特征(如指標趨勢、表項變動頻率、關(guān)聯(lián)網(wǎng)元狀態(tài)等),構(gòu)建仿真驗證的故障場景模型。
本文以網(wǎng)元指標類型、采集方式為維度,構(gòu)建了一個與網(wǎng)元設(shè)備進行數(shù)據(jù)交互的原子用例。運維人員結(jié)合專家知識圖譜,自定義編排、組合原子交互用例,形成各類故障場景特征庫。
在網(wǎng)元與故障場景特征匹配時,通過原子交互用例與網(wǎng)元進行數(shù)據(jù)交互,判斷獲取的指標數(shù)據(jù)是否在故障特征用例取值區(qū)間內(nèi),滿足匹配條件后輸出故障根因與自愈決策建議。
以VRRP雙主場景為例,分析異常網(wǎng)元指標(高丟包率),結(jié)合網(wǎng)元歸屬特征、節(jié)點映射關(guān)系和VRRP雙主場景用例,得出丟包根因“Vlan xx VRRP雙主”。從場景用例可以發(fā)現(xiàn),兩個VRRP主路由器競爭相同的虛擬IP地址,導(dǎo)致地址沖突。同時,VRRP組在主備之間頻繁切換,增加了網(wǎng)絡(luò)時延和丟包率。日志顯示VRRP狀態(tài)的信息,如主備狀態(tài)、切換信息、虛地址列表、版本等。
決策建議
完成故障診斷后,推送決策建議到相關(guān)方。決策內(nèi)容主要分為兩類:匹配知識圖譜的故障處理建議和未匹配知識圖譜的故障定位信息,包括網(wǎng)元路徑、故障網(wǎng)元、源目地址、網(wǎng)元指標等。
本文圍繞網(wǎng)絡(luò)運行質(zhì)量構(gòu)建網(wǎng)絡(luò)故障智能診斷體系,將網(wǎng)絡(luò)運行中依賴的數(shù)據(jù)要素解耦為可觀測指標,結(jié)合機器學(xué)習(xí)、異常檢測、高性能探針、流處理引擎等技術(shù),自動評估網(wǎng)元、網(wǎng)絡(luò)、鏈路、路徑、區(qū)域、租戶、子網(wǎng)健康狀態(tài),結(jié)合知識圖譜場景化構(gòu)建,實現(xiàn)故障快速根因定位。
中國移動通過在IT云試點并積累經(jīng)驗,不斷完善異常檢測模式和故障場景種類,平臺能力已覆蓋IT云區(qū)域中心的所有片區(qū)中心,并逐步推廣至銀行、金融、交通、能源等行業(yè)。
(責(zé)任編輯:admin)(來源:通訊世界網(wǎng),原題《中國移動IT云資源池網(wǎng)絡(luò)故障診斷的探索和實踐》) |