導讀:隨著無線網絡的發(fā)展和5G的興起,網絡變得更加復雜,中興通訊不斷同運營商加強合作,加速網絡智化技術創(chuàng)新和成果轉化,通過網絡進化、運維進化、運營進化三大進化助力運營商開源節(jié)流、提升效率,助力網絡智能化轉型。
無線網絡關鍵性能指標(KPI)就猶如一把懸空之劍,讓無數運維人和網優(yōu)人為之費心勞神、殫精竭慮。KPI異動往往預示著網絡某個層面出現問題,就好像我們人類出現發(fā)燒,往往可能是身體某處出現炎癥一樣。作為“網絡醫(yī)生”的運維網優(yōu)人,每天面對成百上千KPI變化和大大小小的告警處理,很多時候疲于奔命,對KPI監(jiān)控無法做到精確化和快速化,經常等到用戶投訴了才發(fā)現KPI的異常,才啟動處理流程,十分被動。出現這種情況,非運維網優(yōu)專家不為也,很多時候是真不能也。比如傳統KPI監(jiān)控只能設置靜態(tài)閾值,難以根據區(qū)域/場景以及時間段的不同差異進行區(qū)分,網絡指標異動容易被波動淹沒,人工統計KPI很難判斷,即使發(fā)現問題,再“望、聞、問、切”,逐步定位病根,給出藥方,這周期難免較長,而且對技術人員的技能要求也很高(“老專家”凸顯價值?。?!自然,我們希望有個系統能實時監(jiān)控網絡KPI,對指標異動自動識別并定位引起異動的根因,那面對復雜網絡也能應對自如了。
中興無線智能運維系統借助AI人工智能,通過機器學習(ML:Machine Learning)和專家規(guī)則相結合來實現無線網絡KPI的異常檢測和故障診斷的自動化,相當于一個24小時運行的“網絡健康監(jiān)測和診斷儀”,為網絡醫(yī)生們提供分析數據和根因診斷。
要想解決問題,先要能發(fā)現問題。無線網絡KPI隨著網絡制式及規(guī)模增長,應用場景差異及話務潮汐變化等,數據量變得非常龐大,在海量數據中及時發(fā)現KPI是正常波動還是異常變化,即使對“老專家”來說,也是一個艱巨的挑戰(zhàn)。為降低各種KPI綜合建模的難度,系統引入了基于結構特征的時間序列聚類方法。先通過傅立葉變換,將時間序列分為兩大類,重要周期性和非重要周期性,再基于KPI序列中提取的數個特征,采用k均值算法對每個主類別中的時間序列進行聚類。KPI分類完成后,系統為每個KPI類別選擇適當的時間序列模型,預測KPI在下個時間粒度的正常基線,如果網絡KPI實時測量值超過了在線檢測的基線,能夠在首個時間粒度內及時發(fā)現,也避免因潮汐效應以及網絡基礎條件等差異導致的誤報,漏報。
當系統檢測到KPI異常時,需要快速下鉆分析定位根因,以便于運維人員及時排除故障。智能運維系統采用基于規(guī)則的診斷模塊和基于ML的診斷模塊相結合的異常診斷方法,發(fā)揮中興在無線領域幾十年的經驗積累及AI智能的自我學習能力,實現根因判斷的快速收斂和高準確性,并適應多種復雜場景應用。
如下圖所示,當檢測到的異常是已定義的已知故障時,系統根據關聯告警、操作日志、網絡拓撲和專家規(guī)則庫進行綜合分析,給出根因判斷和故障排查操作建議。
當檢測到的異常是未知故障時,基于ML的診斷模塊使用部分最小二乘回歸算法(PLS:Partial Least Square)進行根因分析和定位,通過對可能原因進行貢獻度分析,找出頂端的根計數器指標作為異常根因判定。
該系統建立在一個輕量化大數據底座上,與傳統部署在集群上的大數據系統不同,輕量化底座所需的硬件資源很少,甚至可以單機運行,但同時保留了傳統大數據系統的功能。這一特性可以使用戶利用現有環(huán)境或在資源受限時也能部署大數據和AI相關功能,大大減少了用戶網絡智能化轉型過程中的探索成本。同時,輕量化底座又有很好的可拓展性,可以從單機平滑拓展成分布式集群環(huán)境,且過程不影響業(yè)務的正常運行,可以將探索成果直接轉化上線。
目前,該功能在山東聯通和中興通訊聯合創(chuàng)新基地通過驗證,現網8萬小區(qū)成功接入無線網絡智能運維平臺,實現網絡KPI異動實時監(jiān)控和根因精準定位分析,大幅縮短KPI異動小區(qū)問題定位和解決時間。這也是業(yè)界首個采用AI算法洞察網絡KPI異動,通過規(guī)則學習和機器學習快速準確定位問題根因,實現端到端閉環(huán)的解決方案。
在驗證期間,某子網LTE的E-RAB建立成功率突然從99.9%下降到99.2%,系統異動根因檢測功能很快發(fā)現并下鉆分析本次異動的根因,快速定位到ID 208203的eNodeB,發(fā)現這個基站的一個小區(qū)的成功率指標下降到0,引發(fā)全網相應指標異常波動。通過告警關聯分析,在KPI異動時間點,小區(qū)出現一次RRU異常導致的退服,后續(xù)的E-RAB空口建立指標全部超時失敗,依據智能系統分析結果,快速得出RRU故障導致本次指標下降異動的結論,整個故障定位分析時間不到10分鐘。而以前通過人工分析,一個有經驗的工程技術人員通過網管統計KPI分析指標異動,關聯告警、日志,下鉆TopN小區(qū)直至找出問題所在,至少得2小時。
隨著無線網絡的發(fā)展和5G的興起,網絡變得更加復雜,中興通訊不斷同運營商加強合作,加速網絡智化技術創(chuàng)新和成果轉化,通過網絡進化、運維進化、運營進化三大進化助力運營商開源節(jié)流、提升效率,助力網絡智能化轉型。