Maskininlärningsbaserad observerbarhet och diagnostik i framtida nätverk och mobila kantmoln

Doktorandprojekt Detektering och diagnos av systemproblem, t.ex. avbrott, fel eller försämrad servicenivå, är viktigt i storskaliga system på grund av dess påverkan på slutanvändarens upplevelse och varumärkes rykte.

Förutom intäktsförluster krävs stora ansträngningar för att identifiera potentiella grundorsaker innan en lösning kan genomföras. Förmågan att observera systemens beteende och utföra diagnostik är dock en utmaning för storskaliga system och ännu mer för geografiskt distribuerade system som telekomnät och mobila kantmoln. Detta industridoktorandprojekt är ett samarbete med Tietoevry i Umeå.

Projektansvarig

Erik Elmroth Professor

E-post

090-786 69 86

Projektöversikt

Projektperiod:

2018-01-01 – 2022-12-31

Finansiering

Knut and Alice Wallenberg Foundation / WASP – Wallenberg AI, Autonomous Systems and Software Program, 3.600.000 kr.

Medverkande institutioner och enheter vid Umeå universitet

Institutionen för datavetenskap

Forskningsområde

Datavetenskap

Projektmedlemmar

Monowar Bhuyan Universitetslektor

E-post

090-786 67 05

Projektbeskrivning

Forskningen kommer att med ett analysdrivet tillvägagångssätt ta itu med observerbarhet och problem genom förbättrad systemsynlighet och felsökning i stora och dynamiska system som mobila kantmoln och mobilnät. Vi kommer att fokusera på instrumentering, datainsamling, systemmodellering och analys, för att driva automatisering av avvikelsedetektering och diagnos genom att utnyttja maskininlärningstekniker och BigData-plattformar. Målet är att möjliggöra kortare ledtid, förbättra användarupplevelsen och minimera behovet av experter på problemdiagnos.

Projektets inledande fas kommer att fokusera på synlighet, det vill säga att ta itu med de grundläggande frågorna om vad och hur man instrumenterar, hur ofta data ska samlas in och hur det ska aggregeras, samt hur det övergripande systemet ska modelleras. Den decentraliseringsnivå som krävs för att stödja distribuerad lagring och analys kommer också att undersökas. Med distribuerade lagrings- och strömningsramar som Apache Storm1, Spark2 och Hadoop3 är det nu möjligt att bearbeta stora datauppsättningar i realtid från olika källor med låg beräkning och lagringskostnad.

Projektets andra fas behandlar observerbarhet genom proaktiv autonom anomaliedetektering. Enligt vår omfattande undersökning av forskningsområdet, flyttar nuvarande forskningsfokus bort från enkla tröskelbaserade varningar och applikationsspecifika modelleringsmetoder, mot sofistikerade datadrivna tekniker som står för många fler KPI:er och inneboende tidsbeteende. Tekniker baserade på övervakad inlärning fungerar dock dåligt i dynamisk miljö, eftersom de kanske inte känner igen ett nytt systembeteende eller arbetar med omärkta spår.

Visionen med detta proaktiva tillvägagångssätt är att innovativt kombinera maskininlärning och prognostekniker för att stödja avvikelsedetektering. Tidsserieanalys, ARIMA och probabilistiska modeller, t.ex. Bayesianska nätverk och Hidden Markov-modeller, kommer att undersökas för att förutsäga framtida tillstånd för KPI:er [5], överhängande avvikelser och systemnivåproblem (t.ex. flaskhalsar och fel). Kontinuerlig benchmarking kommer att utföras för att ta fram baslinjeprofiler för systemet i olika sammanhang medan lämplig inlärningsteknik utan övervakning kommer att användas för att upptäcka förändringar i relevanta KPI:er och för att avgöra när systemmodeller ska uppdateras.

Projektets tredje fas behandlar automatiserad diagnostik. Medan befintliga tillvägagångssätt mestadels fokuserar på att upptäcka onormala förändringar i metriska värden för att identifiera misstänkta mätvärden, är den största utmaningen att identifiera faktiska komponenter eller noder i infrastrukturen. Eftersom problem manifesteras olika beroende på utförandets kontext och arbetsbelastning är det viktigt att skilja mellan potentiella orsaker för att rekommendera rätt korrigerande åtgärd. Fokus är att ta itu med diagnostikproblemet genom automatisk multi-layer root-cause attribution och en root- cause analys genom att använda grafteoretiska tekniker för att utforska rumsliga beroenden i nätverket och AI, t.ex. Fuzzy Logic och Probabilistic resonemang, för att utnyttja expert- och domänkunskap.

Senast uppdaterad: 2024-05-02