Användning av strukturerad a priori-information vid analys av bilddata

Forskningsprojekt Maskininlärning är en nyckelteknologi inom många forsknings- och utvecklingsområden och står för flera framgångar inom AI. Avsaknaden av stora mängder kvalitativa data är däremot ett återkommande problem inom de flesta tillämpningsområden. Därför behöver man formulera relevanta a priori-fördelningar eller bivillkor, för att kunna lösa de högdimensionella problem som uppstår i modern maskininlärning.

Strukturerade a priori-fördelningar och bivillkor tar detta ett steg längre, genom att inte bara ta hänsyn till enskilda variabler, utan att grupper av variabler ska ha en viss struktur. Med strukturerna öppnas en verktygslåda för att uttrycka domänkunskap som en del av en maskininlärningsmodell. Inom projektet kommer vi att utveckla ett generiskt ramverk med många tillämpningar inom både medicin, naturvetenskap och teknik. Vi utvecklar nya strukturerade a priori-fördelningar, bivillkor och algoritmer för förbättrad tolkningsbarhet, variabelval och osäkerhetsuppskattningar i maskininlärning.

Projektansvarig

Tommy Löfstedt Universitetslektor

E-post

Projektöversikt

Projektperiod:

2022-01-01 – 2025-12-31

Medverkande institutioner och enheter vid Umeå universitet

Institutionen för datavetenskap

Externa finansiärer

Vetenskapsrådet

Projektmedlemmar

Martin Berggren Professor emeritus

E-post

Anders Garpebring Universitetslektor med förenad klinisk anställning

E-post

090-785 38 91

Externa projektmedlemmar

Edouard Duchesnay Forskningsledare för maskininlärning tillämpad på neuroimaging, NeuroSpin, CEA, Paris-Saclay, Frankrike.

E-post

Projektbeskrivning

Ett återkommande problem inom de flesta tillämpningsområden för maskininlärning är avsaknaden av stora mängder kvalitativa data. I dessa situationer är risken stor att hitta sporadiska samband som inte beror på faktiska samband mellan variabler och utfall, utan som endast är ett resultat av överanpassning av modellen till datat. Ett sätt att hantera problem med små mängder data i högdimensionella problem är att använda sig av a priori-information – vanligen genom a priori-fördelningar eller bivillkor. Strukturerade a priori-fördelningar och bivillkor tar detta ett steg längre, genom att inte bara styra modellerna via enskilda variabler, utan genom att styra modellerna via strukturerade samband mellan variablerna.

Koda in kunskap

Strukturerade samband innebär att man kodar in, dvs. uttrycker domänspecifik, expert- eller tidigare kunskap om ett problem som en del av en maskininlärningsmodell. Detta kan vara t.ex. att pixlar i ett grannskap i en bild ska vara lika för att t.ex. reducera brus i en rekonstruerad bild, att homogena områden i en bild istället för enskilda pixlar korrelerar med utfallsvariabeln, eller att välja hela regulatoriska gennätverk istället för enskilda gener vid förutsägelser av fenotyper från transkriptomdata. Genom att koda in en känd struktur i modellen, dvs. kända strukturerade samband mellan uppmätta variabler, kan man erhålla modeller som väljer ut relevanta grupper av variabler och samtidigt minskar risken för överanpassning till datat. Detta förbättrar markant möjligheterna att tolka modellen, och förstå datat genom att kunna analysera sambanden mellan uppmätta variabler.

Flyttar fram gränserna

Befintliga lösningar tillåter endera inte strukturerade samband och garanterar inte att stickprov dras från rätt fördelning. De har inte optimal konvergenshastighet och kan inte ge osäkerhetsskattningar, varken i modellparametrarna eller i förutsägelserna.

I detta projekt ämnar vi lösa alla dessa problem, och utveckla ett generiskt Bayesiskt ramverk inom vilket strukturerade samband med enkelhet går att koda in. Denna utveckling har potential inom väldigt många fält inom både medicin, naturvetenskap och teknik.

Vi kommer att bidra med nya metoder, teori och algoritmer genom att utveckla strukturerade a priori-fördelningar samt anpassade Markovkedje-Monte Carlo-algoritmer med vilka vi kan förbättra tolkningsbarhet, variabelselektion och osäkerhetsuppskattning i en bred uppsättning maskininlärningsproblem. Vi kommer att flytta fram gränsen för vad som är möjligt att uttrycka med en a priori-fördelning i dag samt tillåta mycket generella a priori-fördelningar, (och många existerande a priori-fördelningar som specialfall inom det utvecklade ramverket). Därtill kommer vi att öppna upp för, och möjliggöra en bredare användning av strukturerade a priori-fördelningar inom Bayesisk maskininlärning.

Tillämpningar

Metoderna som utvecklas kommer att utvärderas i medicinska bildtillämpningar. Vi utvärderar dem i tillämpningar för rekonstruktion av kvantitativa magnetröntgenbilder samt för förutsägelser av schizofreni, bipolär sjukdom och Alzheimers sjukdom. Den metodik som vi utvecklar går däremot mycket väl att tillämpa även inom många andra problem.

Externa projektmedlemmar

Projektet pågår under fyra år, och utförs även i samarbete med Edouard Duchesnay, forskningschef på NeuroSpin, Commissariat à l’énergie atomique et aux énergies alternatives (CEA), Paris-Saclay, Frankrike.

Externa finansiärer

Senast uppdaterad: 2021-12-09