Forskningsprojekt Vi utvecklar helt nya och unika integritetsskydd som byggs in direkt i AI, datadrivna modeller och beslutssystem. Det ger en unik möjligt att använda data för att forska, analysera eller ta beslut, samtidigt som vi värnar individers och organisationers integritet fullt ut.
Beslutssystem och datadrivna modeller är ett viktigt stöd för forskare och beslutsfattare. Dessa behöver dock hela tiden "träna" på data av hög kvalitet men denna data är inte alltid tillgänglig och kan röja känslig information. Dataskyddsmekanismer för komplexa data är idag mycket begränsade. Det finns vissa lösningar för dynamiska databaser och för statiska grafer. Däremot saknas lösningar för data med komplexa relationer mellan objekt, dynamiska grafer och mätdata. Här utvecklar vi nu metoder i syfte att tillhandahålla anonymiserade data för komplexa data.
Ett stort antal dataskyddsmekanismer har utvecklats för standarddatabaser, ofta de så kallade SQL-databaserna, som består av en eller flera tabeller och har poster som beskrivs i termer av variabler eller attribut. Det finns idag också skyddsmekanismer för att bygga maskininlärnings- och statistiska modeller för data samt maskeringsmetoder för datapublicering så att forskare kan få tillgång till en anonymiserad version av originaldata. Det senare är viktig för forskare inom maskininlärning och datavetenskap. De måste dels få tillgång till data för att kunna utforska dem, och bestämma vilka modeller som är bäst lämpade. Men de behöver också testa modellerna med olika parametrar för att bestämma vilken som är optimal med hänsyn till integritetsbegränsningar, men också t ex noggrannhet, öppenhet och förklarbarhet.
Saker och ting blir svårare när data innehåller tidsmässiga element. Flera versioner av data kan leda till röjande av uppgifter, eftersom inkräktare kan dra nytta av en version för att kunna angripa en annan. I synnerhet kan flera anonymiseringar av samma data ge ledtrådar till den ursprungliga informationen. Ytterligare en svårighet med datasekretess, är när det finns relationer mellan de objekt vi skyddar. Ett enkelt fall är när det finns korrelationer mellan poster i en fil – till exempel samma person – eller motsvarar personer i samma hushåll.
Komplexa data, sådana som behandlar flera olika variabler, lagras vanligtvis i noSQL-databaser, och dessa innehåller båda dessa komponenter. Grafdata är ett typiskt exempel på komplexa data. Sociala nätverk kan representeras av så kallade märkta grafer där noder representerar personer och företag, och kanter representerar relationer mellan dem. Etiketter representerar ytterligare information, relaterad till noder och relationer, till exempel ”vänner” eller ”intressen”. Vi kan vanligtvis härleda information om en nod (t ex en person) från informationen om dess förbindelser, t.ex. politisk orientering från data om angränsande noder (personer och företag).
Så kallade dynamiska grafer – data som ändras över tid eller vid förändringar – bygger på information inom en tidsdimension, vilket också är en utmaning. Ett annat exempel på komplexa data – som kan inkludera flera variabler, samband eller hierarkier – är mätdata från till exempel ett kraftnät. Elnät representeras av en så kallad hierarkisk struktur. I nätdata har vi en tidsdimension eftersom information från hushåll och industrier representeras av tidsserier. Dessutom måste informationen på de olika nivåerna i hierarkin (dvs. aggregeringar) vara konsekvent. Hierarki kan vara regioner, länder, städer osv. Aggregeringar är sammanställningar av data på en högre nivå, till exempel antal som fått cancer i en stad, region eller landsdel.
Dagens dataskyddsmekanismer för komplexa data är mycket begränsade. Det finns dellösningar för dynamiska databaser och för statiska grafer. Det finns dock inga lösningar för data med komplexa relationer mellan objekt (inbegripet den tidsmässiga komponenten) och det finns inte heller några effektiva integritetsmekanismer för dynamiska grafer och mätdata.
Forskargruppen vid Umeå universitet kommer därför att utveckla metoder i syfte att tillhandahålla anonymiserade data (t.ex. för öppen åtkomst) för komplexa data. Framförallt fokuserar gruppen på de fall där hänsyn måste tas, både till interaktioner både mellan objekt och tidsaspekter men också starka relationer mellan de objekt som ska skyddas. Främst kommer vi att fokusera på dynamiska grafer och griddata. Detta för att möjliggöra utveckling av integritetsanpassade maskininlärningsmodeller som är kompatibla med lämpliga integritetsmodeller. Målet är att öppet kunna publicera data som möjliggör byggandet av datadrivna modeller – samtidigt som integriteten skyddas. Det handlar om att balansera öppenhet och transparens med respekt för individers och organisationers integritet.