Forskningsprojekt
I detta projekt utvecklar vi stokastiska modeller och motsvarande verktyg för att arbeta med databaser med obestämd data.
Vårt projekt studerar olika problem för databaser med stokastiska data, som att finna beroendestrukturer i en databas (t ex beroenden mellan sålda varor i en försäljningsdatabas), söka likheter mellan poster i databaser, och optimal datakomprimering och återställning. Det huvudsakliga projektmålet är att utveckla nya tekniker, samt att förbättra existerande, via entropi. Med detta angreppssätt kan vi utvärdera olika statistiska egenskaper av komplexitet och osäkerhet för data i en databas.
Under senare år har karaktären på insamlade data avsevärt förändrats. Istället för små datamängder från planerade försök, har vi idag stora datamängder som automatiskt registreras via sensorer och datorer. Man försöker observera så mycket data som möjligt, delvis för att täcka den höga kostnaden för hård- och mjukvara. De stora och komplexa datamängderna lagras i enorma databaser. Målet med datakomprimering är att väsentligt reducera datamängden, utan att förlora viktig information i data (signaler, bilder) som är väsentlig för en specifik tillämpning. För många databastillämpningar, såsom kommersiella (detaljhandelstransaktioner, multimedia), naturvetenskapliga (genetik, miljö, medicin, astronomi, högenergifysik) och tekniska (processkontroll), innehåller insamlade data en stokastisk komponent. Detta leder till kvalitativt nya problem både inom statistik och datavetenskap. Vårt projekt studerar olika problem för databaser med stokastiska data, som att finna beroendestrukturer i en databas (t ex beroenden mellan sålda varor i en försäljningsdatabas), söka likheter mellan poster i databaser, och optimal datakomprimering och återställning. Det huvudsakliga projektmålet är att utveckla nya tekniker, samt att förbättra existerande, via entropi. Med detta angreppssätt kan vi utvärdera olika statistiska egenskaper av komplexitet och osäkerhet för data i en databas. Detta är viktigt för att på ett effektivt sätt finna användbar information i en stor databas och för att göra det möjligt för en databaskonstruktör att undvika oväntade problem under en modifiering av databasen. Det andra målet består i att studera problem relaterade till komprimering och återställning av statistiska signaler (t ex positioner för rörliga objekt och multimediabilder) i databaser. Dessa resultat kan ge forskare verktyg att jämföra hur effektiva olika databashanteringssystem är, och även att utveckla nya system, både i teoretiska och tillämpade områden. Resultaten kan användas för diverse problem i stora försäljnings- och inköpsdatabaser och multimediadatabaser. De kan också vara användbara för relaterade problem inom bioinformatik, data mining, och miljö- och livsvetenskaper