Matematisk statistik för att lösa databasproblem

Forskningsprojekt I detta projekt utvecklar vi stokastiska modeller och motsvarande verktyg för att arbeta med databaser med obestämd data.

Vårt projekt studerar olika problem för databaser med stokastiska data, som att finna beroendestrukturer i en databas (t ex beroenden mellan sålda varor i en försäljningsdatabas), söka likheter mellan poster i databaser, och optimal datakomprimering och återställning. Det huvudsakliga projektmålet är att utveckla nya tekniker, samt att förbättra existerande, via entropi. Med detta angreppssätt kan vi utvärdera olika statistiska egenskaper av komplexitet och osäkerhet för data i en databas.

Projektansvarig

Oleg Seleznjev Professor emeritus

E-post

Projektöversikt

Projektperiod:

2007-01-01 – 2009-12-31

Medverkande institutioner och enheter vid Umeå universitet

Institutionen för matematik och matematisk statistik, Teknisk-naturvetenskaplig fakultet

Forskningsområde

Matematik

Projektbeskrivning

Under senare år har karaktären på insamlade data avsevärt förändrats.
Istället för små datamängder från planerade försök, har vi idag stora
datamängder som automatiskt registreras via sensorer och datorer. Man
försöker observera så mycket data som möjligt, delvis för att täcka den höga kostnaden för hård- och mjukvara. De stora och komplexa datamängderna lagras i enorma databaser. Målet med datakomprimering är att väsentligt reducera datamängden, utan att förlora viktig information i data (signaler, bilder) som är väsentlig för en specifik tillämpning. För många databastillämpningar, såsom kommersiella (detaljhandelstransaktioner, multimedia), naturvetenskapliga (genetik, miljö, medicin, astronomi, högenergifysik) och tekniska (processkontroll), innehåller insamlade data en stokastisk komponent. Detta leder till
kvalitativt nya problem både inom statistik och datavetenskap.
Vårt projekt studerar olika problem för databaser med stokastiska data, som att finna beroendestrukturer i en databas (t ex beroenden mellan sålda varor i en försäljningsdatabas), söka likheter mellan poster i databaser, och optimal datakomprimering och återställning. Det huvudsakliga projektmålet är att utveckla nya tekniker, samt att förbättra existerande, via entropi. Med detta angreppssätt kan vi utvärdera olika statistiska egenskaper av komplexitet och osäkerhet för data i en databas. Detta är viktigt för att på ett effektivt sätt finna användbar information i en stor databas och för att göra det möjligt för en databaskonstruktör att undvika oväntade problem under en modifiering av databasen. Det andra målet består i att studera problem relaterade till komprimering och återställning av
statistiska signaler (t ex positioner för rörliga objekt och
multimediabilder) i databaser. Dessa resultat kan ge forskare verktyg att jämföra hur effektiva olika databashanteringssystem är, och även att utveckla nya system, både i teoretiska och tillämpade områden. Resultaten kan användas för diverse problem i stora försäljnings- och inköpsdatabaser och multimediadatabaser. De kan också vara användbara för relaterade problem inom bioinformatik, data mining, och miljö- och livsvetenskaper

Senast uppdaterad: 2023-02-15