Mer information om att hålla ordning på forskningsdata under projektets gång - både på projektnivå och på datanivå.
Hur ett forskningsprojekts data organiseras beror i hög grad på forskaren eller forskarna som finns i projektet. Det är viktigt att metoden för att organisera data är förankrad hos den eller de som hanterar data. Främst handlar det om att komma fram till en struktur för att beskriva och lagra data allteftersom det genereras i projektet.
Strukturen behöver vara logisk, förutsägbar och så intuitivt uppbyggd som möjligt för att minska trösklarna som kan finnas för att använda den till vardags. För en forskargrupp behöver strukturen vara beskriven och förankrad på ett sådant sätt att alla använder den.
Om du är en enskild forskare räcker det med att strukturen är begriplig för dig själv under ett pågående projekt, men när projektet är färdigt och forskningsdata ska slutförvaras behöver strukturen även vara logisk och begriplig för andra. Därför kan det vara bra att antingen arbeta utifrån en struktur som även andra kan förstå eller att planera in tid för att avkoda och organisera om strukturen i projektets slutfas.
Ett bra sätt att både strukturera data under pågående forskning och samtidigt förbereda sig för långsiktig lagring och arkivering av data är att bygga upp sin organisation av forskningsdata med utgångspunkt i typer av metadata. Använd i så fall metadata på det sätt som beskrivs i en vedertagen metadatastandard som är i bruk inom ditt forskningsfält.
Det finns riktlinjer och rekommendationer som kan vara användbara för att planera vilken information som ska knytas till data och hur den ska struktureras. Information som rör projektet som helhet kan läggas som en övergripande nivå. Det kan till exempel handla om beskrivningar av:
På datanivå behöver varje fil eller enhet med data organiseras så att det över tid går att förstå innehållet och vad som har hänt med innehållet.
Rå data, eller rådata, är data som inte har blivit kodad, grupperad, förfinad, eller bearbetad på något sätt. Rådata har fler potentiella användningsområden än bearbetad data. Det ger ökad möjlighet till återanvändning. Därför bör uppsättningar av rådata bevaras som den är om det alls är möjligt. Bearbetningar görs på kopior av rådata. Beroende på forskningsfält kan rådata vara till exempel:
Var uppmärksam på att rådata kan innehålla känsliga uppgifter som tas bort i senare bearbetningar, exempelvis personuppgifter.
Bearbetad data bör organiseras i en förutsägbar struktur, uppmärkt med information om innehåll och bearbetning.
Organisation av kvantitativa data är tätt kopplat till de verktyg och format som används i datahanteringen. Därför behöver du både utgå från strukturen som data ska sorteras in i och de värden som ska läggas in. Detta gäller för både databaser och kalkylblad.
Databaser
En databas är ett system av information där det är lätt att hitta, organisera och organisera om eller ändra information på olika sätt. För att detta ska vara möjligt är det viktigt att databasens innehåll organiseras på ett logiskt och konsekvent sätt. Databasen ska också ha en beskrivning av sitt innehåll, ett schema.
Programvara för databaser kan till exempel vara Microsoft Access, MySQL, Microsoft SQL Server, Oracle och PostgreSQL. Hur komplex en databas är varierar och det finns ofta goda möjligheter att som användare själv styra databasens funktioner.
Kalkylblad
Kalkylblad är en enkel form av databas där data organiseras i tabulerade blad. Förutom datavariabler kan kalkylbladet innehålla genererade sammanställningar i form av till exempel diagram och tabeller. Även bilder kan inkluderas och formler kan användas för att generera värden eller funktioner. Hur kalkylarket kan användas är möjligt att kontrollera ner till cellnivå.
Program för att använda kalkylblad finns bland annat i Microsoft Office-, OpenOffice- och WordPerfect Office-paketen. I alla dessa fall finns även stöd för XML-baserade filformat.
Generella riktlinjer
Det finns några saker som är bra att förhålla sig till för att se till så att kvantitativa data är konsekvent organiserade och lätta att använda - även på sikt:
För mer information om hantering av kvantitativ data och att förbereda kvantitativa data för långtidslagring och publicering rekommenderar vi de guider och best practice-rekommendationer som tillhandahålls av Svensk nationell datatjänst (SND). I deras best practice-guide "Databaser och kalkylprogram" hittar du bland annat mer information om hantering av specifika format som till exempel XML och SPSS. Länk finns under rubriken "Fördjupning".
Kvalitativa data i textformat kan beskrivas i inledningen av dokumentet. Relevant information kan vara:
Om data har bearbetats behöver information om bearbetningen finnas med. Andra format än textfiler kan behöva följas åt av ett dokument med information som motsvarar ovanstående. Information som har betydelse för varandra får gärna förvaras tillsammans.
Informanter
Det är en fördel om pseudonymer eller liknande sätt att anonymisera informanter används konsekvent, så att en och samma informant alltid betecknas på samma sätt. Till exempel I1, I2 och I3 för informant 1, 2 och 3, även om informanterna kan behandlas i separata dokument.
Information om vad som kännetecknar respektive informant kan sammanställas i ett eget dokument, inklusive information om vilka filer de förekommer i, för att underlätta sökning i samlingen.
Filens namn
Filens namn kan användas för att beskriva innehållet på ett strukturerat sätt. Hur detta görs kan variera mycket, från att använda ett siffersystem i kombination med en förklarande lista till att i klartext skriva vad det handlar om i filnamnet. För att hålla ordning på olika versioner av samma material kan filnamnen för varje version innehålla uppgifter om datum och tid.
Inför slutlagring
Inför slutlagring kommer även en översiktlig lista över datamaterialet att behövas där innehållet i varje fil/del beskrivs på ett sätt som gör att andra lätt kan hitta den del de är intresserade av.
För fördjupning och mer information om att beskriva forskningsdata under pågående projekt rekommenderar vi best practice-guiderna från Svensk nationell datatjänst (SND). Där hittar du bland annat mer information och rekommendationer om filformat, vilken typ av material som med fördel förvaras tillsammans samt mer information om vad som är viktigt att tänka på inför framtida långtidslagring.
Guider och best practice (SND)
SND har också informationssidor om hantering av data under pågående forskningsprocess.
UK Data Service sidor om att dokumentera forskningsdata ger en kortfattad information om datadokumentation på olika nivåer.
Document your data (UK Data service)
Del 5 i kursen BAS online från SND handlar om "Dokumentation under forskningsprocessen och principer för att bedöma om metadata är tillräckliga för sekundäranvändning".