"False"
Hoppa direkt till innehållet
printicon
Huvudmenyn dold.
Kursplan:

Bearbetning och visualisering av data, 7,5 hp

Engelskt namn: Data preprocessing and visualisation

Denna kursplan gäller: 2024-01-01 och tillsvidare

Kurskod: 5DV217

Högskolepoäng: 7,5

Utbildningsnivå: Grundnivå

Huvudområden och successiv fördjupning: Datavetenskap: Grundnivå, har mindre än 60 hp kurs/er på grundnivå som förkunskapskrav
Matematisk statistik: Grundnivå, har mindre än 60 hp kurs/er på grundnivå som förkunskapskrav

Betygsskala: Väl godkänd, godkänd, underkänd

Ansvarig institution: Institutionen för datavetenskap

Beslutad av: Teknisk-naturvetenskapliga fakultetsnämnden, 2021-01-13

Reviderad av: Teknisk-naturvetenskapliga fakultetsnämnden, 2023-06-19

Innehåll

Målet med Data Science är att göra det möjligt för samhälle, företag och medborgare att förstå och använda den ständigt ökande mängden insamlad information på ett sätt som gör det möjligt att upptäcka potentiella problem eller förbättringar av den aktuella situationen. Data Science bör också ge människor möjlighet att uppskatta och förstå de potentiella följderna av olika handlingar. Det finns ett talesätt om "lögner, fördömda lögner och statistik", som uttrycker det faktum att databaserad statistik kan presenteras på mycket övertygande sätt även när slutsatserna är falska. Denna kurs försöker undervisa hur man kan upptäcka sådan falsk information och säkerställa mer etisk användning av Data Science.

Ett exempel på praktisk användning av datavetenskap är att analysera och presentera epidemirelaterad data och statistik på korrekt och mänskligt förståeligt sätt så att beslut och åtgärder kan fattas baserat på rationell information. Data Science-metoder används också för att uppskatta effekterna av åtgärder för att minska den globala uppvärmningen, dimensionera vägnät, välja var man ska installera nya köpcentra eller restauranger, optimera byggnadernas energianvändning,…. Kort sagt, Data Science är en av de viktigaste domänerna för att bestämma hur vårt nuvarande och framtida samhälle ska byggas. Fler och fler företag kommer också att inse vikten av området Data Science. Oavsett bransch eller storlek måste organisationer som vill vara konkurrenskraftiga i hantering av stora datamängder effektivt utveckla och implementera Data Science möjligheter eller riskera att hamna på efterkälken.

Modul 1, teori, 4,0 hp.
Den här kursen om bearbetning och visualisering av data ger en introduktion till området Data Science. Studenterna kommer att lära sig att importera, manipulera och bearbeta data som kommer från olika reella datakällor i syfte att presentera det på sätt som möjliggör insikt i de underliggande systemen eller fenomenen. Bearbetning av data kan ge bättre insikt i datats betydelse genom statistiska mätningar, presenterade som numeriska tabeller som sammanfattar data på olika sätt. Men i de flesta fall tenderar människor att förstå visuella presentationer av data bättre än rent numeriska presentationer. Kursen kommer att undervisa hur man använder grundläggande datavisualiseringar såsom punkt- och linjediagram, stapeldiagram, histogram, låddiagram och fioldiagram. 3D-visualiseringstekniker lärs ut, samt hur man använder kartor och bilder för datavisualisering.

Olika dataanalyser och maskininlärningsmetoder kommer att användas men den underliggande teorin ligger utanför denna kurs. Avsikten är att göra eleverna skickliga med hur dessa metoder kan tillämpas i verkliga miljöer som man möter i industri och samhälle i allmänhet. Det är därför som föreläsningar åtföljs av övningar där studenterna övar sig på att använda några av de metoder som behandlas under föreläsningarna.

Kursen använder huvudsakligen R-programmeringsspråket, så studenterna kommer lära sig grunderna i R. Inkluderat är även en introduktion till hur bearbetnings- och visualiseringsmetoder kan användas i programmeringsspråket Python.

Ämnen som behandlas är:

  • Introduktion till programmeringsspråket R och tillhörande verktyg
  • Introduktion till bearbetning och visualisering av data i programmeringsspråket Python
  • Import och export av data från textfiler, databaser och andra källor
  • Datavisualisering i R, i 2D och 3D
  • Kartvisualiseringar
  • Visa och arbeta med bilder i R
  • Introduktion till andra användbara data bearbetnings- och visualiseringspaket
  • Linjär regression, BLUE, RMSE, krympningsmetoder (Lasso, åsregression)
  • Linjär klassificering (logistisk regression, LDA)
  • Principalkomponentanalysis (PCA) för att identifiera linjära samband mellan variabler
  • K-means kluster
  • Icke-linjära eller icke-parametriska metoder (t.ex. k-NN)
  • Förberedelse av data för maskininlärning
  • Grundläggande insikter om förklarbar (Explainable) artificiell intelligens (XAI)

Modul 2, färdighetsträning, 3,5 hp.
Modul 2 består av ett praktiskt projekt som kräver en kombinerad användning av metoder som bearbetats i Modul 1. Projektämnen och datamängder kommer att tillhandahållas av lärare, men vi uppmuntrar också att studenterna föreslår egna områden. Projektet genomförs i grupper om 1-4 studenter. Varje grupp presenterar sina framsteg, planer och öppna frågor för lärare och medstudenter i två "mentorsessioner" och en sista presentationssession. Syftet med mentorsessionerna är att ge konstruktiv feedback och vägledning till studenterna i deras inlärningsprojekt. Mentorsessionerna påverkar INTE betygsättningen av denna modul.

Förväntade studieresultat

Kunskap och förståelse
Efter avslutad kurs ska studenten kunna:

  • (FSR 1) förstå vad som menas med "Data Science" som ett begrepp: var och när Data Science behövs, vilka typer av problem Data Science kan lösa och vilka de huvudsakliga metoderna och verktygen inom Data Science är,
  • (FSR 2) förstå betydelsen av olika databaserade mätningar och visualiseringar som vanligtvis används i samhället, och visa att man vet hur man läser och tolkar dem.

Färdighet och förmåga
Efter avslutad kurs ska studenten kunna:

  • (FSR 3) förstå datastrukturer i programmeringsspråket R och visa en grundläggande förmåga för datamanipulation och programmering i R,
  • (FSR 4) utföra manuell såväl som automatiserad förbehandling av data (rengöring, normalisering, centrering, skalning, ...),
  • (FSR 5) extrahera och förstå statistiska indikatorer från data, samt hur man upptäcker och eliminerar saknade värden,
  • (FSR 6) utföra regressionsanalys och gruppering av data,
  • (FSR 7) visualisera data och analysresultat med linjediagram, spridningsdiagram, stapeldiagram. kartor etc., både i 2D och 3D.

Värderingsförmåga och förhållningssätt
Efter avslutad kurs ska studenten kunna:

  • (FSR 8) bedöma riktigheten och signifikansen hos databaserade mätningar och visualiseringar som påträffas i olika medier.

Behörighetskrav

Minst 7,5 hp matematisk statistik.

Undervisningens upplägg

Kursen består av föreläsningar, individuella praktiska övningar och ett projekt som utförs i grupper av upp till fyra studenter. Utöver det schemalagda arbetet krävs också individuellt arbete med materialet.

Examination

Bedömningen av modul 1 (ELO 1-7) görs genom en skriftlig inlärningsdagbok, som inkluderar skriftliga labrapporter. Betygen som ges i denna modul är Underkänd (U), Godkänd (G) eller Väl Godkänd (VG).

Bedömningen av modul 2 (ELO 3-8) görs genom en skriftlig projektrapport. Betygen som ges i denna modul är Underkänd (U), Godkänd (G) eller Väl Godkänd (VG).

På hela kursen ges något av betygen Underkänd (U), Godkänd (G) eller Väl Godkänd (VG). Betyget på kursen sätts till Väl Godkänd (VG) endast om båda modulerna har betyget Väl Godkänd (VG).

Anpassad examination
Examinator kan besluta om avsteg från kursplanens examinationsform. Individuell anpassning av examinationsformen ska övervägas utifrån studentens behov. Examinationsformen anpassas inom ramen för kursplanens förväntade studieresultat. Student som har behov av en anpassad examination ska senast 10 dagar innan examinationen begära anpassning hos Institutionen för datavetenskap. Examinator beslutar om anpassad examination som sedan meddelas studenten.

Övriga föreskrifter

Om kursplanen har upphört att gälla eller kursen slutat erbjudas garanteras en student som någon gång registrerats på kursen minst tre provtillfällen (inklusive ordinarie provtillfälle) enligt denna kursplan under en tid av maximalt två år från det att kursplanen upphört att gälla eller kursen slutat erbjudas.

Litteratur

Giltig från: 2024 vecka 1

All kurslitteratur som krävs finns fritt på webben. Listan kommer presenteras på kursens lärplattform.