Kursen är en introduktion till språkteknologi för studenter som redan är skickliga på programmering och maskininlärning. Målet är att ge en gedigen bakgrund i den teori och de tekniker som används för olika språkteknologiska uppgifter som t.ex. att förstå och generera naturligt språk. Eftersom språkteknologi används dagligen av många personer och ligger till grund för många andra "AI"-system, kommer särskilt fokus att läggas på frågor om etik, rättvisa och den sociala effekten av dessa tekniker.
Kursen behandlar olika typer av tekniker inom språkteknologi, inklusive regelbaserade, statistiska och maskininlärningsbaserade metoder. Eftersom språkdata är centralt i många moderna tekniker, kommer kursen dessutom att omfatta bedömning av datakvalitet, samt att utveckla en förståelse för komplexa frågor om representation och ägande av data.
Grundläggande begrepp och metoder från lingvistik introduceras, inklusive aspekter av hur språket konstrueras och används samt vikten av sammanhang. Dessa används dels för att ge en förståelse för hur effektiva lösningar på språkteknologiska uppgifter är konstruerade och dels för att förstå utmaningarna med att göra detta för olika språk.
Utöver denna teoretiska förankring erbjuder kursen praktiska övningar och uppgifter som fokuserar på att tillämpa olika tekniker på diverse språkteknologiska uppgifter. Kursen inkluderar också aktivt deltagande i seminarier och skrivande av rapporter.
På kursen används programspråket Python men ingen undervisning i programspråket ingår i kursen.
Förväntade studieresultat
Kunskap och förståelse Efter avslutad kurs ska studenten kunna:
(FSR 1) beskriva och tillämpa grundläggande begrepp och metoder från olika discipliner inom lingvistiken (inklusive morfologi, syntax, semantik och pragmatik) på språkteknologi,
(FSR 2) förklara vad som krävs för att utföra typiska språkteknologiska uppgifter (t.ex. maskinöversättning eller generering av naturligt språk),
(FSR 3) kategorisera språkteknologiska tekniker som antingen regelbaserade, statistika eller maskininlärningsbaserade och jämföra fördelarna och nackdelarna med respektive tekniktyp.
Färdighet och förmåga Efter avslutad kurs ska studenten kunna:
(FSR 4) konstruera en lämplig pipeline för en given språkteknologisk uppgift, och implementera delar av en sådan pipeline,
(FSR 5) tillämpa lingvistiska principer och metoder för att lösa språkteknologiska uppgifter, t.ex. använda syntaxanalys för att analysera meningar och producera syntaxträd,
(FSR 6) implementera algoritmiska lösningar på specifika språkteknologiska problem, t.ex. syntaktisk parsning för att producera syntaxträd,
(FSR 7) utvärdera kvaliteten och effektiviteten av språkteknologiska program med hjälp av lämpliga mått; tolka och förklara resultaten av dessa mått.
Värderingsförmåga och förhållningssätt Efter genomgången kurs ska studenten kunna:
(FSR 8) kritiskt bedöma den sociala effekten av språkteknologi, inklusive utvärdering av risker, fördelar och skador med specifika tekniker,
(FSR 9) förklara med exempel de potentiella skador som kan orsakas av språktekniker som är under utveckling och hur sådana skador kan mildras,
(FSR 10) diskutera de etiska och praktiska problemen med språkteknologi som är associerade med språkdata, som äganderättsfrågor, representation, implicit särbehandling och lingvistisk diskriminering.
Behörighetskrav
Minst 90 hp varav minst 60 hp datavetenskap eller minst 120 hp inom ett program. Minst 7,5 hp datastrukturer och algoritmer; 7,5 hp diskret matematik; 7,5 hp formella språk och 7,5 hp maskininlärning. Engelska för grundläggande behörighet för högskolestudier.
Undervisningens upplägg
Kursen följer en "flipped classroom"-modell, där studenterna själva arbetar med materialet innan lektionen. En lektion kan t.ex. bestå av lärarledda diskussioner, övningar på att tillämpa kunskap, seminarier samt handledda datorlaborationer och andra övningar. Utöver de schemalagda aktiviterna krävs även eget arbete med materialet.
Examination
På kursen ges något av betygen Underkänd (U), Godkänd (G) eller Väl Godkänd (VG). Studentens prestationer på kursen bedöms genom skriftliga uppgifter (FSR 1-7, 9-10) och seminarier (FSR 8-10). Några uppgifter involverar programmering i Python. Alla uppgifter och seminarier måste vara avklarade för att få godkänt betyg på kursen.
Anpassad examination Examinator kan besluta om avsteg från kursplanens examinationsform. Individuell anpassning av examinationsformen ska övervägas utifrån studentens behov. Examinationsformen anpassas inom ramen för kursplanens förväntade studieresultat. Student som har behov av en anpassad examination ska senast 10 dagar innan examinationen begära anpassning hos Institutionen för datavetenskap. Examinator beslutar om anpassad examination som sedan meddelas studenten.
Övriga föreskrifter
I en examen får denna kurs ej ingå, helt eller delvis, samtidigt med en annan kurs med likartat innehåll. Vid tveksamheter bör den studerande rådfråga studievägledare vid Institutionen för datavetenskap och/eller programansvarig för sitt program.
Om kursplanen har upphört att gälla eller kursen slutat erbjudas garanteras en student som någon gång registrerats på kursen minst tre provtillfällen (inklusive ordinarie provtillfälle) enligt denna kursplan under en tid av maximalt två år från det att kursplanen upphört att gälla eller kursen slutat erbjudas.
Litteratur
Giltig från:
2023 vecka 26
Litteratur
Speech and language processing : an introduction to natural language processing, computational linguistics and speech recognition Jurafsky Dan, Martin James H. 2. ed. : Upper Saddle River, N.J. : Pearson Education International/Prentice Hall : cop. 2009 : 1024 s. : ISBN: 9780135041963 Obligatorisk Se Umeå UB:s söktjänst
Ytterligare källor såsom forskningsartiklar, bokkapitel, etc efter behov.