"False"
Hoppa direkt till innehållet
printicon
Huvudmenyn dold.
Kursplan:

Stora språkmodeller (LLM:er) inom datahantering, 7,5 hp

Engelskt namn: Large Language Models (LLMs) in Data Management

Denna kursplan gäller: 2024-05-27 och tillsvidare

Kurskod: 5DV242

Högskolepoäng: 7,5

Utbildningsnivå: Grundnivå

Huvudområden och successiv fördjupning: Datavetenskap: Grundnivå, har mindre än 60 hp kurs/er på grundnivå som förkunskapskrav

Betygsskala: Väl godkänd, godkänd, underkänd

Ansvarig institution: Institutionen för datavetenskap

Beslutad av: Teknisk-naturvetenskapliga fakultetsnämnden, 2024-02-14

Innehåll

Kursen undersöker hur stora språkmodeller (LLM:er) potentiellt kan bidra till att lösa långvariga problem inom datahantering. Följande tre relaterade frågeställningar kommer att diskuteras:

  1. Hur kan LLM:er hjälpa till att skapa chatt-gränssnitt mot SQL-databaser?
  2. Hur kan LLM:er hjälpa till vid den konceptuella modelleringen och definitionen av SQL-databaser?
  3. Hur kan LLM:er hjälpa till vid dataintegrering där flera databaser görs kompatibla?

Eftersom en diskussion av dessa frågor kräver en förståelse för LLM:er och datahantering så kommer första halvan av kursen att ägnas åt dessa koncept. Detta börjar med "feed forward"-neuronnätverk, RNN:er, LSTM:er och Seq2Seq-modeller. Sedan introduceras Transformers, BERT och GPT. Efter detta ges en snabb repetition av de centrala koncepten inom datahantering, vilket omfattar konceptuell modellering via ERD:er, grundläggande SQL och typiska arkitekturer. Andra halvan av kursen fokuserar på de tre ovanstående frågorna som handlar om hur LLM:er kan hjälpa till att lösa långvariga problem inom datahantering. Detta inkluderar tillvägagångssätt som är fåskotts-baserade, LangChain-baserade, vektordatabas-baserade samt sätt baserade på sökningsutökad generering (RAG). Ytterligare tillvägagångssätt kan komma att behandlas.

Förväntade studieresultat

Kunskap och förståelse
Efter avslutad kurs ska studenten kunna:

  • (FSR 1) Förklara de tekniska principerna för neurala nätverk, inklusive vanliga aktiveringsfunktioner, förlustfunktioner och gradientmetoder.
  • (FSR 2) Förklara beståndsdelarna, processerna och arbetsflödet för LSTM, Seq2Seq, Transformers, BERT och GPT.
  • (FSR 3) Förklara fåskott, vektordatabaser, RAG-baserade och andra tillvägagångssätt för att tackla långvariga problem inom datahantering.

Färdighet och förmåga
Efter avslutad kurs ska studenten kunna:

  • (FSR 4) Sätta upp och lösa maskininlärningsproblem med enkla neuronnätverk i PyTorch.
  • (FSR 5) Sätta upp och köra transformer-modeller i PyTorch.
  • (FSR 6) Sätta upp LangChain för att skapa chatt-liknande dialoger över SQL-databaser.

Värderingsförmåga och förhållningssätt
Efter avslutad kurs ska studenten kunna:

  • (FSR 7) Förstå och diskutera koncept och terminologi runt stora språkmodeller.
  • (FSR 8) Kritiskt utvärdera föreslagna lösningar på datahanteringsproblem som baseras på stora språkmodeller.
  • (FSR 9) Utveckla en förmåga att skilja på fakta och fantasi i detta snabbrörliga kunskapsområde.

Behörighetskrav

Minst 30 hp inom Datavetenskap eller Matematik inom vilka avslutade kurser i programmering (gärna Python), datastrukturer och algoritmer, databaser, matematisk analys och linjär algebra ska ingå.

Undervisningens upplägg

Kursen är en distanskurs som inte kräver någon fysisk närvaro. Föreläsningar hålls över Zoom och kursmaterialet publiceras på Canvas. Föreläsningarna spelas in, så närvaron är flexibel. Studenterna besvarar problem och demonstrerar sina programmeringslösningar vid obligatoriska muntliga förhör som hålls över Zoom. Även om de muntliga förhören är obligatoriska så finns det vissa möjligheter att anpassa schemaläggningen efter studenternas behov. Kursen avslutas med en skriftlig hemtentamen som studenterna laddar upp på Canvas. Allt arbete på kursen sker individuellt.

Examination

Studenterna måste visa sitt arbete vid fyra olika Zoom-baserade muntliga förhör. Kursen avslutas med en skriftlig hemtentamen som studenterna laddar upp på Canvas. På kursen sätts något av betygen Väl godkänd (VG), Godkänd (G) eller Underkänd (U).

Anpassad examination
Examinator kan besluta om avsteg från kursplanens examinationsform. Individuell anpassning av examinationsformen ska övervägas utifrån studentens behov. Examinationsformen anpassas inom ramen för kursplanens förväntade studieresultat. Student som har behov av en anpassad examination ska senast 10 dagar innan examinationen begära anpassning hos Institutionen för datavetenskap. Examinator beslutar om anpassad examination som sedan meddelas studenten.

Övriga föreskrifter

Om kursplanen har upphört att gälla eller kursen slutat erbjudas garanteras en student som någon gång registrerats på kursen minst tre provtillfällen (inklusive ordinarie provtillfälle) enligt denna kursplan under en tid av maximalt två år från det att kursplanen upphört att gälla eller kursen slutat erbjudas.

Litteratur

Giltig från: 2024 vecka 22

Deep learning
Goodfellow Ian, Bengio Yoshua, Courville Aaron
Cambridge, MA : MIT Press : [2016] : xxii, 775 pages :
ISBN: 9780262035613
Obligatorisk
Se Umeå UB:s söktjänst
Läsanvisning: https://www.deeplearningbook.org/

Utöver boken används ett antal vetenskapliga artiklar.