Regler måste brytas när datorer ska lära sig människospråk
NYHET
Datorers styrka ligger i att de alltid följer regler i form av de instruktioner de är programmerade med. Detta är också deras svaghet när det kommer till att bearbeta människors språk – i alla fall om man ska tro Anna Jonsson, som fredagen den 11 juni försvarar sin avhandling vid Umeå universitet.
Text: Ingrid Söderbergh
Anna Jonsson, doktorand på Institutionen för datavetenskap vid Umeå universitet.
BildLina Lidmark
– Vi människor använder språk på ett inte alltid helt entydigt sätt, men givet sammanhanget tenderar vi att förstå varandra ändå. För en dator är vi dock i grunden helt obegripliga, säger Anna Jonsson, Institutionen för datavetenskap vid Umeå universitet.
Hon fortsätter:
– Ett annat problem är att språk är oändliga, och att en dators minnesutrymme är ändligt. Det vi som jobbar med språkbearbetning gör är att försöka använda det ändliga utrymmet för att täcka en så stor del av ett språk som möjligt.
Datorer kommunicerar via så kallade formella språk – språk som följer ett ändligt antal logiska regler. Trots att människospråk också följer vissa grammatiska regler så är dessa regler föränderliga och inte strikt nödvändiga för att vi ska förstå varandra, vilket ju är målet med mellanmänsklig kommunikation.
För att en dator ska kunna analysera människors språk behövs ändliga modeller som representerar aspekten som ska analyseras. Två centrala aspekter är syntax och semantik: syntax är orden som används och deras ordning medan semantik avser mening – vad en specifik text vill förmedla. I en dator representeras syntaktiska analyser som datastrukturen träd medan semantiska analyser fångas i form av datastrukturen graf.
Språkanalysmodeller måste också kunna utvärderas. För det behövs data i form av människospråk: med den kan modellens analyser poängsättas genom jämförelse med data. I sin avhandling utvecklar Anna Jonsson en metod som extraherar de högst poängsatta syntaktiska analyserna från en existerande språkanalysmodell.
– Vad gällande de semantiska analyserna har forskningen inte kommit lika långt. Därför har vi valt att utveckla en egen modell för semantisk analys, och jag hoppas och tror att vår modell kommer att vara betydelsefull i forskningen om semantisk språkbearbetning, säger Anna Jonsson.
Anna Jonsson är född och uppvuxen i Skellefteå. Hon har en civilingenjörsexamen i teknisk datavetenskap från Umeå universitet.
Fredagen den 11 juni försvarar Anna Jonsson, Institutionen för datavetenskap vid Umeå universitet, sin avhandling med titeln: Best Trees Extraction and Contextual Grammars for Language Processing. Svensk titel: Extrahering av optimala träd samt kontextuella grafgrammatiker för språkbearbetning
Disputationen äger rum klockan 10.00 i MA316 vid Umeå universitet och streamas på Zoom på grund av covid-19-restriktioner
Fakultetsopponent är Dr. Hendrik Jan Hoogeboom, Leidens universitet.