Gräns och gruppering - Strukturering av talet i olika kommunikativa situationer

Forskningsprojekt Att tala innebär för de flesta något enkelt och okomplicerat, det sker mer eller mindre automatiskt. Forskningen har gjort stora framsteg i förståelsen av talets egenskaper, men det saknas ändå väsentlig kunskap om talprocessen.

Talet reflekterar inte bara en sekvens av ord utan också hur talaren strukturerar den information som förmedlas. Struktureringen signaleras genom grupperingar av olika slag och avgränsningar dem emellan, t ex i form av pauser. Gruppering är en viktig organiserande princip och en förutsättning för lyssnarens förståelse på ett djupare plan än en ordföljd. Hur grupperingen går till är en fråga som ligger i fronten för dagens forskning. Syftet med projektet är att söka kunskap om struktureringen av talet i olika kommunikativa situationer, formulera modeller baserade på denna kunskap samt utvärdera dessa med hjälp av talteknologiska metoder.

Projektöversikt

Projektperiod:

2002-01-01 – 2004-12-31

Finansiering

Finansår , 2003, 2004

huvudman: Eva Strangert, finansiar: Vetenskapsrådet, y2003: 880, y2004: 910,

Medverkande institutioner och enheter vid Umeå universitet

Institutionen för språkstudier

Forskningsområde

Språkvetenskap

Projektbeskrivning

Det finns ett uppenbart behov av modeller för det mänskliga talet. Välgrundade och realistiska modeller är en angelägenhet för förståelsen av mänsklig kommunikation men också för den talteknologiskt orienterade forskningen om talspråket.

Att tala innebär för de flesta något enkelt och okomplicerat, något som sker mer eller mindre automatiskt. Den humanistiska forskningen har gjort stora framsteg i förståelsen av talets egenskaper. Likväl saknas det fortfarande väsentlig kunskap om hur det för människan unika talet överför information mellan talaren och lyssnaren. Det som för användaren ter sig enkelt och lätt, har visat sig vara komplext och ytterst sinnrikt och därmed en utmaning för forskningen om människan.

Talet reflekterar inte bara en sekvens av uttalade ord utan också talarens strukturering av den information som förmedlas. Struktureringen signaleras med hjälp av bland annat grupperingar av olika slag och avgränsningar dem emellan, t ex i form av pauser. Gruppering (och avgränsning) är en viktig organiserande princip och en förutsättningen för att hjälpa lyssnaren att förstå vad som sades på ett djupare plan än en ordföljd. Hur grupperingen går till är en fråga som ligger högt på dagordningen för dagens forskning om det mänskliga talet.

Syftet med projektet är att söka kunskap om struktureringen av talet i olika kommunikativa situationer, formulera konkreta modeller baserad på denna kunskap samt utvärdera dessa med hjälp av de redskap som talteknologiska angreppsmetoder tillhandahåller. Som alternativ till tidigare modeller baserade på analyser av ett begränsat material finns idag metoder som gör det möjligt att utnyttja stora mängder text- och taldata. Med hjälp av maskininlärning och statistiska metoder går det att utvärdera och utveckla tidigare modeller på nya data.

Arbetet i projektet sker med utgångspunkt i befintligt material i svenska taldatabaser som innehåller bland annat uppläst nyhetstext, spontant tal, och tal över telefon. Arbetet inkluderar analys, modellering och prediktioner samt utvärdering. I analysmomentet ingår en grammatisk analys med datadrivna metoder, en auditiv analys där gränserna identifieras och transkriberas, en maskinbaserad detektion av gränser samt en fonetisk analys där man i första hand mäter durationer och talmelodi i anslutning till gränser.

Vid modelleringen utgår vi från en beskrivning av det som skall uttryckas i form av en text som är representativ för en given talsituation. Texten är alltså given och är eventuellt kompletterad med någon form av en underliggande beskrivning, t ex talstil. Därtill kommer kommunikativa varianter relaterade till talsituation att modelleras. Med modellen som bas prediceras gruppering och gränser, prediktioner som ska omfatta både var gränser ska förekomma och hur de ska manifesteras ljudmässigt. För att utvärdera modellen används talsyntes i kombination med perceptionsexperiment där lyssnare bedömer genererade stimuli. Utvärderingen kan också innehålla jämförelser mellan det syntetiserade talet och originalmaterial från databasen.

Det finns ett uppenbart behov av modeller för det mänskliga talet. Välgrundade och realistiska modeller är en angelägenhet för förståelsen av mänsklig kommunikation men också för den talteknologiskt orienterade forskningen om talspråket. För tillämpningar som t ex talsyntes är det en förutsättning om man ska nå goda resultat, liksom inom områden som automatisk taligenkänning och talförståelse. För att nå målet krävs ansatser som spränger gränserna mellan olika discipliner. Forskargruppen i det aktuella projektet med fonetisk, datalingvistisk och talteknologisk kompetens är väl skickad för en sådan tvärvetenskaplig satsning.

Ämnen: Språkvetenskap, Fonetik

Senast uppdaterad: 2019-09-18