Vinnare av Tidskriftspriset: Årets rörligt 2024!

Kvantitet gäller för datorn som hör

Hörande datorer tolkar mänskligt tal genom statistik snarare än finess.

I dag kan vissa mobiltelefoner ringa upp en vän när du säger hennes namn. Det går också att få uppgifter om tågtrafik via telefon med hjälp av rösten, fast ingen telefonist är inkopplad.

Tekniken imponerar genom att den faktiskt lyckas tolka tal korrekt, men jämfört med människans förmåga är den fortfarande mycket begränsad. I en telefonkonversation mellan två människor klarar inte dagens allra bästa system för automatisk taligenkänning att tolka mer än två av tre ord rätt. Och då är ändå en telefonkonversation en bra miljö för en lyssnande dator. Om det finns bakgrundsstörningar, som buller eller musik eller andra ovidkommande talare, blir resultatet förödande dåligt. Även om det börjar komma metoder för att skilja t ex tal från musik eller för att analysera komplicerade ljudmiljöer, är den mänskliga hörseln helt överlägsen datorns.

Det hindrar inte att det kommit en del framgångar för taligenkänning på senare tid. Dessa resultat bygger på digital signalbehandling i kombination med avancerade statistiska metoder. Först spelas yttrandet in. Sedan omvandlas det till en serie av mönster. Dessa mönster jämförs med referensmönster för olika språkljud. Sista steget är att söka reda på en ordsekvens som stämmer överens med mönstren.

I det första steget är det mycket data som spelas in, omkring 100 000 bitar per sekund. För att minska mängden tar man en stillbild av talets spektrum var hundradels sekund. Stillbilden beskriver mängden ljud i olika frekvensområden. Man försöker sedan ta bort skillnader i röstläge och talstyrka. Målet är att få mönster som är karakteristiska för olika talljud. Alla a-ljud ska vara lika varandra men olika alla andra talljud.

För att skapa referensmönster åt systemet, så att det har kunskap om hur mänskligt tal låter, spelar man in flera tusen talare. Utifrån detta skapas genomsnittliga mönster för de svenska talljuden. Eftersom ett a låter olika beroende på faktorer som kön, ålder, dialekt och intilliggande talljud skapar man flera olika mönster för varje ljud.

Ett sätt att öka systemets noggrannhet är att låta det anpassa sin modell av hur en talare låter. Det kan göras genom att talaren får läsa en text som visas av datorn. Användaren får helt enkelt hjälpa till med att i förväg öva upp systemet. Sedan används det inspelade talet för att modifiera de akustiska modellerna för språkljuden.

Ett problem med dagens taligenkänningssystem är att de alltid genererar ett resultat utifrån ett yttrande. Om användaren säger något otydligt eller några ord på ett annat språk än svenska kommer systemet ändå att efter bästa förmåga välja den svenska mening som låter mest lika. Naturligtvis blir resultatet därefter. Här försöker man utveckla metoder för att poängsätta yttranden efter hur pass sannolika de är. Yttranden som är mycket osäkra kan då förkastas.

Ett annat intressant forskningsområde är talaradaptering i realtid, dvs löpande anpassning av ett taligenkänningssystem efter användarens röst. Här försöker forskarna ta fram ett system som fungerar i bakgrunden och helt obemärkt analyserar talaren samtidigt som han eller hon använder systemet. Det behövs inga separata träningspass. Ett annat område är metoder för att finna röstspecifika särdrag så att man kan använda rösten för personidentifiering.

Upptäck F&F:s arkiv!

Se alla utgåvor