Kvantitet gäller för datorn som hör

Hörande datorer tolkar mänskligt tal genom statistik snarare än finess.

Teknik

Text Kåre Sjölander

Publicerad 2000-03-01

I dag kan vissa mobiltelefoner ringa upp en vän när du säger hennes namn. Det går också att få uppgifter om tågtrafik via telefon med hjälp av rösten, fast ingen telefonist är inkopplad.

Tekniken imponerar genom att den faktiskt lyckas tolka tal korrekt, men jämfört med människans förmåga är den fortfarande mycket begränsad. I en telefonkonversation mellan två människor klarar inte dagens allra bästa system för automatisk taligenkänning att tolka mer än två av tre ord rätt. Och då är ändå en telefonkonversation en bra miljö för en lyssnande dator. Om det finns bakgrundsstörningar, som buller eller musik eller andra ovidkommande talare, blir resultatet förödande dåligt. Även om det börjar komma metoder för att skilja t ex tal från musik eller för att analysera komplicerade ljudmiljöer, är den mänskliga hörseln helt överlägsen datorns.

Det hindrar inte att det kommit en del framgångar för taligenkänning på senare tid. Dessa resultat bygger på digital signalbehandling i kombination med avancerade statistiska metoder. Först spelas yttrandet in. Sedan omvandlas det till en serie av mönster. Dessa mönster jämförs med referensmönster för olika språkljud. Sista steget är att söka reda på en ordsekvens som stämmer överens med mönstren.

I det första steget är det mycket data som spelas in, omkring 100 000 bitar per sekund. För att minska mängden tar man en stillbild av talets spektrum var hundradels sekund. Stillbilden beskriver mängden ljud i olika frekvensområden. Man försöker sedan ta bort skillnader i röstläge och talstyrka. Målet är att få mönster som är karakteristiska för olika talljud. Alla a-ljud ska vara lika varandra men olika alla andra talljud.

För att skapa referensmönster åt systemet, så att det har kunskap om hur mänskligt tal låter, spelar man in flera tusen talare. Utifrån detta skapas genomsnittliga mönster för de svenska talljuden. Eftersom ett a låter olika beroende på faktorer som kön, ålder, dialekt och intilliggande talljud skapar man flera olika mönster för varje ljud.

Ett sätt att öka systemets noggrannhet är att låta det anpassa sin modell av hur en talare låter. Det kan göras genom att talaren får läsa en text som visas av datorn. Användaren får helt enkelt hjälpa till med att i förväg öva upp systemet. Sedan används det inspelade talet för att modifiera de akustiska modellerna för språkljuden.

Ett problem med dagens taligenkänningssystem är att de alltid genererar ett resultat utifrån ett yttrande. Om användaren säger något otydligt eller några ord på ett annat språk än svenska kommer systemet ändå att efter bästa förmåga välja den svenska mening som låter mest lika. Naturligtvis blir resultatet därefter. Här försöker man utveckla metoder för att poängsätta yttranden efter hur pass sannolika de är. Yttranden som är mycket osäkra kan då förkastas.

Ett annat intressant forskningsområde är talaradaptering i realtid, dvs löpande anpassning av ett taligenkänningssystem efter användarens röst. Här försöker forskarna ta fram ett system som fungerar i bakgrunden och helt obemärkt analyserar talaren samtidigt som han eller hon använder systemet. Det behövs inga separata träningspass. Ett annat område är metoder för att finna röstspecifika särdrag så att man kan använda rösten för personidentifiering.

Teknik

Multisensor gör skärmen tunnare

Forskare i Linköping har utvecklat en ny typ av digital skärm där flera olika sensorer ersatts av en enda. Utmaningen är att förbättra livslängden.

Premium

perovskit

Så ska lastbilar krocka säkrare

Lastbilar är överrepresenterade vid dödsolyckor, och en personbilsförare överlever i regel inte en frontalkrock med lastbil. Nu har forskare utvecklat en unik lastbilsfront som är designad för att inte döda.

Premium

trafiksäkerhet

Så funkar satelliternas banor

Antalet aktiva satelliter runt jorden är snart 10 000. F&F reder ut var satellitbanorna ligger – och varför.

Premium

rymdfart

Så funkar bränslecellen

I bränsleceller skapas elektricitet direkt ur en kemisk reaktion, i stället för via värme.

Premium

kemi

Så tog elbilarna över i Norge

Drygt fyra av fem nya bilar i Norge går på el. Målet är att nå 100 procent i år. Hur blev oljelandet Norge ett eldorado för elbilar?

Premium

elbilar

Fortsatta planer på ny kärnkraft vid Ringhals

Statliga Vattenfall går vidare med sina planer på att bygga nya kärnkraftsreaktorer intill de nuvarande vid Ringhals. Men om det blir små modulära reaktorer, så kallade SMR, eller stora traditionella kärnkraftverk är ännu inte klart.

Premium