Språkdator skiljer på tjejer och grönsaker

Idag finns teknologi som kan tolka text nästan lika bra som människor. Men den går ofta bet på ord som har flera betydelser. Nu har forskare hittat en metod där datorn spetsar sin ordförståelse med hjälp av lexikon.

Text Oskar Alex

Publicerad 2019-09-18

I sin doktorsavhandling på Göteborgs universitet presenterar Luis Nieto Piña ett nytt sätt för datorer att lära sig automatisk textigenkänning.
Bild: iStock Photos

Att uttrycket ”en riktig söderböna” inte ska tas bokstavligt har människor lätt att förstå.

Från tidig ålder lär vi oss nämligen att ord kan ha flera betydelser. Blir vi osäkra finns det lexikon till hjälp, där lingvister lagt tusentals timmar på att katalogisera ordens olika betydelser.

Men de flesta mjukvaror som tolkar text arbetar inte alls på samma sätt, och de fel det kan resultera i har du säkert redan stött på – exempelvis om du använt autoöversättning från svenska till engelska.

Men nu har forskare tagit fram en ny datormodell som kan hålla isär söderbönor och kidneybönor utan problem, genom att härma hur vi gör. Dessutom på nästan alla språk.

– Jag tror att det här var ett naturligt nästa steg inom området semantiska modeller, säger Luis Nieto Piña som presenterat den nya modellen i sin doktorsavhandling vid Göteborgs universitet.

Statistiska modeller – effektiva men begränsade

Program som behandlar text automatiskt kan användas på flera sätt. Översättning är ett exempel, ett annat är appar som summerar långa nyhetsartiklar.

För att lära sig ordbetydelser tränar de flesta av dagens datormodeller på stora mängder text, ett så kallat korpus, genom att räkna hur ofta ord förekommer i olika sammanhang. De kallas därför ”statistiska”.

Många olika betydelser av ordet mus tävlar här om samma ”plats” – något Luis Nieto Piña ville åtgärda genom att stycka upp antalet definitioner.
**Bild:** projector.tensorflow.org

Problemet är att modellerna byggts så att ord bara kan få en betydelse – den vanligaste. För ett ord med flera betydelser uppstår digital förvirring: ena dagen betyder böna ”grönsak”, och andra dagen ”tjej”.

– Vi kallar det för ”conflation”, alltså att flera betydelser kläms ihop och kvalitén på översättningen blir lidande, säger Luis Nieto Piña.

Lade till lexikon som övervakare

Utöver de statistiska modellerna finns de regelbaserade, där system som bygger på lexikon ingår. De har inte forskats så mycket på sedan 1990-talet när de effektiva ordräknande statistiska modellerna kom, och som fortfarande fungerar bra idag. Åtminstone för de områden som inte står och faller med att alla ordbetydelser blir exakt rätt.

Men på Språkbanken, forskningsenheten där Luis Nieto Piña doktorerat, har man fortsatt att jobba med lexikon på olika sätt. Det inspirerade honom att vilja kombinera modellerna.

– Vi har alla de här resurserna från våra lexikon, och sedan även de ordbaserade modellerna som är väldigt effektiva. Kanske skulle det gå att sätta ihop dem, säger han.

En ordbetydelsebaserad modell där åsna har två betydelser — En modell för ordet ”åsna” som här fått två kluster av definitioner istället för en.
**Bild:** Luis Nieto Piña

Hans modell gör precis det, genom att vända på steken. Ord förutsätts kunna ha flera betydelser redan från början. Modellen lär sig fortfarande genom att scanna av stora textmängder – men hålls stramt kopplad till ett lexikon.

– Då får vi både den robusta träningen från vårt korpus, men också övervakningen från lexikonet. ”Du ser det där, men det ska vara så här, inte så där”.

Källkoden kan göras tillgänglig i framtiden

Det har gjorts liknande försök att kombinera lexikon och korpus för att få fram ordbetydelser – men då som tvåstegsraketer, vilket tar längre tid. Luis Niteo Piñas modell gör allt samtidigt. Men det finns en hake.

– Försöker man bygga ett system för ett språk som saknar lexikon eller motsvarande går modellen inte att applicera. Den krävs att man har tillgång till resurserna, säger han.

I dagsläget finns inte modellen tillgänglig någonstans, men i framtiden kan den bli open-source, det vill säga att källkoden görs tillgänglig.

– Om det finns intresse kan det självklart göras offentligt så att den som vill kan använda den.