Datorn åter som översättare

Maskinöversättningen gör comeback. En dator kan i dag översätta riktigt hyggligt, förutsatt att ämnet är begränsat. För att gå vidare krävs bättre lexikon, men även här är forskarna en lösning på spåren.

Text Anna Sågvall Hein

Publicerad 2004-01-01

Nu kan en dator göra en bra översättning av en teknisk text inom ett avgränsat ämnesområde. Förutsättningen är att det finns en gedigen språkbeskrivning som omfattar språken man översätter från och till, samt förhållandet mellan språken i fråga. Det krävs också en avancerad översättningsmotor, som kan sätta språkbeskrivningen i arbete.

Det finns också enklare system som utifrån begränsade språkliga data ger översättningar av lägre kvalitet. I gengäld finns dessa översättare på fler språk och kan arbeta inom större områden. Intensiv forskning pågår om storskalig återanvändning av tidigare översättningar i så kallade statistiska översättningssystem. Kvalitetsöversättningarna är än så länge hänvisade till begränsade ämnesområden, till exempel handböcker för fordonsunderhåll.

Båda typerna av översättning har sina givna tillämpningar. I det ena fallet gäller det att ge ett hum om vad texten behandlar. I det andra rör det sig om att åstadkomma så hög kvalitet att översättningen håller för publicering efter smärre redigering.

Övertro bland tekniker

Redan i mitten av 1950-talet gjordes de första försöken att få datorer att översätta från ett språk till ett annat. Det gällde att översätta från ryska till engelska, och verksamheten koncentrerades till Georgetown University i USA. Projektet finansierades av militära medel och var en del av det kalla kriget. Även i Sovjet gjordes tidiga försök, fast åt andra hållet, från engelska till ryska.

Utgångspunkten för de tidiga försöken var den höga tilltron till de nya datamaskinerna med deras stora lagringskapacitet och snabba bearbetningsförmåga. Väldiga summor satsades på verksamheten, som leddes av ingenjörer utan egentliga språkkunskaper. Tekniken var mycket enkel och begränsade sig till översättning ord för ord på basis av tvåspråkiga lexikon. Man hade till exempel inga tekniker för att hantera flertydigheter eller skillnader i ordföljd.

Naturligt nog ledde detta till märkliga och dåliga översättningar. De högt ställda förväntningarna kom på skam, och verksamheten kom av sig.

Forskningen gick dock vidare, om än med mindre resurser och nedskruvade förväntningar. Samtidigt utvecklades andra grenar av språkvetenskapen. Det gäller framför allt nya formella sätt att beskriva språk, liksom metoder att automatiskt samla kunskap om språk ur stora textmaterial. Mest förvånande har det kanske varit att statistiska bearbetningar av språk visat sig ge så goda resultat.

Fortfarande kan en dator inte översätta en godtycklig text helautomatiskt med samma kvalitet som en kvalificerad mänsklig översättare. Skönlitteratur har man inte någon ambition alls att översätta.

Hur går det till?

Facktext inom avgränsade ämnesområden kan man alltså nu maskinöversätta så bra att resultatet är jämförbart med mänsklig översättning. Dessa system sätter in orden i sina grammatiska och betydelsemässiga sammanhang innan de översätts.

Om uttrycket vid kontakt med mekaniker skulle översättas till engelska med ett ord-för-ord-system skulle resultatet kunna bli smått komiskt at switch with mechanics eller kanske, något bättre, at contact with mechanics. En kvalitetsöversättning ser att kontakt i detta fall har verbbetydelse och att uttrycket i sin helhet bör bli: when contacting mechanics.

En automatisk kvalitetsöversättning sker normalt i tre steg: analys, transfer och syntes. Först analyseras originalmeningen. Resultatet blir en beskrivning av meningens grammatiska struktur. I analyssteget kan flertydigheter lösas, så att översättningen blir korrekt.

Transfer är det egentliga översättningssteget. Här omvandlas källspråkets struktur till en struktur på målspråket.

Syntessteget, sist, kan ses som ett bakvänt analyssteg, där en ny mening skapas på målspråket utifrån en struktur och dess ord.

En modell av det här slaget kräver omfattande språkliga resurser. Det behövs dels lexikon och grammatik för båda språken var för sig, dels översättningslexikon och grammatiska översättningsregler för språken tillsammans. Traditionella grammatiker och lexikon ger vägledning, men de är inte formulerade på rätt vis.

Låg kvalitet ändå användbar

Mindre språkligt krävande är de system som utvecklats från de naiva ord-för-ord-översättningarna. Texten som dessa system ger är ingen slutprodukt, men den kan ge en uppfattning om vad originalet behandlar. Särskilt intressanta blir dessa system när ursprungstexten är på ett språk som de flesta svenskar inte har någon kunskap om alls, som rumänska, ryska, hindi, arabiska eller swahili.

Ett annat intressant användningsområde för dessa enklare program är sökning i material på flera olika språk. Systemen bygger till stor del på igenkänning av enskilda ord. De fungerar eftersom det viktiga är att snabbt och lätt kunna söka, snarare än att få fram en sammanhängande text.

Eftersom man inte strävar efter att få fram en grammatisk tolkning av den mening som ska översättas, är kraven på de språkliga resurserna inte så stora. Viktigast är det tvåspråkiga lexikonet. Där finns inte bara enstaka ord utan även fraser och längre uttryck, till exempel med hänsyn till som blir in view of. På så sätt kan vissa av flertydigheterna lösas.

Bearbetningen av texten sker i ett antal omgångar. I den viktigaste slår systemet i lexikon och byter ord och fraser. I övriga omgångar tar systemet hand om olika översättningsproblem. Det kan handla om val av prepositioner eller om ordföljd. Kvaliteten är i första hand beroende av lexikonets kvalitet men också av hur väl man har lyckats fånga upp olika typiska översättningsproblem. Avsaknaden av en grammatisk beskrivning leder dock till att det blir omöjligt att ta hand om vissa problem, som till exempel verbens olika konstruktioner i olika språk.

I båda strategierna för översättning krävs det speciellt anpassade lexikon. På senare år har forskarna intresserat sig för hur man ska kunna bygga sådana lexikon automatiskt och i stor skala. Ett sätt är att försöka komma åt den kunskap som finns inbyggd i existerande översättningar. Det handlar dels om att skapa översättningsminnen som innehåller hela meningar, dels om att automatiskt plocka ut olika översättningar av ord och längre uttryck.

För att skapa dessa lexikon använder man ett slags länkningsteknik. Datorn ställer upp originaltexten och dess översättning bredvid varandra menings- och styckevis. Länkningen av orden och fraserna är huvudsakligen statistisk och försöker inte analysera ordklasser eller satsdelar. Programmen letar i första hand efter par av ord och fraser som förekommer i många meningspar. Programmet reagerar också på ord som ser lika ut, till exempel svenskans fönster och tyskans Fenster.

Med rent statistiska metoder kan man finna mer än hälften av alla ord och fraser och deras översättningar med god träffsäkerhet. Genom att också införa viss kunskap om ordens språkliga roller kan man när det gäller vissa språk öka andelen träffar till närmare 70 procent.

Resultaten blir förvånansvärt bra om lexikon som är skapade på detta vis används direkt i översättningsprogram. Intensiv forskning pågår nu med att öka både täckningen och träffsäkerheten i systemen. Särskilt tittar man på hur man ska kunna förbättra dem genom att bygga in språkkunskap i de statistiska maskinerierna.

I de kvalitetsorienterade översättningssystem som översätter i flera steg prövar forskarna i stället att arbeta i motsatt riktning. Där undersöker man hur systemen ska kunna bli mer robusta – hur de ska klara meningar som inte täcks helt av språkbeskrivningen.

Kontrollerat språk

Ett annat sätt att få riktigt bra automatiska översättningar är att använda dem inom ett starkt begränsat område, som tekniska manualer. Här är problemet med flertydigheter oftast mindre, och lexikonet tar bara upp de betydelser som är aktuella inom området.

Om språket dessutom är avgränsat, så att bara ett bestämt antal ord får användas, kan man garantera att maskinöversättningslexikonet har full täckning. För texter om bilunderhåll är storleken på en sådan vokabulär omkring 15 000 uppslagsord. Man kan också begränsa den grammatiska strukturen i ursprungstexten. Då kan det grammatiska steget i systemet göras heltäckande.

Låt maskinen jobba själv

Slutresultatet påverkas också av samspelet mellan människa och dator. Normalt sker det dock inget egentligt samarbete mellan maskinen och översättaren under översättningens gång. Det vanligaste är att den maskinöversatta texten granskas av en översättare eller skribent först efter det att maskinen har gjort sitt jobb.

En annan modell är dock att en språkexpert granskar texten i förväg och redigerar den i enlighet med översättningssystemets krav. Man har också provat att bygga in en frågefunktion i översättningssystemet, där skribenten eller översättaren under översättningens gång löser flertydigheter och andra problem. Erfarenheten visar dock att användarna är tveksamma till detta. Översättarna vill hellre gå in i en text efter att maskinen är helt klar.

Engelska till franska går nu bra

EU:s officiella översättningsbyrå har ett system som klarar 18 olika språkkombinationer, som engelska till tyska, engelska till franska, franska till belgiska och så vidare. Programmet kallas Systran och används av EU:s översättare och administratörer. År 2002 utförde det fler än hundra tusen översättningsuppdrag, och användningen fortsätter att öka.

Översättningskvaliteten varierar mellan olika språk, beroende på hur långt man har hunnit i utvecklingen av framför allt lexikonet. Engelska och franska har funnits med länge, och där är kvaliteten hög. Grekiska och nederländska har kommit in senare, och där når man mer blygsamma resultat. Att införa ett nytt språk i Systran tar mellan tre och fyra år.

Den första Systranversionen avsåg ryska och engelska och tillkom redan på 1970-talet. Systran var då ett direktöversättningssystem. Gradvis har det kommit att utvecklas mot ett system som också tar hänsyn till grammatiken.

För närvarande pågår arbete med att infoga översättning från svenska till engelska i Systran. En fungerande prototyp med ett lexikon på cirka 30 000 ord ska vara klar nu i januari 2004. Därefter kommer det att krävas ytterligare arbete för att höja nivån på översättningarna så att användningen verkligen lönar sig i det dagliga arbetet.

MATS översätter fordonsmanualer

I Sverige var vi tidigt intresserade av maskinöversättning. Vid Lunds universitet utvecklades redan på 1980-talet en forskningsprototyp för översättning av väderleksrapporter, kallad Swetra. Ett avancerat program för översättning i flera steg har också utvecklats vid Uppsala universitet. Till programmet, som kallas Multra, har vi tagit fram lexikon och grammatik för översättning från svenska till engelska. Experiment har också gjorts med översättning till tyska och ryska.

Lexikonet består av en allmän del och en ämnesspecifik del. Det ämnesområde som vi i första hand inriktat oss på är bil- och bussunderhåll, och utvecklingen av det ämnesspecifika lexikonet har skett i samarbete med Scania i Södertälje. Multra har integrerats i ett system, kallat MATS, som översätter hela dokument. MATS är också tillgängligt via webben. En intressant forskningsfråga gäller hur man ska kunna göra systemet robustare genom att utnyttja delanalyser. En annan handlar om att bygga in en minnesfunktion för återanvändning av bra jobb.

Eftersom vi inte kan räkna med helt korrekta översättningar är det viktigt att kunna ange hur pass bra systemet är. Det handlar dels om hur mycket av en text som systemet klarar av, dels om hur bra översättningarna är. I MATS-systemet anges därför hur många meningar som översatts, hur de olika stegen lyckats och vad som saknas i lexikonet.

För att bedöma kvaliteten på de texter som producerats jämför vi med en modellöversättning, ett facit. Jämförelsen sker automatiskt och resulterar i ett mått som anger hur nära modellöversättningen vi kommer. På detta vis kan vi träna ett system medan det utvecklas. Om systemet tränas med en textmängd på cirka 50 000 ord, är sannolikheten stor att samma kvalitet ska kunna uppnås i andra texter inom samma ämnesområde och av samma typ.

Kombinationssystem och talat språk

Dagens maskinöversättning är sålunda tillräckligt bra för att skapa översättningssystem för kvalitetsöversättningar. Vad som brister är dock tillgången på lexikon, grammatik och språkliga regler. Särskilt viktigt är det att kunna förbättra teknikerna för återanvändning av tidigare översättningar. Hur man på bästa vis kan kombinera olika översättningsstrategier och återanvändning av översättningar är en fråga i forskningsfronten.

En annan aktuell forskningsuppgift är att få systemen att överblicka mer än en mening. Det skulle ge bättre flyt i texten och dessutom ge underlag för översättning av pronomen som hon och deras. Att översätta talat språk är ytterligare en stor utmaning. Men det är en helt annan femma.

En mening – tre översättningar

Den svenska meningen ”I oljefilterhållaren sitter en överströmningsventil” ska översättas till engelska.

Bara lexikon

”In the oil filter retainer sit an overflow valve” Orden är var för sig korrekt översatta, men sit blir ändå fel. Programmet känner inte till begreppet subjekt och predikat och har sålunda inte fått det engelska verbet på rätt plats och i rätt form.

Lexikon och viss grammatik

”In the oil filter retainer an overflow valve sits” Programmet har hittat subjektet och fått verbet på plats och i rätt form. Däremot har det valt en standardöversättning av verbet (sits), som inte passar in i sammanhanget.

Avancerat lexikon och full grammatik

”The oil filter retainer has an overflow valve.” Programmet har gjort en omskrivning av meningen för att få fram en översättning av sitter som passar in i sammanhanget. Omskrivningen bygger på att ordet är kopplat till en översättningsregel som känner igen omgivande satsdelar.

Fel språk

I artikeln *Datorn åter som översättare* ska det stå om översättningar till nederländska, inte till belgiska (som inte är något språk).

Samhälle & kultur

F&F kommenterar Kristofer Dittmer

Får forskare ifrågasätta ekonomisk tillväxt?

F&F:s Kristofer Dittmer reagerar på ett obefogat slag mot den akademiska friheten.

ekonomi

”Rymden blir en arena för våra idéer”

Avslöjar språket något om hur vi tänker när vi försöker förstå rymden? Språkvetaren Kajsa Törmä har studerat vilka ord vi använder när vi beskriver det som finns bortom jorden.