Metas nya AI-modell översätter tal till tal direkt mellan över 100 språk
En liten fisk i örat som översätter simultant från ett talat språk till ett annat. Så fungerar Babel Fish i science fiction-romanen Liftarens guide till galaxen. Nu arbetar forskare med att skapa liknande hjälpmedel. Målet är simultantolkning med hjälp av dator eller robot i stället för människor.
Ett steg närmare detta tas av en ny AI-modell som presenteras i tidskriften Nature. Forskare på företaget Meta Foundational AI Research i Paris har tagit fram modellen som kan göra direkta tal till tal-översättningar för upp till 101 språk.
AI-tolkning i vården
– Att kunna översätta talat språk i realtid automatiskt har en mängd tillämpningar. Till exempel har det varit en del diskussioner om hur nyanlända ska få tillräckligt med tolkning i kontakt med bland annat vården, säger Gabriel Skantze, professor i talteknologi vid Kungliga tekniska högskolan, KTH, i Stockholm.
Enligt Meta fyller modellen kallad SeamlessM4T luckor i de system för översättning som redan finns. Modellen stöder flera översättningssätt, mellan ett större antal olika språk än tidigare. Dessutom översätter den tal till tal med nära 23 procents större noggrannhet än befintliga system. AI-modellen kan även filtrera bort bakgrundsljud och anpassa sig efter olika högtalare.
Översätter direkt från talat språk
Det speciella med den här typen av modeller är att de kan översätta talat språk direkt, utan att först gå via en transkription, förklarar Gabriel Skantze. Traditionella system transkriberar först tal till text, sedan översätts texten och därefter görs talsyntes, text till tal.
– När man gör så tappar man en hel del information på vägen, eftersom skrivet språk bara fångar en liten del av all uttrycksfullhet som talat språk har – till exempel betoningar och känslolägen. Den här typen av nyare modeller kan få med sådana aspekter i översättningen, säger Gabriel Skantze.
Finns det några risker med den här typen av AI?
– En möjlig risk är att vi börjar förlita oss för mycket på den och att fel i översättningar leder till allvarliga missförstånd. En mänsklig översättare har ju möjlighet att i högre grad avgöra vad som är rimligt, givet kontexten, och kan ställa frågor om något är oklart. Det har fortfarande sådana här AI-modeller svårt att göra, säger Gabriel Skantze.
Han påpekar även att det redan finns kommersiella tillämpningar som kan göra liknande saker i varierande grad.
Enligt Meta fortsätter utvecklingen av SeamlessM4T och ytterligare optimering krävs innan den är ett färdigt verktyg. Men framstegen är ändå viktiga för att förbättra kommunikation över språkbarriärer. Utöver simultantolkningen erbjuder modellen tal till text-översättning (från 101 till 96 språk), text till tal-översättning (från 96 till 36 språk), text till text-översättning (96 språk) och automatisk taligenkänning (96 språk).
Kunskap baserad på vetenskap
Prenumerera på Forskning & Framsteg!
Inlogg på fof.se • Tidning • Arkiv med tidigare nummer