
Bild: Getty images
Så fick maskiner en röst
På 1700-talet: mekaniska vokalpipor. I dag: talande AI. Forskaren Axel Ekström berättar om utvecklingen av talande maskiner – inklusive Ove, en uppmärksammad radioröst på 1950-talet.
Jag bestämmer mig för att göra ett experiment med en lång och ganska krånglig vetenskaplig artikel om talorganens evolutionära utveckling som jag skrivit tillsammans med arkeologer och antropologer. Jag matar in den i Googles nya tjänst NotebookLM. Den är byggd för att sammanfatta stora mängder information och göra den begriplig. Det som är mest intressant för min del är att man också kan ta del av materialet i form av en poddsändning där två data-genererade röster pratar om innehållet.
Programmet bygger på artificiell intelligens av samma slag som Chat GTP, en så kallad språkmodell tränad på stora mängder data. Tekniken att generera text och kombinera den med talsyntes är i sig ingen nyhet, men resultatet är minst sagt underhållande.
Efter att jag matat in min text blir jag ombedd att vänta.
Det tar mindre än två minuter att generera en halvtimmes lyssning. Podden börjar med att den kvinnliga samtalspartnern entusiastiskt berättar om det hon nyss fått lära sig om talapparatens utveckling. Konversationen ger faktiskt en vettig bild av innehållet i den vetenskapliga artikeln.
Stort intresse för syntetiska röster
Talet är det naturliga sättet att kommunicera för de allra flesta människor. Därför är det föga förvånande att syntetiska röster väcker stort intresse. Vår fascination för talförmågan har en lång historia, med rötter tusentals år tillbaka i tiden.

Bild: Axel Ekström
Den jämförande anatomins grunder lades redan på 300-talet före Kristus av den grekiske filosofen Aristoteles, som också spekulerade om röstens och talets funktion. Han beskrev ljud, röst, och tal som tre olika fenomen. Ljud kunde uppstå på många olika sätt, till exempel på grund av vinden i en skog. Röster fanns hos djur med lungor, medan tal var något unikt mänskligt. Aristoteles menade att talets huvudsakliga organ var struphuvudet, tungan och läpparna.
Framgångar utanför rena beskrivningar skulle dock dröja. Det gick bra att dissekera avlidna djur och studera organen som gett dem en röst, men talforskningens föremål – själva talet – var mer svårtillgängligt. Först under upplysningen på 1700-talet blev talakustiken ett ämne att utforska på allvar. Det var en tid då vetenskapliga metoder började användas på bred front till att studera människan och naturen i övrigt.
År 1778 utlyste Vetenskapsakademien i Sankt Petersburg en pristävling med syfte att förstå och reproducera vokalljuden A, E, I, O och U. Den tyskfödde läkaren och ingenjören Christian Gottlieb Kratzenstein deltog, och kom att vinna första priset efter att ha byggt en ”vokalorgel”. Hans instrument använde fria rörblad – en teknik som i dag känns igen från musikinstrument som munspel och dragspel. Kratzensteins arbete var betydelsefullt eftersom det demonstrerade att mänskligt tal kunde förstås och reproduceras genom fysiologiska principer.
Wolfgang von Kempelen, en samtida ingenjör född i Ungern, är förmodligen mest känd för den ”mekaniska turken”. Det var en maskin som påstods vara byggd för att spela schack mot mänskliga motståndare. I själva verket rymde apparaten en schackspelande människa. Mindre känt är att von Kempelen också låg bakom sin tids mest avancerade försök att skapa syntetiskt tal. Hans apparat hade en blåsbälg kopplad till en anordning byggd för att efterlikna det mänskliga ansatsröret (som består av svalget, mun- och näshålorna, tungan och läpparna). Flera ventiler kunde tillslutas manuellt för att styra luftströmmen och efterlikna olika talljud. En rekonstruktion av von Kempelens sprechapparat finns i dag att se på Deutsches Museum i München, Tyskland, där den vittnar om talsyntesens långa historia.
Mot slutet av 1800-talet gjordes flera försök att systematisera talforskningen. Den engelske pastorn och ingenjören Robert Willis byggde fysiska modeller av talapparaten i von Kempelens anda, och kartlade också stämbandens muskulatur.
Fonetiska alfabet infördes
Det mest kända systemet att beskriva världens talspråk som fortfarande används är det internationella fonetiska alfabetet. Andra försök gjordes av Alexander Melville Bell, pappa till Alexander Graham Bell, som gått till historien som telefonens uppfinnare.
Källan och filtret
Språkljud uppstår i två steg enligt källa–filter-teorin.
Under det sena 1920-talet genomgick talforskningen en revolution. Den började med att George Oscar Russell, talforskare vid Ohio State University i USA, publicerade de första röntgenbilderna av vokalproduktion. Den moderna talforskningen hade funnits i ett och ett halvt århundrade, men det var första gången tekniken hade gjort det möjligt att studera talfysiologin i rörelse. Utvecklingen kom att bädda för den moderna talakustiken, där den svenska ingenjören Gunnar Fant kom att bli en pionjär.
Den talande maskinen Ove intervjuas i Sveriges radio
Gunnar Fants bok The acoustic theory of speech production (Mouton 1960), för vilken han tillägnades en doktorsgrad från Kungliga tekniska högskolan i Stockholm, är än i dag ett standardverk. Redan år 1953 presenterade Gunnar Fant den talande maskinen Ove (Orator verbalis electricus). Den bygger på hans så kallade källa–filter-teori. Enligt teorin uppstår talet i samspelet mellan två element: källan och filtret. Luftströmmen från lungorna får stämbanden att vibrera, vilket skapar en grundton med övertoner. Detta är ljudkällan. Filtret består av ansatsröret. Det förstärker vissa frekvenser, så kallade formanter, och dämpar andra på ett sätt som ger upphov till de olika vokaler och konsonanter vi använder i tal.
Ett praktiskt exempel på hur teorin fungerar illustreras av ett samtal mellan Ove och en reporter på Sveriges radio. Metoden hade vissa begränsningar, vilket framgår från en inspelning gjord i slutet av 1950-talet:
Ett praktiskt exempel
Reportern: Är det roboten själv jag talar med?
Ove: iaa (ja)
Reportern: Är det säkert det?
Ove: iaa iaa (ja-ja)
Reportern: Det låter höra sig. Vad heter du?
Ove: Oo-eh (Ove)
Reportern: Ove heter du tydligen. Jaha. Och hur mår du då?
Ove: io iaa måw bwa (Jo, jag mår bra)
Reportern: Nämen, det var trevligt att höra.
Till vardags tänker vi sällan på hur talets akustik fungerar, till exempel vad som kännetecknar vokaler och hur de skiljer sig från konsonanter. I talakustikens historia har vokalljuden en tydlig särställning. Från Kratzensteins ”vokalorgel” till Fants ”Ove” låg fokus mer på vokaler än på konsonanter. Vad beror det på?
En viktig anledning är att vokalljudens akustik är förhållandevis enkel – både att studera och att höra. Vokaler tenderar att ha relativt stabila och konsekventa akustiska fingeravtryck. Dessutom består de av låga frekvenser som både hörseln och mätinstrument lätt fångar upp.

Bild: Peter Hall / Tekniska museet
Konsonanter är annorlunda. Krasst uttryckt är konsonanter alla talljud som inte är vokaler. De har mycket lite gemensamt med varandra. En konsonant kan vara en plötslig luftstöt som i t och k, ett utdraget brusljud som i f och s, eller närmast vokalliknande som l och r. De kan också produceras överallt i ansatsröret, från läpparna (b) till tungspetsen (d) eller långt ner i svalget (som sje-ljudet i sjö).
Med åldern tenderar människor att tappa förmågan att urskilja högre frekvenser, vilket gör att många äldre får svårt att särskilja vissa ord från varandra. Försök att uttala ord där konsonanterna har tagits bort. Det är lätt att förstå varför förståelsen blir lidande. Detta är också skälet till att det kan vara svårt att höra skillnad på ljud som f och s i ett telefonsamtal. Skillnaden ligger koncentrerad i högre frekvenser, vilka filtreras bort för att spara på bandbredd.
Senare versioner av Gunnar Fants talsyntes – Ove II presenterades 1962 – hade förmågan att uttala många tonade ljud, som m, n, och l. Men det kvarstod svårigheter med stötar och brus. Och det konstgjorda talet krävde fortfarande djupa kunskaper i talakustik eftersom varje yttrande behövde byggas manuellt genom att kontrollera inställningar och spakar på en enorm dator.

Bild: KTH
Gunnar Fant pionjär inom talakustik
Det föll uppenbarligen på Oves mänskliga samtalspartner att driva samtalet framåt. Maskinens säreget gammalmodiga tal bleknar i jämförelse med språkförmågan hos moderna AI-system som Apples Siri och Amazons Alexa. Men Gunnar Fants inflytande på talforskningen kan inte överskattas. Än i dag är hans källa-filter-teori en grundläggande förklaringsmodell inom tal- och bioakustiken. Att något så enkelt som enstaka frekvenser kunde uppfattas som stadiga nog att bära information (”Jo, jag mår bra”) var ett minst sagt revolutionerande fynd.
Under 1970- och 80-talen arbetade många forskare med frågan om hur det skrivna språket förhåller sig till talet. Det finns gott om exempel på att samma skrivna ord kan uttalas olika. En enorm utveckling av datorer och beräkningsmöjligheter bidrog till talteknologi baserad på tydliga regler (rule based text-to-speech).
De senaste årens utveckling av djupinlärning inom artificiell intelligens står för ett annat angreppssätt. Så kallade språkmodeller kan producera högrealistiskt tal. De når sina framgångar genom att kopiera och återskapa mönster, men säger ganska lite om hur talet uppstår eller bearbetas hos människan.
Desto mer kunskap om talet kommer från modern hjärnforskning. Ta till exempel forskning som leds av Yulia Oganian vid universitetet i Tübingen i Tyskland. Hennes grupp har visat att talinformation inte är begränsad till någon enskild plats i hjärnan utan kodas parallellt och distribuerat över olika delar av hörselbarken. Avancerade hjärnavbildnings- och analysmetoder avslöjar komplexa mönster av aktivitet som möjliggör samtidig bearbetning av olika aspekter av tal, såsom ljud och språklig betydelse. Grundforskningen har flyttat in i hjärnan.
Men även klassiska tillvägagångssätt lever vidare, i samma tradition som Kratzensteins och von Kempelens fysiska apparater. Med hjälp av magnetröntgen kan noggranna tredimensionella avbildningar av ansatsröret konstrueras. Forskare i Japan har använt den typen av fysiska modeller till att lära ut talakustikens grunder till skolungdomar.
Här kan du se fonetikforskaren Fabian Brackhane demonstrera en rekonstruktion av maskinen.
Hur ser framtidens talsyntes ut?
Modern talforskning tar många former, och praktiska tillämpningar kan både förstå och producera tal. Virtuella assistenter som Google Assistant och Amazons Alexa släcker lampor, sätter på musik, eller letar efter information på internet enligt ägarens talade instruktioner. Och den artificiella intelligensens språkmodeller kan tränas med stora mängder röstdata för att skapa representationer av hur uttryck ska låta. När modellen är tränad kan den generera naturligt ljud från text. Den kan skräddarsys för olika röster, språk och dialekter genom finjustering med specifika dataset. Här frågar vi oss, hur ser framtidens talsyntes ut?
Myndigheten för tillgängliga medier arbetar bland annat med att tillgängliggöra litteratur för människor med diverse nedsättningar. Program som NotebookLM och appar som Listening gör att användare kan ladda upp texter och på bara några minuter få en färdig ”inläsning” av förvånansvärt hög kvalitet. Om talteknologin fortsätter att göra framsteg i dagens tempo kommer framtidens lyssnare inte behöva vänta på mänskliga inläsare.
Allt eftersom talteknologin utvecklats har fokus förskjutits mot praktiska tillämpningar. Historiskt har komplexa maskiner, ofta byggda av enstaka universalgenier, bidragit till grundforskningen. Detta har bäddat för lättillgänglig talteknologi som lovar att göra vardagen lättare, det otillgängliga mer tillgängligt.
Den vetenskapliga artikel om talorganens utveckling jag testade att omvandla till en podd var ärligt talat inte så lättillgänglig. Den består av närmare femtio sidor akademisk text med mängder av fackord och data i form av tabeller och diagram. I form av en podd blev materialet mycket mer tillgängligt – även om de artificiella rösterna ibland lät nästan komiskt entusiastiska med glada tillrop som ”Häftigt!” och ”Fascinerande!”. Men visst är det fascinerande att talforskningen har lärt sig berätta om sig själv.
Axel Ekström

- Doktorsexamen i talkommunikation från avdelningen för tal, musik och hörsel vid Kungliga tekniska högskolan, KTH, i Stockholm.
- I dag gästforskare vid avdelningen för datorlingvistik vid Universität Zürich i Schweiz.
- Använder en kombination av datamodeller, akustisk analys och antropologiska metoder för att undersöka ljudproduktionsprocesser hos människor och andra djur.
Kunskap baserad på vetenskap
Prenumerera på Forskning & Framsteg!
Inlogg på fof.se • Tidning • Arkiv med tidigare nummer