Kungliga biblioteket: Guldgruva för AI
Kungliga bibliotekets stora samlingar är en guldgruva för AI-forskare. F&F har besökt bibliotekets labb där forskarna bygger språkmodeller som blir allt bättre på att förstå text.
Tillgången till data var en av de saker som lockade språkteknologiforskaren Love Börjesson att bli föreståndare för Kungliga bibliotekets labb för datadriven forskning, KB-labb, när det startade för två år sedan.
– Här finns Sveriges bästa samlingar av text, säger han.
Allt som trycks, sänds i radio eller tv och mycket som publiceras på internet sparas hos KB. Här finns allt från historiska dokument från 1600-talet till de senaste numren av alla svenska dagstidningar.
Vassare språkmodeller
Än så länge är bara en bråkdel digitaliserat, men arbetet med att föra över materialet i digital form pågår. För Love Börjesson kan det inte gå fort nog. Mer data betyder att labbet kan bygga vassare språkmodeller och skapa bättre förutsättningar för att forska på KB:s samlingar, vilket är syftet med labbet.
Hans två kontor speglar de världar som möts i forskningen på labbet. Det ena med högt i tak ligger i bibliotekets pampiga huvudbyggnad i Humlegården i Stockholm. Det andra är inhyst i ett kontorskomplex från 1970-talet ett par kilometer österut och ser ut som på vilket it-företag som helst med sina stora glasfönster och fullklottrade whiteboardar.
– Här sker själva forskningen, förklarar han.
Vid en datorskärm står Martin Malmsten, en av labbets sex medarbetare. Han har precis dragit igång det senaste projektet, en artificiell intelligens-modell som översätter tal till text. Resultatet ser inte så övertygande ut. Meningarna som datorn spottar ur sig medan den lyssnar på en lokalradiosändning är mest rappakalja, men här och där dyker ett begripligt ord upp.
– Träningen har precis startat. Vänta bara några veckor, säger Martin Malmsten.
AI-modellen lär av radioprogram
Att transkribera tal har datorprogram kunnat göra länge. Poängen med den här AI-modellen är att den lär sig på egen hand bara genom att lyssna på radioprogram efter radioprogram.
Den här typen av inlärning, där AI lär sig av stora datamängder utan mänsklig hjälp, har lett till en helt ny generation språkmodeller, som är mycket bättre på att förstå sammanhang och att skilja på ord som kan ha flera olika betydelser. En annan finess är att de kan fintränas för att utföra en viss uppgift. Det kan vara att till exempel skilja på ledare och kulturartiklar i tidningar, eller plocka ut ord av vissa kategorier som platser, tidpunkter eller namn.
Tal till text-modellen som kämpar med lokalradion ska senare fintränas med tal som redan översatts till text. Efter det ska den vara redo att skriva ut inspelat tal ur KB:s arkiv.
– Det är i alla fall vad vi hoppas och vi är rätt säkra på att det kommer att fungera, säger Love Börjesson.
KB-labb har redan byggt flera av de hittills största språkmodellerna på svenska. Utvecklingen leds av stora amerikanska företag och forskningsorganisationer, och Love Börjesson ser det som en viktig uppgift för KB att bygga svenska versioner.
KB-Bert är fri att använda
Forskarna på KB-labb har utgått från en språkmodell från Google som kallas Bert (döpt efter en figur i tv-dock-showen Mupparna, men även en förkortning av bidirectional encoder representations from transformers). Med Bert som grund byggde de en svensk version, KB-Bert, som är fri att använda. KB-Bert tränades med digitala data i form av tidningar, böcker och utredningar, kompletterat med svenska Wikipedia och sociala medier. Här krävs försiktighet, betonar Love Börjesson, eftersom modellen får samma bild av världen som sina indata. Ska den användas på till exempel Arbetsförmedlingen kan den inte vara full av fördomar.
Arbetet tog drygt ett halvår. Nu finns KB-Bert i flera varianter och används på många ställen.
– Företag och myndigheter använder det till allt möjligt, från att förenkla dokumenthanteringen till att anlägga nya busshållplatser, säger Love Börjesson.
Inte minst inom humaniora och samhällsvetenskap betyder bättre språkmodeller nya möjligheter, understryker han. Exempel på forskning som kan dra nytta av de nya smarta språkmodellerna är litteraturforskare som vill undersöka hur en författare influerats av andra.
– Eller du kanske vill undersöka vilka genomsnittliga känslolägen som är kopplade till vissa platser i tidningarnas rapportering. Hur skiljer sig Rinkeby från Hjo?
Inom statsvetenskap och juridik blir det enklare att studera kedjan fram till nya lagar och hur de tillämpas, till exempel från metoo-debatten i medierna till de första domarna enligt en ny sexualbrottslag.
En kö av forskare vill utnyttja labbet, berättar Love Börjesson. För honom och hans medarbetare innebär det mycket arbete med att ”fixa till” KB:s data så att det blir användbart för forskarna.
Ett hinder i sammanhanget är att forskarna inte kan ta med sig materialet, utan fysiskt måste sitta på KB. Detta av upphovsrättsskäl men även av säkerhetsskäl.
– Undrar någon vad Stefan Löfven egentligen sa i Almedalen måste våra samlingar vara korrekta. Det får inte finnas skuggan av tvivel att de är manipulerade. Då faller hela idén.
Nordiskt samarbete
För att komma runt detta deltar KB-labb i ett pilotprojekt tillsammans med bland annat det norska nationalbiblioteket, med målet att det ska bli möjligt att komma åt KB:s data, utan att det lämnar lokalerna.
På så sätt hoppas Love Börjesson kunna samarbeta med övriga nordiska nationalbibliotek och bygga en ännu större nordisk textmodell. Men planerna stannar inte vid text. Nästa steg blir att även baka in ljud och bild från KB:s stora samlingar. De första stegen mot sådana så kallade multimodala modeller har redan tagits.
Den snabba utvecklingen innebär stora förändringar för forskare, liksom för många andra yrkesgrupper som kanske tänkt att de inte berörs av automatiseringstrenden, varnar han.
– När modellerna lär sig både höra och se kommer de få nya förmågor som att fånga upp ansiktsuttryck och förstå svåra saker som ironi. Den som inte är vaksam kan lätt bli förbisprungen, säger Love Börjesson.
Det gäller även honom själv.
– Om ett antal år är kanske det vi utvecklar här vardagsmat, och behövs vi inte längre är det dags att lägga ner och låta någon annan starta ett nytt labb.
Om labbet
KB-labb startades 2019 för datadriven forskning med utgångspunkt i Kungliga bibliotekets digitala samlingar. Med hjälp av den senaste tekniken ska labbet göra det enklare för forskare att utnyttja bibliotekets stora samlingar. Labbet bygger även storskaliga, svenska språkmodeller med AI.
Prenumerera på Forskning & Framsteg!
10 tidningsnummer om året och dagliga nyheter på fof.se med kunskap baserad på vetenskap.