Roboten sköter snacket
Är du redo att bli intervjuad av en robot nästa gång du söker nytt jobb? Sådana försök startar snart i Sverige. Med ny inlärningsteknik kan artificiell intelligens steg för steg klara allt mer avancerade samtal. Om forskarnas visioner blir verklighet kan vi inte avgöra om vi pratar med en maskin eller människa i framtiden.
Maya är nervös. Efter flera webbaserade tester har hon kallats till en första intervju för jobbet som projektledare på ett stort byggbolag. Hon stiger in i rummet och sätter sig i en stol vid bordet. Mitt emot henne sitter intervjuaren – en robot. Det människoliknande huvudet lyser upp.
– Hej Maya! Välkommen till den här anställningsintervjun, säger robotrösten vänligt.
– Hej, svarar Maya lite tvekande.
Efter några artighetsfraser sätter intervjun i gång.
– Berätta om när du senast jobbade i ett team, säger roboten och ler uppmuntrande.
Maya berättar, och efter en stund glömmer hon bort att hon pratar med en maskin. Roboten hummar och följer upp svaren med nya frågor. Det märks att den har läst på. Den vet allt om vilka jobb Maya haft tidigare och vilka olika utbildningar hon har. Efter en halvtimme är intervjun över.
– Tack så mycket, Maya! Vi kommer att höra av oss, avslutar roboten.
Det här påhittade scenariot är fullt realistiskt, enligt Åsa Edman Källströmer, vd för rekryteringsföretaget TNG i Stockholm. Redan nästa år planerar hennes företag att låta en robot hjälpa företagets rekryterare att intervjua jobbkandidater.
– Tanken är att roboten ska ta hand om det första urvalet när vi använder många standardiserade frågor, säger hon.
Robotens uppgift blir att skanna av kompetenser som samarbetsförmåga och initiativförmåga med hjälp av ett färdigt frågebatteri. Fördelarna är flera, enligt Åsa Edman Källströmer:
– Så länge vi laddar roboten med objektiva algoritmer är den neutral. Den engagerar sig inte känslomässigt och tar inte hänsyn till faktorer som kön, ålder, utseende eller etnisk bakgrund, vilket annars kan påverka bedömningen, säger hon.
Att algoritmerna ska vara objektiva kan låta självklart. Men i flera tidigare fall har försök med AI-system visat sig diskriminera kvinnor eller etniska grupper på grund av att algoritmerna som styr systemen haft en skev utformning. Det problemet vill TNG undvika genom att alla kandidater ska bedömas utifrån samma parametrar och på samma sätt.
Rekrytering är bara ett av många områden där talande och sociala robotar kommer att finnas inom en snar framtid. Utvecklingen går blixtsnabbt tack vare framstegen inom den gren av artificiell intelligens som kallas djupinlärning (se infografik).
Under lång tid var det hopplöst svårt att få robotar att förstå mänskligt tal och forskningen stod och stampade. Men i och med att tekniken med djupinlärning slog igenom för några år sedan har felfrekvensen rasat. Robotarna har inte bara blivit bättre på att tolka vad människor säger, de har också lärt sig att tala på ett mer naturligt sätt.
– Framstegen har gått mycket snabbare än vad jag kunnat ana. Robotar klarar i dag många uppgifter lika bra som en människa, så länge uppgifterna är väl definierade, säger Gabriel Skantze, professor i talteknologi vid Kungliga tekniska högskolan i Stockholm.
Han är en av fyra KTH-forskare bakom det sociala robothuvudet Furhat, som ska användas för att intervjua jobbkandidaterna hos TNG.
Furhat kan både tala och förstå en mängd språk. Och tack vare en kamera som följer huvudrörelser kan robothuvudet hålla reda på vem som pratar när det är flera personer som deltar i samtalet. En projektor inne i det konstgjorda huvudet ger liv åt ansiktet.
– Vi har lagt mycket jobb på att ge roboten en uttrycksfull mimik. På så sätt kan roboten visa känslor och det är en viktig del av all kommunikation, förklarar Gabriel Skantze.
Genom att roboten har ett ansikte skiljer den sig från de röstbaserade robotassistenter som redan finns i mobilen, i företags kundtjänster – eller de allt mer populära hemassistenterna i form av smarta högtalare som kan hjälpa till med vardagliga saker, som att hålla koll på hur länge äggen ska koka, välja ny spellista och beställa resor.
Furhat har bland annat prövats som hjälplärare i skolan, och i våras svarade den på frågor som: ”Är planet till Milano i tid?”, under ett fyra veckor långt test som trafikvärd på Frankfurts flygplats.
Enligt Gabriel Skantze kommer snart liknande sociala robotar att finnas i hotellreceptioner, på snabbmatsrestauranger och som guider på museum. Ju mer begränsad och förutsägbar en uppgift är, desto enklare är det att träna upp en robot att sköta den. Att jobba som rekryterare blir däremot en knepigare uppgift, enligt Gabriel Skantze:
– Då måste roboten förstå tillräckligt mycket av samtalet för att klara av att ställa relevanta följdfrågor. Och om personen som blir intervjuad ger vaga svar måste roboten kunna be om förtydliganden, exempelvis ”Kan du ge några andra exempel?”
Roboten måste också förstå vems tur det är att prata. Om det blir jättelånga pauser flyter inte samtalet smidigt och om roboten börjar prata i munnen på sin samtalspartner blir det rörigt.
Detta är något som Gabriel Skantze forskar på.
– Tonfall och hur de som deltar i samtalet riktar blicken ger signaler om vems tur det är att tala. Det försöker vi lära roboten med hjälp av djupinlärning. Målet är att roboten ska anpassa sig till motparten under samtalets gång.
För att samtalet ska kännas naturligt är det också viktigt att roboten kan tolka och använda korta återkopplingsljud, som ett instämmande hummande eller ett förvånat ”åh”. Detta är något som till exempel Google jobbar hårt med. Företaget har demonstrerat en röstassistent som är närmast omöjlig att skilja från en människa när den till exempel ringer upp och beställer tid hos frisören eller bokar bord på restaurang.
– Det är imponerande, men man ska komma ihåg att det bara fungerar för väldigt begränsade uppgifter med en förutsägbar dialog, säger Gabriel Skantze.
Tidigare byggde taligenkänning på att talet bröts ned till enstaka ljud – fonem – som sedan pusslades ihop igen till ord med hjälp av statistiska metoder och fonemlexikon. Det krävde både mycket tid och manuellt arbete.
Med djupinlärning behövs inte dessa mellansteg. I stället lär sig datorn att gå direkt från tal till text. Det kräver dock stora mängder träningsdata. För att lära sig att boka ett restaurangbesök, som i exemplet med Googles röstassistent, matas AI-systemet först med miljontals inspelade restaurangsamtal. Till slut har systemet analyserat proceduren att boka bord i sådan detalj att det klarar av att göra en egen bordsbeställning under nya förhållanden.
På samma sätt måste Furhat lära sig att intervjua jobbkandidater. Första steget är att träna på ett hundratal frivilliga personer. Så småningom kommer roboten att kunna göra riktiga intervjuer på egen hand – och ju fler den intervjuar, desto bättre blir den.
Nästa steg blir robotar som kan utföra mer generella uppgifter. Redan i dag pågår till exempel försök att lära robotar att konversera som en människa.
– Att föra ett samtal där svaren inte är givna är en svårare nöt att knäcka. Här hjälper det inte att ösa ner data i en svart låda och träna. Roboten måste då också ha ett visst mått av sunt förnuft och kunna läsa av tankar, viljor och intentioner, säger Gabriel Skantze.
Ett av de företag som försöker få robotar att föra fria samtal är det amerikanska e-handelsföretaget Amazon. Genom att bjuda in forskare och studenter från hela världen till en årlig tävling vill företaget driva på utvecklingen. Uppgiften är att bygga ett AI-system som kan föra ett naturligt samtal med en människa i 20 minuter. Alla som har tillgång till Amazons röstassistent Alexa kan hjälpa till att kora vinnaren. Genom kommandet Let’s chat kopplas användaren till en slumpmässigt vald konversations-robot och får sedan sätta betyg på hur bra roboten klarade samtalet.
Den som testar kommandot Let’s chat märker att det faktiskt går att föra ett slags samtal, men att dagens AI inte räcker till för en helt fri konversation. Roboten vill gärna styra samtalet mot böcker, filmer eller nyheter och ställer frågor som: ”Vilken är din älsklingsförfattare?” Svaren innehåller data om författaren i fråga, men mer djuplodande än så blir det inte – än så länge.
Det krävs fortsatta framsteg inom flera områden, förklarar Nikko Ström, en av de ledande forskarna inom talteknik hos Amazon i Seattle i USA. Han förklarar att forskningen måste gå framåt när det gäller att få maskiner att både förstå och kunna svara med hjälp av naturligt tal. Datorerna måste också bli bättre på att tolka det människor säger genom att förstå sammanhanget och ha ett ”sunt förnuft”. Djupinlärning fungerar bra så länge målet är tydligt, men i en fri konversation finns inga på förhand korrekta svar. Roboten måste lära sig att leta efter svar på många olika ställen och kunna koppla ihop begrepp som ”Zlatan” och ”fotboll”. Nikko Ström förklarar att djupinlärningsmodellerna därför kompletteras med andra metoder, där AI-systemet får hjälp av forskarna att tolka situationen på rätt sätt.
Men varför ska man egentligen kunna snacka med sina prylar? Nikko Ström menar att rösten är det mest naturliga och bekväma sättet att samspela med tekniken. Men bekvämligheten har också en baksida, som har väckt kritik. Röststyrda robotar är alltid påslagna för att kunna reagera på kommandon och hör därför allt som sägs i rummet . Företagen bakom de olika tjänsterna vill använda denna extra information för att kunna skräddarsy annonser. Det är därför också viktigt att föra en diskussion om hur avlyssningen kan användas på andra sätt – och hur den personliga integriteten påverkas av att leva tillsammans med smyglyssnande apparater.
Kunskap baserad på vetenskap
Prenumerera på Forskning & Framsteg!
Inlogg på fof.se • Tidning • Arkiv med tidigare nummer