Annons

Ett nät av samband Hur kraftfulla är egentligen de algoritmer som påstås kunna kartlägga våra åsikter, preferenser och beteenden?

Bild: 
Johan Jarnestad

Så avklädd blir du på nätet

Genom att pussla ihop våra klick på nätet kan smarta algoritmer säga mer om oss än vi någonsin skulle vilja avslöja. Det påstår i alla fall de som lever på att sälja information om oss. I verkligheten är algoritmernas kraft inte riktigt lika imponerande. 

Författare: 

Publicerad:

2018-08-15

När jag går in på Youtube ser jag plötsligt bara dansvideor. Så här brukar det inte se ut! Jag inser att jag är utloggad från mitt eget Google-konto och därför får rekommendationer som baseras på en helt annan historik än när jag är inloggad. När jag sedan kikar över axeln på sonen som sitter vid sin dator, ser jag att nästan alla rekommendationer i högerkanten av skärmen i stället är klipp som handlar om datorspelet Minecraft.

Vad vi upplever på internet är så väldigt olika, beroende på vad vi har gjort tidigare. Våra elektroniska fotspår används som utgångspunkt för algoritmer som avgör vad vi ska se härnäst.

Tanken är att vi ska hitta saker vi lockas av, så att vi tillbringar ännu mer tid på samma webbplats. Då ser vi mer reklam, vilket ger pengar till företaget som säljer annonsplats. Sådan är affärsmodellen bakom alla tjänster som vi inte betalar för på nätet. Samtidigt vill vi så klart hitta saker som vi är intresserade av och som är relevanta för oss.

Men hur effektiva är egentligen de här algoritmerna – och hur fungerar de? Har vi gett bort så mycket information om oss själva att vi blir lätta byten för manipulativ reklam eller propaganda? Det talas om att vi stängs in i filterbubblor och att vi exponeras för fejkade nyheter. Stämmer det?

I grund och botten är en algoritm bara en uppsättning instruktioner för att utföra en given uppgift. Ett exempel på en algoritm är metoden du lärde dig i skolan för att ställa upp en division. Andra exempel skulle kunna vara ett bakrecept, en lego-ritning eller listan med handgrepp för att sätta på vattnet i sommarstugan efter vintern. När vi nu för tiden talar om algoritmer menar vi nästan alltid instruktionerna i ett datorprogram. Det finns många olika typer av sådana algoritmer. Oftast tänker vi nog på algoritmerna i appar och internetverktyg.

– En sådan algoritm är en metod som tar data om oss och förvandlar den till ett beslut om oss, säger David Sumpter, professor i matematik vid Uppsala universitet.

Som matematiker är han bättre rustad än de flesta andra för att genomskåda algoritmerna – eftersom dessa i grund och botten är ett slags matematiska verktyg. Han har ägnat en hel del energi och tid åt att förstå och testa vad algoritmerna på nätet faktiskt gör och skrivit om det i boken Uträknad. Hans slutsats är att algoritmerna inte är så kraftfulla som många av oss kanske tror – eller i alla fall inte så kraftfulla som företagen bakom algoritmerna vill ge sken av.

Ta till exempel Cambridge Analytica, det numera nedlagda företaget som anklagades för att ha utnyttjat användardata från Facebook för att bland annat påverka presidentvalet i USA. När skandalen kring Cambridge Analytica briserade i början av året handlade det om att företaget hade tillgång till personlig information om miljontals Facebook-användare, som gjorde det möjligt att dra slutsatser om användarnas personlighetstyp och därmed vilken typ av information som skulle kunna övertyga dem om att rösta på ett visst sätt.

När David Sumpter granskade detta hittade han ganska lite substans bakom de starka påståendena.

Den teknik som Cambridge Analytica använde är samma sorts matematik som används för att anpassa en linje eller en kurva till en uppsättning mätvärden. Regression kallas det. Man anpassar olika mätvärden för att se hur starkt de hänger ihop med den egenskap man vill åt – till exempel hur starkt de sidor som en användare har tryckt ”gilla” på relaterar till personlighetstyp. Tanken är att modellen utifrån värden om en person sedan ska kunna ange hur sannolikt det är att personen i fråga tillhör en viss personlighetstyp. Men modellen har flera inbyggda begränsningar.

– De statistiska modellerna är inte tillräckligt bra. Korrelationen mellan vilka sidor man gillar och personlighetstyp är för svag för att det ska gå att identifiera till exempel en neurotisk person med större säkerhet. Och det finns olika sätt att vara neurotisk, säger David Sumpter.

Dessutom, tillägger han, klickar de flesta människor inte ”gilla” på tillräckligt många saker för att ge en sådan statistisk modell särskilt mycket att gå efter.

Men även om somliga algoritmer är betydligt mindre kompetenta än de framställs som, betyder det inte att de är helt harmlösa heller. Det finns baksidor. Och oavsiktliga bieffekter.

En av de vanligaste typerna är ”gillar också”-algoritmerna, som rekommenderar böcker, musik eller andra varor. ”Du kanske också gillar”, står det på nätbutikens sida, eller ”andra som köpt den här tittade också på”. Sedan följer en rad förslag på produkter som du kanske skulle tycka om. Förslagen väljs ut av en algoritm. Den kan utgå från egenskaper hos varor du redan har köpt och tittat på och visa upp sådana varor som har samma eller liknande egenskaper. Gillar du kameror visas fler kameror och kameratillbehör. En annan algoritm utgår från vad andra har köpt efter att ha köpt den vara som du just lade i varukorgen. Numera har de stora nätbutikerna komplicerade algoritmer som kombinerar de här olika funktionerna, och som är avvägda på olika sätt för olika kategorier av varor.

David Sumpter tog en närmare titt på hur dessa ”gillar också”-algoritmer fungerar – och kom fram till att de kan ha oväntade effekter.

– Det här är en av mina favoriter, säger han.

Han visar en enkel datormodell som han har skapat av ett ”gillar också”-system i en butik med 25 författare:

En tänkt kund får välja två författare helt slumpmässigt. För resten av de simulerade kunderna justeras sedan slumpen – vissa val blir mer troliga, beroende på vad föregående kunder hade gjort. Var och en får först välja sin ”favoritförfattare”. Sannolikheten att ha en viss favorit beror på hur många som har valt den författaren tidigare. Efter det första valet får kunden rekommendationer och väljer en författare till. Sannolikheten att en viss författare ska rekommenderas påverkas också av hur många gånger som den författaren tidigare har sålts tillsammans med den första.

Den här processen upprepas ett antal gånger. Efter ett tag sållas några författare fram som de allra mest framgångsrika. Dessa författare bildar knippen med starka rekommendationsband mellan sig.

David Sumpters datormodell visar att den här sortens rekommendationssystem har en inbyggd tendens att göra den som redan är populär ännu mer populär. Och vem som drar vinstlotten i popularitetslotteriet beror inte på vare sig kvalitet eller hårt arbete, utan på en slumpfaktor vad gäller vem som råkar börja bli rekommenderad i systemet.

Verkligheten är lite mer komplicerad än så, men modellen fångar en hel del mänskligt beteende. Vi tenderar att följa varandras exempel, och då uppstår den här typen av effekter.

– Det här betyder att du aldrig kommer att bli en Youtube-stjärna, säger David Sumpter och ler.

Han menar att det inte räcker med att vara bra. Det krävs även ett visst mått av tur, både för att bli en bästsäljande författare av populärvetenskap och för att hamna bland de största på Youtube.

Så har det på sätt och vis alltid varit. När många i bekantskapskretsen pratar om en bok, då vill ännu fler läsa den bara för att kunna vara med i samtalet, oavsett om boken är bra eller inte. Men före internet var kretsarna mindre, där rekommendationerna slog igenom. Slumpfaktorn kunde slå lite olika på olika platser eller i olika sällskap. Om alla i stället handlar på Amazon och får sina rekommendationer där, då kommer resultaten av Amazons algoritmer att få ett kraftigt avtryck i försäljningssiffror och författarframgång.

Slumpen gör bok till bästsäljare

De ”gillar också”-algoritmer som används av många nätbutiker för att göra rekommendationer utifrån tidigare kunders beteende kan helt slumpmässigt göra vissa produkter extra populära. Det framgår av den här förenklade modellen som matematikern David Sumpter har tagit fram.

Graferna visar två resultat från en simulerad nätbokhandel, med 25 populärvetenskapliga författare. Båda visar antal sålda böcker av respektive författare efter att 500 simulerade kunder har köpt två böcker var. Trots att förutsättningarna var likadana från början blev popularitetssiffrorna i slutänden mycket olika.

Varje kund får först göra ett val. Sannolikheten att välja en viss titel beror på hur många exemplar som sålts tidigare (den första kunden väljer helt slumpmässigt). Därefter rekommenderar algoritmen andra val, utifrån hur tidigare kunder som köpt den första boken har fortsatt att shoppa. Därmed blir det lite mer sannolikt att följande kunder väljer på ett liknande sätt, och så vidare.

Streckens tjocklek visar hur många som köpt dessa två författare tillsammans, cirklarna hur många exemplar som sålts.

I verkligheten finns naturligtvis andra faktorer som väger in. Modellen visar den renodlade effekten av ”gillar också”-algoritmen.

Men ”gillar också” är bara en typ av algoritmer. De stora aktörerna på internet använder inte bara en metod i taget, utan många olika typer av avancerade sätt att sortera information, beroende på mängder av olika faktorer.

Facebook utvärderar till exempel hela tiden hur flödet upplevs av användarna och justerar sina algoritmer utifrån den informationen. Människor som är mer nöjda med upplevelsen tillbringar mer tid i nätverket, och ser på så vis fler annonser – vilket ger mer pengar.

Användarna efterfrågar bättre blandning av innehållet, bättre kontakt med sina vänner och mindre fake news. Facebook justerar och anpassar därefter. Företaget använder numera tusentals faktorer i sin algoritm, inklusive en del ganska komplexa beteenden och händelser. Ett exempel är att Facebook tar hänsyn till saker du klickar på som visar sig vara ”misstag”, alltså sådant du tittat på lite för kort tid för att egentligen vara intresserad av. Liknande saker ska då helst inte sorteras lika högt upp nästa gång du loggar in.

Den här filtreringen och personanpassningen är något som kan väcka misstänksamhet. Vad är det som begravs långt ner i flödet och inte syns? Fenomenet har gett upphov till spekulationer om filterbubblor.

Alla har vi en tendens att söka upp information som vi själva gillar. Men det som avses med en filterbubbla är mer än så – det är en sorts sluten sfär, där de algoritmer som filtrerar information ser till att du bara får se sådan information som bekräftar det du redan tycker.

En enkel filtermodell som David Sumpter testade tycktes visserligen visa på en sådan tendens. Det hela liknar det som hände med ”gillar också”-algoritmen, att små skillnader förstärks med tiden. I modellen ser en neutral användare i sitt flöde lika många artiklar vardera från två olika tidningar med motsatt politisk profil, utan att ha särskild preferens för någondera. Men situationen är inte stabil. Några slumpmässiga delningar eller kommentarer leder snart till att den ena tidningen visas betydligt oftare i flödet än den andra. Filtreringen kommer att leda till en polarisering där användaren sorteras in i ett ideologiskt läger, utan att ha haft någon särskild uppfattning alls från början.

Trots det resultatet har David Sumpter genom lite experimenterande, bland annat med sina kontakter på Twitter, kommit fram till samma slutsats som många andra medieforskare: Människor som använder sociala medier hamnar inte i någon bubbla, utan ser en bred blandning av information, inte bara sådant som stryker dem medhårs. Verkligheten är mycket mer komplicerad än en enkel filtermodell med få parametrar.

– Vi känner så många olika personer, säger David Sumpter. På Facebook har du barndomskompisar, släktingar och någon som du bara råkade träffa på en fest.

Den här blandningen av människor som delar olika intressen med dig, bidrar till att flödet aldrig blir helt likartat. Flera studier har testat detta och visat att människor exponeras för ganska olika typer av åsikter.

Människor blir inte instängda i åsiktstäta bubblor på internet. Många av de effekter som algoritmerna tillskrivs i debatten är inte så starka i verkligheten. Men vi ska inte slå oss till ro med det.

Algoritmernas effekter är ofta dolda för oss. Inte minst när det gäller sökningar på nätet. När du söker efter något får du en träfflista, förhoppningsvis sorterad så att det du är ute efter hamnar överst. De flesta tittar aldrig längre ner i listan än vad som syns på skärmen.

– Vi utgår från att det som är överst är det mest relevanta. Men relevans är något djupt kulturellt. Det finns ingen utsiktspunkt som är neutral, säger Jutta Haider, som är docent och universitetslektor i biblioteks- och informationsvetenskap vid Lunds universitet.

För ett par år sedan skrev hon tillsammans med forskarkollegan Olof Sundin en rapport om algoritmer i samhället, och en motsvarande informationsbroschyr riktad till allmänheten.

Det är människor som har konstruerat algoritmerna. Algoritmerna bearbetar sedan material som också är producerat av människor. Det betyder att olika åsikter och antaganden finns inbyggda i algoritmerna. Google har varit i blåsväder ett par gånger på grund av sexistiska och rasistiska tendenser i reklamplacering och i de förslag som dyker upp när man börjar skriva något i sökrutan. Eftersom det inte finns någon neutral utsiktspunkt är det omöjligt att helt och hållet undvika sådana saker.

– Det är bättre att ha en aktiv diskussion om algoritmerna, och inte dölja de värderingar som är inbyggda, säger Jutta Haider.

De som tillverkar algoritmerna är ofta inte så medvetna om vilka dolda antaganden de gör, eller vilka konsekvenser som deras val kan få. Det anser i alla fall David Sumpter, som har sett insidan av den här världen.

– Det man gör kan vara matematiskt rätt, men inte kopplat till verkligheten. Jag fick komma och föreläsa hos Google, och mitt intryck är att många där är väldigt bortkopplade. Det är samma sak med oss matematiker. Här kan vi sitta och skriva i ett rum i en tom korridor, men hur verkligheten påverkas av den matematiska modellen, det tänker vi inte på.

Infrastrukturen för de stora informationskanalerna ligger i händerna på privata företag, som inte alltid vill dela med sig av sina hemligheter. Och utvecklingen går mot att kontrollen över informationen koncentreras allt mer. Jutta Haider pekar på Googles dominans som ett exempel. Att söka information på nätet kallas i vardagstal för att ”googla”. Google äger dessutom Youtube och står för distributionen av appar till de flesta som använder telefoner med operativsystemet Android.

Trenden går nu mot mer röststyrning, av till exempel sökningar. I stället för en lista med olika sökträffar presenteras endast ett svar på en fråga. Och då kommer det att vara ännu viktigare att sökningen och sorteringen är pålitlig och inte snedvrider informationen.

– Det behövs bättre insyn i algoritmerna. Men vi reglerar ju allt möjligt, så det går att ställa krav på de här företagen också, säger Jutta Haider.

Den nya europeiska dataskyddsförordningen, GDPR, är ett sådant försök att reglera bruket av information och algoritmer.

Algoritmerna ändras och utvecklas varje dag – och de påverkar i högsta grad vår digitala vardag och hur vi uppfattar världen. De kommer helt säkert att väcka mer debatt i framtiden.

Du har just läst en artikel från tidskriften Forskning & Framsteg. Prenumerera här.

Kommentera:

Dela artikeln:

TIDNINGEN FÖR DIG SOM ÄR NYFIKEN PÅ ALLVAR
10 nummer 779 kr
2 nummer 99 kr
Du vet väl att du kan läsa Forskning & Framsteg i din läsplatta? Ladda ned appen från App Store eller Google Play. (Läsplatteutgåvan ingår i alla prenumerationer.)

Lägg till kommentar