Googles dagar är räknade

Google är långt ifrån perfekt när det gäller att visa dig vägen till rätt webbsida. Och det finns många som försöker att göra det bättre.

Skriv in Pluto och 0,4 sekunder senare får du en lista på de första tio av de drygt miljonen sidor på internet som innehåller detta ord. Eller skriv in strofen ”Bondpojkar och baroner, allt för mig lika var”, och på 0,19 sekunder hittar Google de fyra sidor med Anna Maria Lenngrens Pojkarne som finns gömda bland drygt fyra miljarder webbsidor.

Google är i dag den ojämförligt största sökmaskinen på nätet, mätt i antalet användare, mätt i antalet indexerade webbsidor, mätt i inkomster och mätt i förhoppningar efter sensommarens börsintroduktion. Dagligen svarar Google på 100 miljoner sökningar. Men ställningen som nummer ett är osäker. Det är bara fem år sedan som de allra flesta sökte på webben via AltaVista, och fem år fram i tiden kan sökmotorn alla vänder sig till mycket väl heta något helt annat.

Miljarder står på spel

Att byta sökmotor är inte svårt för oss användare. Vi väljer varje gång vi söker. Det är bara att skriva in något annat än www.google.com.

Den sökmotor som de flesta använder kan tjäna stora pengar. Sökbranschen uppskattas ha omsatt över 10 miljarder kronor förra året. Yahoo, som var sökmotorn på allas skärmar 1995, försöker därför återta täten och arbetar intensivt med att förbättra sin tjänst. Den ligger numera på andra plats, mätt i antal sökningar och mätt i antal indexerade webbsidor.

Vid sidan om sökgiganterna finns en annan jätte, Microsoft, som försöker ta över genom att bygga in sin egen söktjänst i alla sina program. Det finns också gamla konkurrenter och nya uppstickare som försöker få ett övertag genom bättre teknik eller smarta samarbetsavtal, som Brainboost, Eurekster och KartOO.

Länkarna sorterar länkarna

Att Google i dag är nummer ett finns det flera förklaringar till. Bland de viktigaste är att den lyckas så bra när det gäller att prioritera sidorna i de fall det finns flera träffar. Av de 1,3 miljoner sidor på webben som enligt Google innehåller ordet Pluto är det troligt att det är någon av de tio som listas på skärmen som ger dig svaret på din fråga.

Denna sortering och prioritering av sidor, som går under benämningen page rank, beskrevs av Stanfordstudenterna Larry Page and Sergey Brin i en uppsats 1998. Kort därefter köpte de datorerna och grundade företaget som för några veckor sedan sålde sina första aktier. I korthet går deras page rank ut på att en sida får högre rang – hamnar högre upp i listan – om den har många länkar till sig från sidor som Google bedömer har hög kvalitet (se faktaruta).

Google vinner på enkelhet

Andra fördelar är att Googles förstasida är så enkel. Efter det att du har skrivit www.google.com tar det inte lång tid innan sidan laddat och markören blinkar i rutan där du kan skriva dit sökord.

Google har som tidigare nämnts flest genomsökta webbsidor, eller med andra ord, det största indexet. Inte ointressant är då tiden som det tar att genomföra en sökning i detta index. Och Google är kvick. Det kan tyckas ofattbart att maskinen så snabbt lyckas söka igenom fyra miljarder sidor och direkt finna dem med rätt kombination av ord. Snabbheten är dock inte unik för Google, utan resultat av stor datorkraft och beprövade datalogiska metoder.

Ingen vet hur stort internet är, räknat i antal webbsidor. Kanske har Google en tiondel av de öppna sidorna i sitt lager. Till det kommer alla de slutna sidorna, det vill säga sidor som kräver ett lösenord eller en kod, och som varken Google eller någon annan obehörig kommer åt. Och så finns det en mängd sidor som likt isolerade öar inte har någon länk till sig. De är inte stängda, men man måste veta adressen för att hitta till dem. Det finns också sidor som uttryckligen sagt att de inte vill bli indexerade. Dessutom finns det en mängd så kallade dynamiska sidor, sidor som existerar först när de efterfrågas, de kan vara svaret på en sökning i en databas eller resultatet av en beräkning.

Det är inte orimligt att tänka att det finns tusen miljarder webbsidor. Och då är plötsligt Googles index inte så heltäckande längre. Den sökmotor som tar upp kampen med Google och kan visa att den har en betydligt större andel av webben indexerad och samtidigt är lika snabb och lika bra på att sortera träffarna kan snabbt ta tätpositionen. Redan i dag indexerar Google och dess främsta konkurrenter inte bara webbsidor, utan också pdf-dokument och word-filer. Amazon, den största bokhandeln på webben, har till och med lanserat en tjänst där man söker inne i böckernas texter. Funnes alltså Anna Maria Lenngrens Samlade Skaldeförsök på Amazon skulle vi ha hittat den när vi sökte på en strof ur Pojkarne.

I fallet med sökningen på Pluto är dock problemet det omvända mot Lenngren – det finns för många sidor – och Googles tidigare nämnda sidrankning blir ytterst betydelsefull för att sortera de bästa sidorna först. Men hamnar verkligen den bästa sidan överst? Och vem är det som bestämmer? Att det går att lura rangordningen visas tydligt av de skämtsamma så kallade Googlebombningarna. I mars 2004 blev till exempel den som skrev in ”totalt fiasko” i sökmotorn hänvisad till Göran Perssons webbsida.

Vinn eller försvinn

Hur väl man rankas av Google kan spela stor roll för affärsidkare på nätet. Det finns exempel både på företag som vunnit stort och företag som förlorat mycket på hur de rankats av Google. Det finns också en uppsjö företag som säljer bättre rankning genom mer eller mindre raffinerade metoder att lura rangordningen. Google i sin tur uppdaterar ständigt sitt sätt att beräkna rankningen för att komma åt fiffel. Även om den grundläggande principen för Googles sidrankning är känd är detaljerna hemliga.

Vid sidan om fiffel och skämt finns det också ett annat problem med sidrankningen, och det är att länkar inte alltid är ett bra mått på hur bra en sida är. Det finns många ytterst relevanta sidor om Pluto som hamnar långt ner i Googles rangordning för att de inte har tillräckligt många andra sidor som pekar på dem.

Bättre page rank

Här finns det flera nya sökmotorer som försökt skapa bättre metoder att välja ut mest relevanta sökresultaten. Ett exempel är sökmotorn Teoma, vars rankning påstås vara mer sofistikerad än Googles när det gäller vilken typ av sidor det är som länkar till en annan sida. Fortfarande är det länkarna som räknas, men de ges en annan vikt än hos Google. Teomas rankning bygger på idén att webben lokalt består av grupper av webbplatser som länkar till varandra, snarare än till en gemensam supersida. Likt Google tittar alltså Teoma på de länkande sidornas kvalitet, men algoritmen som beräknar kvaliteten är helt annorlunda. Innan Teomas index över webbsidor är lika stort som Googles är det dock svårt att avgöra om sorteringen av träffarna verkligen är påtagligt bättre.

Skräddarsydda sökningar

Ett problem för alla söktjänster som baserar sin rankning på de länkande sidornas kvalitet är att de inte vet vad som är kvalitet för just dig som söker. Här försöker några andra sökmotorer, bland andra Eurekster, hjälpa till genom att erbjuda skräddarsydd sökning. Eurekster minns vad du gillat förr och kan också hålla reda på vad kolleger och vänner gillat för sidor. Det är ett slags personlig sökhjälp som gissar att det dina vänner söker också är vad du söker. I Eureksters fall är anpassningen i det närmaste automatisk, men det finns också söktjänster som frågar vem du är, var du bor, vilket kön och vilken ålder du har, för att på det viset ge sökresultat som ska passa dig bättre. Allt med tanken att någon tror sig veta att en 22-årig välutbildad kvinna i Uppsala söker andra saker än en 78-årig före detta skogshuggare i Ekträsk.

Ett annat och mindre fördomsfullt sätt att ordna sidorna är att försöka gruppera dem för att hjälpa dig att komma närmare rätt sida. Om du genom sökmotorn KartOO söker på Pluto får du först inga sökresultat utan i stället ett antal grupper av sidor där söktermen pluto förekommer. Det är grupper som astronomi, omloppsbana, Nasa, månen Charon och så vidare. Du kan sedan välja område för att se sökresultaten inom den gruppen sidor.

Ytterligare ett alternativ är söktjänsten Brainboost. Det är en tjänst som med språkteknik försöker förstå innebörden i orden du söker på. Brainboost låter användaren skriva in en fullständig mening och letar sedan efter svaret på frågan i sitt webbindex. ”How many people live in Sweden?” ger länkar till de webbplatser som innehåller uppgifter om Sveriges invånarantal.

Alla dessa sökmotorer har gemensamt med Google att de söker med hjälp av ord och fraser i ett stort index med automatiskt insamlat webbinnehåll. Det finns förstås helt andra sätt att nå en webbsida. Eller ännu fler vägar om du snarare vill ha svar på en fråga i stället för en webbplats. När vi sökte på strofen från Anna Maria Lenngrens Pojkarne, hittade vi bara några få sidor, men de innehöll verkligen det vi sökte efter. Om en sökning ger en halv miljon träffar eller bara fyra spelar ingen roll om den inte besvarar ursprungsfrågan.

Till många arkivariers och bibliotekariers förtret, professionella sökare som de är, tycks fulltextssökning efter webbsidor ha ett fast grepp om oss webbsurfare. Kanske är det så för att det är så förvillande enkelt. Inga förkunskaper tycks behövas. Mänskligt organiserade kataloger, kvalitetsgranskade nyckelord och bibliotekens indexsystem är inte på modet just nu.

Informationssökning på Internet

Dalianis, Hercules, Iselid, Lars & Våge, Lars
Studentlitteratur
2003

Populäraste söktjänsterna

  • Google 42 %
  • Yahoo 32 %
  • MSN 27 %
  • AOL 14 %
  • Ask Jeeves 7 %
  • Overture 5 %
  • MyWay.com 4 %
  • Information.com 4 %
  • Lycos Networks 4 %
  • WebSearch.com 4 %
  • InfoSpace Networks 3 %
  • Netscape Search 3 %
  • AltaVista 3 %
  • Microsoft.com 2 %
  • HighBeam.com. 2 %

Så sorteras sidorna

Grunden i Googles system för att sortera träffresultatet är en algoritm kallad Pagerank. Varje sida får ett betyg som beräknas automatiskt baserat på hur många länkar som pekar på sidan och kvaliteten på sidorna där dessa länkar finns. Exakt hur kvaliteten bedöms är hemligt och varierar, men en komponent är hur många länkar som i sin tur når de länkande sidorna, en andra viktig komponent är hur många gånger det sökta ordet förekommer och i vilket sammanhang.

Goggle själva uttrycker saken som en demokratisk omröstning: ”Google tolkar en länk från sida A till sida B som en röst, från sida A, på sida B. Men, Google tittar på mer än bara antalet röster, eller länkar, till en sida. Sidan som lägger rösten analyseras också. Röster lagda av sidor som själva är värdefulla väger tyngre och hjälper andra sidor att bli mer värdefulla.”

Om två webbsidor tävlar om första plats på en sökning kan en sida med 10 länkar vinna över en sida med 50 länkar, om dessa 10 länkar kommer från sidor med högre betyg. Länkarna har dock ett stort inflytande. Om sidan med 50 dåliga länkar kämpar till sig ytterligare 50 länkar så ökar det chansen att komma först.

Spindeln hittar sidorna

En sökrobot, ofta kallad spindel, är det program som söker sig runt mellan webbplatser och katalogiserar information den hittar och bygger upp ett index. Dels letar spindeln efter länkar på sidorna och kan därigenom krypa vidare, dels tar den emot webbadresser som anmäls till den, dels tittar den regelbundet på webbplatser där den varit förut. Du som användare kommer inte i kontakt med spindeln, utan hittar till dess index genom en söktjänst, till exempel Google eller Looksmart. När du skrivit in en fras hos söktjänsten tar en sökmotor emot din fråga och letar i indexet efter förmodat relevanta sidor och sammanställer resultaten.

Antal webbsidor/dygn lästa av olika sökmotorer

  • Google 250 miljoner
  • Overture 167 miljoner
  • Inktomi 80 miljoner
  • LookSmart 45 miljoner
  • FindWhat 33 miljoner
  • Ask Jeeves 20 miljoner
  • AltaVista 18 miljoner
  • FAST 12 miljoner

Siffrorna är rapporterade av tjänsterna själva och avser 2003.

Upptäck F&F:s arkiv!

Se alla utgåvor