Alphafold kan förutsäga hur proteinsträngen kommer att vecka sig. Mörkblå delar betyder att strukturen är stabil och lätt att förutsäga, medan orangea bitar är mer orediga.
Bild: Deep mind

AI-revolution för livets byggstenar

Att kartlägga ett protein brukade ta månader och år – med Nobelbelönad AI går det på några minuter.

Det är i början av 2000-talet och platsen är University of Washington i Seattle, USA. David Baker och hans forskargrupp har arbetat länge med att förstå proteinstrukturer, men nu står de inför en vändning. På datorskärmen framför dem finns en bild av ett protein som aldrig har existerat i naturen: Top 7. Proteinstrukturen har matats in i deras egenskrivna datorprogram, Rosetta, som har levererat en aminosyrasekvens som svar. Om de har rätt kan den här kedjan av aminosyror – grundstenarna i ett protein – byggas ihop i en bakterie, vecka ihop sig själv och bilda den Top 7-struktur de designat i datorn.

När strukturen av det bakterie­producerade Top 7 undersöks i labbet kan man konstatera att den skiljer sig med någon ynka tiondels nanometer från datordesignen. Det har fungerat. För första gången någonsin har människan designat en helt ny proteinstruktur – med datorns hjälp.

Kemipriset 2024: David Baker, Demis Hassabis och John Jumper

Bild: Niklas Elmehed © Nobel Prize Outreach

”för datorbaserad proteindesign”

David Baker föddes 1962 i Seattle, USA, och doktorerade 1989 vid University of California, Berkeley, USA, och är professor vid University of Washington, Seattle, USA.

”för proteinstrukturprediktion”

Demis Hassabis föddes 1976, i London, Storbritannien och doktorerade 2009 vid University College London, Storbritannien. Han är vd för Google Deepmind i London, Storbritannien.

John M. Jumper föddes 1985 i Little Rock, USA, och doktorerade 2017 vid University of Chicago, USA. Han är senior research scientist på Google Deepmind i London, Storbritannien.

Här nedan kan du se direktsändningen av tillkännagivandet i efterhand.

Hemligheten sitter i veckningen

Proteiner består av kedjor av amino­­syror som veckat ihop sig till en 3D-struktur. Kopplingen mellan ordningen på aminosyrorna (sekvensen) och den veckade strukturen har länge varit föremål för forskning. Redan på 1950-talet visade den amerikanska biokemisten Christian Anfinsen att ett protein som vecklats upp kunde hitta tillbaka till sin ursprungliga struktur igen – helt av sig själv. Informationen om veckningen verkade finnas lagrad i själva aminosyrakedjan.

Den amerikanske molekylär­biologen Cyrus Levinthal konstaterade 1968 att ett protein med 100 aminosyror skulle kunna anta 1047 olika strukturer, beroende på hur kedjan veckas. För ett protein med 100 aminosyror skulle det då ta längre tid än hela universums ålder att testa sig fram till ”rätt” struktur. I själva verket tar det millisekunder. Det här blev startskottet på ett av biokemins absolut största mysterier: Vad styr hur proteinerna veckas?

Det har länge sagts att lösningen på det mysteriet kommer att leda till ett Nobelpris. Nu har det priset kommit. Den ena halvan av Nobelpriset i kemi 2024 tilldelas David Baker för hans datorbaserade proteindesign, där han lyckats gå från en designad protein­form till den aminosyrasekvens som kommer att vecka sig till just den formen. Han delar Nobelpriset med Demis Hassabis och John Jumper, som gått i motsatt riktning och i stället byggt en modell som kan förutsäga 3D-strukturen utifrån sekvensen.

Allt blev fritt när Google Deepmind lanserade Alphafold

Varken Demis Hassabis eller John Jumper är biokemister i grunden. Demis Hassabis är schackvirtuos som blev programmerare och sedan medgrundare och vd vid företaget Google Deepmind. När hans AI-modell hade slagit världsmästaren i brädspelet go 2016 letade han efter nästa stora utmaning för sitt artificiella neuronnätverk och hittade proteinveckningsmysteriet. John Jumper är teoretisk kemist, men tänkte bli fysiker. Som doktorand började han använda fysik för att förbättra proteinmodeller. Det var när han blev en del av Deepmind-teamet som bitarna föll på plats. Nu skulle AI lära sig proteinveckning.

För att se sekvensen på ett proteins aminosyror räcker det att titta på generna. Alla proteiners aminosyra­sekvenser finns kodade i våra gener, och de senaste årens genetiska kartläggning av vår planet har resulterat i över 200 miljoner identifierade proteiner. Av dessa kände vi år 2020 bara till 90 000 strukturer. Det förändrades år 2021 när Google Deepmind lanserade sin AI-modell Alphafold 2.

– När Alphafold 2 publicerades släppte de allting fritt, så att alla kunde använda koden, berättar Pernilla Wittung-Stafshede, professor i kemi vid Chalmers tekniska högskola och ledamot i Nobelkommittén för kemi.

– Samtidigt så förutspådde de då formen på alla proteiner som finns, på alla de här 200 miljoner sekvenserna.Att bestämma ett proteins struktur i labbet är komplicerat. Experimenten kan ta månader och år, och vissa proteinsorter är nästan omöjliga. Med Alphafold 2 kan en proteinstruktur förutsägas på några minuter, och med samma säkerhet som de klassiska labbmetoderna som röntgenkristallografi. Drömmen om att kunna titta på aminosyrornas sekvens och kunna säga hur proteinet ser ut har blivit verklighet.

Alphafold 2 matades med träningsdata från de 90 000 proteinstrukturer och proteinsekvenser som redan publicerats. AI:n jämför sedan en given aminosyrasekvens med andra proteiners för att hitta gemensamma nämnare. Utifrån det kan Alphafold skapa en karta över hur långt det är mellan varje aminosyra i proteinet. Den här kartan blir sedan grunden till en tredimensionell struktur.

Proteiner är mer än näringsämne

Aminosyror är små organiska molekyler som sitter hopkopplade med varandra som ett pärlband. De här pärlbanden veckar ihop sig till tredimensionella strukturer som kallas proteiner. Proteiner finns överallt. De kan utgöra allt från muskelfibrer och naglar, till molekylära maskiner som förbränner energi, som för vidare nervimpulser i våra nervceller och som kopierar vårt dna. Efter att ha studerat människans gener har man hittat minst 20 000 olika proteiner, varav vi bara känner till funktionen av ett fåtal.

Modellen jobbar alltså med mönsterigenkänning. Alphafold 2 tittar på hur andra proteiner veckat ihop sig och kopierar den logiken. Att säga att vi nu förstår mekanismerna bakom proteinveckningen är att ta i, men vi har en modell som kan härma det.

AI-modellen markerar också när den är osäker. I resultatet betyder röda delar i proteinkedjan att AI:n inte har kunnat förutsäga en trolig struktur. Det kan bero på att det studerade proteinet helt enkelt har en oordnad del utan tydlig struktur, vilket kan vara viktigt för funktionen. Men det kan också innebära att något annat binder där, som ett annat protein eller en liten metalljon, och det kan inte Alphafold 2 hantera. Ibland kan det vara svårt att avgöra om något saknas i modellen eller om proteinet saknar struktur.

Stora möjligheter när proteiner kan skapas

Att kunna designa proteiner som inte finns i naturen, som med Rosetta, kan framstå som ett annat område än Alphafolds förutsägelser om existerande proteinstrukturer. I själva verket är det bara andra sidan av samma mynt. I stället för att förutsäga 3D-strukturen från aminosyrasekvensen, kräver proteindesign att man går åt andra hållet: från uttänkt struktur till skapad sekvens. Att kunna skapa proteiner som inte finns i naturen har öppnat enorma möjligheter, i form av allt från nya nanomaterial till vaccin och läkemedel.

– Om du tar ett protein från naturen så har det utvecklats för att fungera i en väldigt specifik miljö för ett väldigt specifikt problem. Om man ska göra om dem på något sätt så är det ofta så att små ändringar kan leda till stora konsekvenser. De är inte så robusta för förändringar, säger Ingemar André, som i dag är professor i bio­kemi vid Lunds universitet där han leder en forskargrupp som designar proteiner från grunden.

Mellan åren 2006 och 2009 arbe­ta­de han i kemipristagaren David Bakers proteindesigngrupp vid Uni­ver­sity of Washington, dit han sökt sig efter artikeln om Top 7 i Science 2003

David Bakers första datorverktyg, Rosetta, var baserat på fysikaliska principer om energier. Ett för­slag på en proteinstruktur model­le­ra­des i datorn, och sedan testa­des olika aminosyror i olika positioner. Datorprogrammet gav en uppskattning på hur stabilt proteinet vore med just den amino­syran på just den platsen, och så småningom presenterades en ordning på aminosyror som skulle ge ett så stabilt protein som möjligt. David Bakers forskning går alltså från modellerad proteinstruktur till amino­syrasekvens, men även Rosetta började som ett sätt att förutsäga existerande protein­strukturer från sekvensen – precis som Alphafold.

Även om Rosetta inte var ett AI-verk­tyg, utan använde andra typer av datorberäkningar, så har även forskarna inom proteindesignfältet varit snabba att ta till sig utvecklingen inom AI. Den senaste metoden för att designa helt nya proteiner kallas RFdiffusion och kommer från David Bakers labb. Ingemar André beskriver det som ett sätt att ”hallucinera fram” nya proteiner.

Metoden går ut på att träna en AI genom att ta en proteinmodell och sprida ut atomerna i modellen tills man inte ser proteinet längre och bilden bara ser ut som ett brus, för att därifrån låta AI:n öva sig på att återskapa det ursprungliga proteinet.

– Om man vill designa ett protein så börjar man med att simulera ett sådant brus av atomkoordinater. Sedan ber man nätverket att gå baklänges, och då får man ut ett protein på andra sidan som ser ut som ett riktigt protein, förklarar Ingemar André.

F&F i din mejlbox!

Håll dig uppdaterad med F&F:s nyhetsbrev!

Beställ nyhetsbrev

Fördelen är att den som designar proteinet inte behöver veta exakt hur det ska se ut, utan det räcker att veta vad det ska kunna utföra. Genom att ha vissa bitar med struktur kvar i bruset kan man styra hur proteinet kommer att se ut. Till exempel kan man vilja ha kvar specifika aminosyror på ett ställe, eftersom de ska utföra en särskild funktion, eller ett helt protein som man vill att det nya ska kunna binda till.

”Nobelpriset var väntat”

Enligt Arne Elofsson, professor i bioinformatik vid Stockholms universitet, var det här Nobelpriset väntat. Han har länge använt datorbaserade metoder för att studera proteinstrukturer och interaktioner och gläds åt att biologin och datavetenskapen har kommit närmare varandra.

Så studeras proteinstrukturer i labbet

Röntgenkristallografi är den äldsta metoden för att studera proteinstrukturer. Först kristalliseras proteinerna, vilket innebär att de går från att vara upplösta till att rada upp sig i en ordnad form och låta vätskan avdunsta. Att få till kristallerna kräver ofta många försök, och tar ofta flera veckor. Därefter skickar man röntgenstrålar mot kristallerna, och beroende på hur röntgenstrålarna sprids – det så kallade diffraktionsmönstret – kan man återskapa hur proteinerna ser ut.

Kärnmagnetisk resonans går ut på att studera hur nära olika atomer (oftast väte eller kol) sitter varandra i en molekyl. Fördelen är att proteinerna kan hållas i en mer naturlig miljö och det går åt väldigt lite material för ett experiment. Nackdelen är att stora proteiner ger väldigt komplexa resultat.

I kryoelektronmikroskopi (kryo-EM) måste proteinerna i stället vara väldigt stora. De behöver inte vara lika organiserade som i röntgenkristallografi, utan fryses direkt från lösning och fotograferas sedan med elektronmikroskop. Resultatet blir bilder av samma protein från många olika vinklar, som sedan pusslas ihop.

– Det är mycket lättare nu att få datavetare intresserade av det vi gör och att få biologer att förstå att datavetenskapen kan tillföra saker. Det produceras så otroligt mycket data – inte bara inom proteiner utan inom all cell- och molekylärbiologi – och det kommer säkert komma saker från datavetenskapen som gör att man kan analysera det och göra det mycket, mycket bättre, säger Arne Elofsson.

Vi befinner oss fortfarande i början av det här tvärvetenskapliga fältet, och utvecklingskurvan är brant. Det finns dock en punkt där både Alphafold-metodiken och dagens proteindesignverktyg brister: dynamiken.

– De proteiner vi kan designa med neuronnätverk just nu är väldigt sta­bila. De blir som stenar i princip, de rör sig inte så mycket. Det är ett problem som vi måste lösa, säger Ingemar André.

Ingenting inom biologin är någon­sin helt stillastående. Många proteiner (som till exempel enzymer, som driver kemiska reaktioner) får sin funktion från dynamiken. Deras struktur förändras, öppnas eller stängs, och anpassas efter sin omgivning, men dagens metoder är utformade för att hitta den mest stabila formen.

Det är bland annat det hans egen forskargrupp vid Lunds universitet jobbar på att ändra. Proteindesignfältet är långt ifrån stillastående. Inte heller Deepmind har nöjt sig, utan fortsätter att utveckla metoderna från Alphafold 2. I Alphafold 3, som publicerades sommaren 2024 och släpptes som öppen kod i november, kan användare förutsäga hur proteiner interagerar med metalljoner eller andra biomolekyler, något som tidigare varit mycket svårt.

– Vi är på väg mot att kunna be­skriva hela celler på atomär nivå. Vi är inte där än, det kanske tar fem eller tio år, men vi är på väg mot att ha en beskrivning av inte bara varje cell, utan varje atom i en cell, säger Arne Elofsson.

Så fungerar Alphafold 2

Kunskap baserad på vetenskap

Prenumerera på Forskning & Framsteg!

Inlogg på fof.se • Tidning • Arkiv med tidigare nummer

Beställ i dag!

Upptäck F&F:s arkiv!

Se alla utgåvor