La grande scienza. Bioinformatica
Bioinformatica
La bioinformatica è una scienza multidisciplinare, al crocevia tra biologia, chimica, matematica, fisica e informatica, che analizza l'informazione biologica con metodi computazionali al fine di formulare ipotesi sui processi della vita. La sua nascita è collocabile agli inizi degli anni Cinquanta, ma soltanto trent'anni dopo sarebbe diventata una scienza matura impiegando da quel momento meno di un decennio per essere riconosciuta come una branca di tutto rispetto delle scienze della vita. Nell'attuale era genomica, essa ha assunto un ruolo centrale e ha raggiunto una popolarità che sarebbe stata difficilmente prevedibile.
Tale popolarità e la rapidità con cui è stata raggiunta sono dovute sia ai suoi notevoli successi sia alle sue straordinarie potenzialità. Ora che il sogno di conoscere l'intero patrimonio genetico dell'uomo e di molte altre specie si è realizzato, la comunità scientifica è protesa verso metodologie che permettano di analizzare l'enorme mole di dati per comprenderne le relazioni, le applicazioni e le possibili ricadute farmacologiche e mediche.
La nascita della bioinformatica può essere identificata con il primo tentativo di utilizzare le conoscenze riguardanti le proprietà fisico-chimiche degli elementi che formano la materia vivente per proporre un modello per le proteine. Fin dal 1860 Felix Hoppe-Seyler, ottenendo un cristallo proteico, aveva stabilito che le proteine adottano una specifica struttura spaziale e, all'inizio del XX sec., Emil Hermann Fischer aveva scoperto che esse sono polimeri composti da amminoacidi legati in sequenza in una catena polipeptidica. Nel 1948 Linus Pauling cercò di realizzare un modello di carta di un polimero di amminoacidi, basandosi sulle loro proprietà chimiche. Pauling ipotizzava che gli amminoacidi si avvolgessero a elica e prevedeva che l'altezza di un giro dell'elica misurasse 5,4×10−10 m. Egli pubblicò il suo modello solamente qualche anno più tardi, nel 1953, tuttavia riuscì comunque ad anticipare Sir William Lawrence Bragg, che nello stesso periodo si stava interessando del medesimo problema. Presumibilmente il fallimento di Bragg era dovuto all'apparente contraddizione tra la distanza fra i giri dell'elica prevista dal suo modello e un dato sperimentale ottenuto da William Astbury (1898-1961) che invece ne stabiliva il valore in 5,1×10−10 m. In tal modo, l'accuratezza del dato sperimentale di Astbury era stata superata da quella del modello teorico di Pauling.
Dal successo di quest'ultimo derivò anche, a pochi anni di distanza, un altro grande trionfo teorico. In Inghilterra si cercava di far luce sulla struttura di un'altra molecola di fondamentale importanza nei processi biologici, il DNA. Rosalind Franklin aveva ottenuto dati di diffrazione ai raggi X su alcune forme di DNA, consentendo a James D. Watson e a Francis H.C. Crick, anche sull'onda dei risultati ottenuti da Pauling, di proporre un modello a elica in grado di spiegarli. La cristallografia a raggi X permette infatti di osservare la diffrazione prodotta da un cristallo di proteina e di dedurre la sua struttura tridimensionale, ma questo processo non è diretto, ossia non esiste una funzione che permetta di passare direttamente dai dati di diffrazione alla disposizione degli atomi che li hanno generati. Nel caso di piccole molecole si può verificare quale tra tutte le possibili disposizioni atomiche della molecola cristallizzata produca i dati di diffrazione osservati, ma per molecole di dimensioni maggiori, come proteine o DNA, il numero di possibili conformazioni diventa rapidamente intrattabile. Il problema venne risolto nel 1953 da Watson e Crick i quali costruirono un modello basato sia su alcune intuizioni chimiche sia su dati sperimentali prodotti da Franklin.
Per le proteine la storia fu più complessa e richiese lo sviluppo di un metodo, chiamato 'sostituzione isomorfa con atomi pesanti', ideato da Max Perutz nel 1954. Da quel momento si progredì velocemente: la prima sequenza di proteina, l'insulina, fu delucidata da Frederick Sanger nel 1955 e, a soli quattro anni di distanza, Perutz annunciò di avere deteminato la prima struttura tridimensionale di una molecola proteica, la mioglobina. La determinazione della struttura del DNA ebbe una diversa ripercussione sul mondo scientifico rispetto a quella dell'insulina, poiché la prima contiene in sé sufficienti informazioni da permettere di derivare un modello 'funzionale' e non soltanto strutturale. Infatti nel caso di una proteina ancora oggi la comprensione della funzione non può essere estrapolata in generale dalla sua struttura tridimensionale, come invece accade per il DNA, il quale è costituito da una doppia elica, ciascuno dei filamenti è formato da serie di quattro elementi differenti, i nucleotidi, che contengono una tra quattro diverse basi azotate. L'accoppiamento delle basi azotate sui due filamenti è sempre lo stesso: a una adenina è accoppiata una timina, a una guanina una citosina. La complementarità delle basi azotate fornisce la chiave per la replicazione dell'informazione genetica in cui ciascuno dei due filamenti serve da stampo per 'costruire' un filamento identico al suo complementare originale. A questo punto si era in grado di determinare, sebbene attraverso metodi complessi che richiedevano un impegno lungo e difficile, la sequenza amminoacidica delle proteine e la loro struttura.
Già nel 1944 Oswald Avery e i suoi collaboratori avevano identificato il DNA come la molecola che conserva e trasmette l'informazione genetica, ma soltanto nella conferenza 'On protein synthesis', tenuta nel 1957 presso la British Society of Experimental Biology, Crick propose un principio generale che si dimostrò fondamentale per la ricerca biologica: l'ordine delle basi in una porzione di DNA rappresenta un codice per la sequenza amminoacidica di una proteina specifica e ogni 'parola' del codice corrisponde a un distinto amminoacido. Restava però irrisolto il problema riguardante il modo in cui la sequenza di quattro basi azotate di un gene è tradotta in quella di venti amminoacidi della proteina corrispondente. Il passaggio da una sequenza di quattro 'simboli' a una di venti implica l'esistenza di un meccanismo o un codice che permetta all'apparato cellulare di 'leggere' sequenze di quattro elementi e di 'tradurle' in sequenze di venti caratteri. Infatti, se ogni amminoacido fosse codificato da due basi, si avrebbero 16 possibilità, se fosse codificato da tre, le possibilità sarebbero 64, e così via. Le ipotesi fiorirono e la più elegante fu probabilmente quella proposta dallo stesso Crick, la cui semplicità ed efficacia sembravano sufficienti a garantirne la validità. Gli amminoacidi devono essere codificati da triplette di basi (come abbiamo detto, coppie di basi permetterebbero di codificarne soltanto 16), ma, propose Crick, non tutte possono essere utilizzate per codificare amminoacidi in quanto occorre evitare quelle che, lette nel registro sbagliato, possono dare origine a sequenze proteiche erronee. Il modello identificava le triplette 'utilizzabili' e ne calcolava il numero: esattamente venti. Crick e i suoi colleghi fecero subito notare che la teoria non era basata su alcuna evidenza sperimentale e che l'unica ragione per proporla era il magico numero venti che ne risultava. L'ipotesi di Crick, tuttavia, per quanto affascinante, si rivelò completamente sbagliata. La Natura ha sviluppato un codice che, a prima vista, non segue ovvie regole logiche: alcuni amminoacidi sono codificati da una sola tripletta di basi, altri da due, tre, quattro, sei, e soltanto un duro lavoro sperimentale, conclusosi nel 1965, permise di decifrare il codice genetico.
Gli anni Sessanta
A metà degli anni Sessanta i frammenti del puzzle sono quasi tutti al loro posto: il DNA si replica utilizzando un'elica come stampo per quella complementare, si trascrive, con un meccanismo analogo a quello della replicazione, in una molecola di RNA la cui sequenza di basi viene tradotta in proteina secondo il codice genetico, e la proteina assume poi una struttura tridimensionale che le permette di svolgere la sua funzione. Il meccanismo che governa l'ultimo passaggio era quello meno chiaro. Anche se era noto che le proteine sono formate da α-eliche e foglietti β (strutture secondarie) e da regioni di connessione tra queste che poi si avvolgono ulteriormente per formare una struttura compatta (struttura terziaria), non era chiaro né quali proprietà di una sequenza di amminoacidi determinassero la sua struttura secondaria, né secondo quali regole questi elementi di struttura secondaria assumessero poi la loro posizione finale nella struttura. A distanza di qualche decennio, non si dispone ancora delle risposte generali a tali quesiti anche se, come vedremo, attualmente è possibile fornirne alcune utilissime, per quanto approssimative.
Nel 1967 fu annunciata la prima collezione completa delle sequenze di proteine conosciute: l'Atlas of protein sequences di Margareth Dayhoff. Non si trattava certo di una banca dati consultabile elettronicamente (diventerà tale soltanto nel 1972), tuttavia il fatto che i dati fossero disponibili fu sufficiente perché alcuni fondamentali quesiti venissero posti. Per esempio, sempre Pauling aveva già elaborato una teoria dell'evoluzione molecolare, cioè del meccanismo per cui il materiale genetico subisce mutazioni che si ripercuotono sulle sequenze delle proteine codificate. Alcune di queste mutazioni sono deleterie e vengono quindi eliminate dalla popolazione, altre sono neutre o vantaggiose. Bisognerebbe dunque stabilire qual è la probabilità che una data sostituzione amminoacidica venga accettata in quanto non deleteria, e di conseguenza la risposta a tale quesito permetterebbe di sapere quali sono le proteine omologhe, ossia legate l'una all'altra da una relazione evolutiva.
È importante poter paragonare una sequenza amminoacidica a una collezione nota di sequenze e identificare, tra queste, quelle omologhe alla proteina in esame. Le proteine evolvono, ossia le mutazioni dei geni che le codificano possono generare la sostituzione di un amminoacido con un altro e, se la mutazione non è deleteria per l'organismo, la 'nuova' proteina entrerà a far parte del patrimonio della specie. La sequenza di una proteina determina la sua struttura tridimensionale la quale, a sua volta, definisce la sua funzione. Una proteina assume una struttura tridimensionale definita se l'energia della proteina nel suo stato strutturato (o, come si dice, nativo) è minore di quella della proteina in una conformazione non strutturata. La differenza energetica tra questi due stati delle proteine è molto bassa, dell'ordine di qualche kilocaloria per mole (in altre parole l'energia necessaria a destrutturare qualche chilo di proteina è equivalente a quella necessaria per far evaporare poche decine di grammi di acqua), quindi la probabilità che una mutazione amminoacidica destabilizzi la struttura nativa e generi una proteina non strutturata, e perciò non funzionale, non è trascurabile. D'altra parte la stabilità di una proteina dipende dall'insieme delle interazioni tra tutti i suoi atomi ed è pertanto molto improbabile che la variazione di un solo amminoacido generi una proteina con una struttura completamente differente, in cui cioè si stabiliscano tra tutti i suoi atomi interazioni diverse, ma in grado ugualmente di stabilizzarla. Ne consegue che, in generale, se una proteina subisce una mutazione che le permette di essere ancora funzionale, è praticamente certo che la mutazione non ha completamente modificato la sua struttura, ma è stata 'accolta' nella struttura esistente modificandola solo localmente. Tale osservazione comporta una serie di importanti conseguenze. Se due proteine di due organismi appartenenti a specie diverse (per es., uomo e topo) hanno sequenze amminoacidiche molto simili si può assumere che esse si siano evolute da un progenitore comune (ossia che siano omologhe). Ciò comporta che la loro struttura tridimensionale è simile e, quindi, che determinando sperimentalmente la struttura tridimensionale di una di esse si possono avere informazioni sulla struttura dell'altra. Se due proteine sono omologhe, e quindi hanno una struttura simile, è presumibile (seppure con alcune precauzioni che qui non si discutono) che abbiano anche la stessa funzione o una funzione simile, per cui avendo a disposizione la caratterizzazione biochimica di una di esse, possiamo dedurre le proprietà dell'altra. Inoltre sapendo che una proteina interagisce con un'altra delle proteine dell'organismo a cui appartiene, è presumibile che interagiscano fra loro anche le proteine evolutivamente corrispondenti di un altro organismo. È necessario allora stabilire quanto devono essere simili due proteine per garantire che siano derivate da un progenitore comune. Per risolvere tale problema si può calcolare la probabilità che gli amminoacidi di una delle due proteine si siano sostituiti a quelli corrispondenti dell'altra proteina e paragonare questo valore con la probabilità che la similitudine osservata sia dovuta al caso. Per far ciò occorrono due elementi: una misura della probabilità che un amminoacido venga sostituito da un altro durante l'evoluzione e un metodo per trovare a quale amminoacido della prima proteina corrisponda ciascun amminoacido della seconda. Non entreremo nei dettagli di uno degli argomenti di studio più importanti e complessi della bioinformatica, tuttavia è importante sottolineare che una prima soluzione a entrambi questi problemi fu proposta già alla fine degli anni Sessanta.
In quest'area di ricerca rivestì un ruolo pionieristico il lavoro della stessa Dayhoff la quale, insieme ai suoi collaboratori, sviluppò un modello dell'evoluzione delle proteine che le permise di derivare tabelle di probabilità che un amminoacido fosse sostituito da un altro durante il processo evolutivo. Il lavoro era basato sull'analisi di famiglie di proteine chiaramente derivate da un progenitore comune. Il passo successivo è quasi ovvio: data la probabilità che un amminoacido venga sostituito da un altro durante l'evoluzione, è necessario stabilire qual è il minimo numero di sostituzioni necessarie per trasformare una data sequenza amminoacidica in un'altra o, anche, quali sono le coppie corrispondenti di amminoacidi in due proteine appartenenti alla stessa famiglia evolutiva. Il primo algoritmo per 'allineare' in questo modo due sequenze proteiche fu proposto da Saul Needleman e Christian Wunsch nel 1970 ed è usato ancora oggi, così come ancora oggi viene utilizzata la tabella di probabilità di sostituzioni evolutive di Dayhoff.
Gli anni Settanta
Nel decennio successivo sia la biologia molecolare sia l'informatica preparano la strada a quella che sarà l'esplosione della bioinformatica negli anni Ottanta. Da una parte Paul Berg descrive, nel 1972, la prima molecola di DNA ricombinante, e dall'altra, nel 1977, sia Allan M. Maxam e Walter Gilbert sia Sanger mettono a punto, indipendentemente, due metodi diversi per ottenere la sequenza di un filamento di DNA. A meno di vent'anni di distanza, quest'ultima scoperta permetterà di ottenere la sequenza del genoma umano.
Le scoperte di questo periodo nel campo dell'informatica non sono meno fondamentali. Nel 1973 la tesi di dottorato di un brillante studente della Harvard University, Peter Metcalfe, descrive uno standard, chiamato Ethernet, il quale serve per trasmettere dati tra computer connessi via cavo. Soltanto un anno dopo Vinton Cerf e Robert Kahn sviluppano un protocollo di comunicazione tra computer chiamato Transmission control protocol (TCP). Sono i passi fondamentali che apriranno la strada a Internet. Negli stessi anni nasce Microsoft e Tom Truscott, Jim Ellis e Steve Bellovin stabiliscono la prima connessione tra computer dislocati in due siti tra loro remoti: la Duke University (Durham, NC) e la University of North Carolina.
La bioinformatica può passare dall'infanzia all'adolescenza: ci sono gli strumenti, i dati e i problemi. Nel 1977 Roger Staden scrive e distribuisce il primo pacchetto di programmi per l'analisi di sequenze, diretto soprattutto verso la risoluzione del problema di ricostruire la sequenza di una regione di DNA data la sequenza di suoi frammenti parzialmente sovrapposti. Il pacchetto di Staden include però anche altre funzioni: permette di tradurre secondo il codice genetico una sequenza di DNA nella corrispondente sequenza di amminoacidi, di cercare sottosequenze specifiche e così via. Gli strumenti bioinformatici sono ancora complessi da utilizzare; vanno installati e compilati su computer centralizzati (il personal computer viene annunciato dall'IBM solamente nel 1981) e non sono ancora uno strumento utilizzabile da tutti i ricercatori, pur rappresentando una semplificazione e un miglioramento per il lavoro dei biologi. Nel 1977 si scopre però che le sequenze dei geni degli organismi superiori possono essere interrotte da regioni non codificanti, gli introni, i quali non hanno caratteristiche particolari e sono perciò difficili da identificare. In questi casi, non è sufficiente conoscere la sequenza del DNA e il codice genetico per ottenere la sequenza della proteina codificata, occorre prima localizzare le regioni che saranno tradotte distinguendole dalle sequenze degli introni. Iniziano ad apparire metodi statistici che utilizzano computer e banche dati per riconoscerli, tuttavia risulta immediatamente chiaro che questa complicazione non sarà semplice da risolvere e infatti essa rappresenta a tutt'oggi un ostacolo di rilevante entità nell'identificazione dei geni umani.
Rapidamente vengono elaborati altri programmi per l'analisi di sequenze nucleotidiche e proteiche; per esempio, P.Y. Chou e G.D. Fasman decidono di analizzare le sequenze delle proteine di struttura tridimensionale nota per ricavare valori di preferenza di ciascun amminoacido per una o l'altra struttura secondaria, ossia per valutare la probabilità che un dato amminoacido appartenga a una regione con struttura a α-elica o a foglietto β. I valori di preferenza sono poi utilizzati in un algoritmo che, data la sequenza di una proteina, cerca di predire la posizione di α-eliche e filamenti β nella sua struttura. È il primo tentativo di 'predire' con metodi computazionali caratteristiche strutturali di proteine a partire dalle loro sequenze amminoacidiche. Un altro esempio di metodi bioinformatici che furono sviluppati nello stesso periodo è quello dei grafici di idrofobicità. Ciascun amminoacido mostra una maggiore o minore propensione a essere esposto all'ambiente acquoso che circonda la proteina, vale a dire può essere, rispettivamente, un amminoacido idrofilico o idrofobico. È presumibile quindi che, nella struttura della proteina, regioni con alta frequenza di amminoacidi idrofobici si trovino all'interno e regioni con amminoacidi idrofilici siano invece localizzate sulla superficie.
Nello stesso periodo, si è intrapresa una ricerca, nella quale ancora oggi sono impegnati numerosi bioinformatici, il cui scopo è quello di tentare di risolvere il folding problem, o come si è detto, di decifrare la seconda metà del codice genetico, che permette di passare dalla sequenza di una proteina alla sua struttura tridimensionale. Per sapere come si è riusciti a ovviare alla difficoltà di studiare le strutture proteiche in tre dimensioni, dobbiamo fare un passo indietro e guardare a quanto accadeva nel frattempo nell'industria aeronautica civile e militare.
Negli anni Sessanta Ivan Sutherland e David Evans, due professori della University of Utah decisero di dare vita a una società per sfruttare i computer non soltanto come processori per operazioni matematiche, ma anche come strumenti per manipolare oggetti, cioè per la grafica computerizzata. Il primo sistema grafico (LDS1) e anche due successive versioni sviluppate dalla Evans & Sutherland furono un vero fallimento: erano costosi, difficili da usare e poco flessibili; ma la strada era aperta e alla fine degli anni Settanta la società costruì la sua fortuna vendendo computer grafici, sofisticati e costosi, utilizzati essenzialmente per le simulazioni di volo. Qualche anno più tardi l'azienda decise di estendere il suo mercato sia ad applicazioni di progettazione assistita da computer (CAD, computer-aided design) sia, quando il costo divenne più sostenibile, alla biologia strutturale. Furono scritti programmi con i quali la struttura tridimensionale delle proteine poteva essere visualizzata, ruotata, modificata in tempo reale sugli schermi dei computer grafici e, quel che era più importante, si poteva utilizzare il computer per misurare distanze, ricavare statistiche, confrontare due strutture proteiche, provare a fare esperimenti ideali in cui alcune coordinate della proteina venivano modificate e così via.
Altri sistemi seguirono quelli della Evans & Sutherland. Attualmente sono presenti in qualunque laboratorio di biologia strutturale e sembrerebbe impensabile potersi occupare di strutture proteiche senza avere a disposizione un sistema che, utilizzando direttamente le coordinate degli atomi delle proteine, ne visualizzi le strutture su uno schermo di computer.
Dal 1980 la storia della bioinformatica assume ritmi frenetici. Si determina in quell'anno il primo genoma di un organismo, quello del batteriofago ΦX174 che consiste di 5386 coppie di basi e codifica nove proteine e, dopo soli otto anni, viene avviato ufficialmente il progetto genoma umano (un miliardo di basi e almeno 40.000 proteine). Si potrebbe dire che i primi anni del decennio rappresentino un periodo di preparazione per le enormi sfide che aspettano la bioinformatica: T.F. Smith e M.S. Waterman descrivono un nuovo algoritmo per l'allineamento di sequenze, un insieme di programmi per l'analisi di sequenze è reso disponibile dal Genetics computer group della University of Wisconsin ed è sviluppato un programma (FASTP) per la ricerca di similarità fra la sequenza di una proteina di interesse e un insieme di sequenze conservate in una banca dati. È il grande salto di questi anni: sia l'algoritmo di Needleman e Wunsch sia quello di Smith e Waterman erano ancora troppo lenti perché i computer del periodo riuscissero ad allineare la sequenza della proteina in esame con quella di tutte le proteine note, occorreva quindi sviluppare un metodo approssimato. L'idea fu di preselezionare rapidamente le sequenze potenzialmente simili a quella in esame e poi utilizzare uno degli algoritmi di allineamento 'lenti' soltanto su queste ultime. Tale approccio è usato ancora oggi per attribuire una funzione alle centinaia di migliaia di proteine identificate nel genoma umano o in altri organismi.
Un'altra delle tecniche usate ancora oggi abitualmente nei laboratori di bioinformatica, nota con il nome di modellizzazione comparativa o per omologia, è stata applicata per la prima volta all'inizio del decennio. Si tratta di compiere un altro passo avanti nella comprensione sia dei meccanismi evolutivi, sia della capacità di allineare in modo biologicamente sensato le sequenze di due proteine. Se la proteina di interesse è omologa a una proteina di struttura nota, allora è possibile, come abbiamo detto, utilizzare la struttura della seconda per costruire un modello tridimensionale della prima. Il primo esempio di applicazione (a una proteina della famiglia delle proteasi, cioè di enzimi che catalizzano la scissione del legame peptidico in altre proteine) è descritto da Jonathan Greer nel 1981 in un articolo divenuto ormai storico. Come vedremo la modellizzazione per omologia rappresenta ancora ai giorni nostri la tecnica più affidabile per 'predire' (termine di uso comune anche se improprio) la struttura di una proteina ed è su essa che si basa l'intera logica di progetti come quelli di genomica strutturale.
Anche la biologia molecolare si prepara al grande salto che la porterà dal lungo ed elaborato studio di un singolo gene o di una singola proteina alla rivoluzione genomica; la prima tappa di tale preparazione è la polymerase chain reaction (PCR), descritta nel 1985. Con questa metodologia è possibile amplificare enormemente il numero di molecole di DNA in un campione ricopiandole enzimaticamente più volte. Soltanto un anno dopo Thomas Roderick userà un nuovo termine come titolo di una nuova rivista scientifica: "Genomics". L'anno successivo David Burke descrive l'utilizzazione di cromosomi artificiali di lievito per clonare grandi frammenti di DNA, per esempio quelli derivati dal genoma umano, in modo da poterli successivamente sequenziare. Allo stesso tempo è pubblicata la mappa fisica (cioè la localizzazione dei geni sul genoma) di Escherichia coli, il batterio più popolare tra i biologi molecolari che lo hanno utilizzato, e ancora lo utilizzano, come una vera e propria macchina per la produzione di proteine eterologhe.
Alla fine degli anni Ottanta è ormai chiaro che occorre una gestione professionale dei dati e degli strumenti bioinformatici; non è più sufficiente affidarsi a scienziati sparsi in vari laboratori di biologia, è necessario dare un nuovo impulso, creare una massa critica e alcune scuole. Nel 1986 l'European molecular biology laboratory (EMBL) di Heidelberg stabilisce il Programma di biocomputing cui afferiscono il gruppo responsabile della banca dati di sequenze nucleotidiche EMBL, nata nel 1980, e i gruppi di ricerca guidati da Chris Sander, coordinatore del programma, insieme a Patrick Argos e ad Arthur Lesk. Il programma sfocerà nella fondazione dell'Istituto di bioinformatica europeo nel 1997, ma già nel corso degli anni Ottanta contribuisce, con una serie impressionante di strumenti e metodologie, allo sviluppo della bioinformatica europea e non solo.
Da una collaborazione tra l'EMBL e il Dipartimento di biochimica medica dell'Università di Ginevra nasce un altro dei punti fermi della bioinformatica moderna, la banca dati SwissProt. Si tratta di una banca dati di sequenze amminoacidiche di proteine annotata manualmente, nella quale, cioè, oltre alla sequenza delle proteine sono registrate anche accurate informazioni sulle loro caratteristiche biochimiche. Essa diventerà un mezzo comune sia per ottenere informazioni sia per verificare l'efficienza dei metodi di predizione di funzione delle proteine.
Nel 1988 anche gli Stati Uniti fondano un istituto dedicato all'analisi e alla conservazione dell'informazione biologica in forma computerizzata: l'NCBI (National center for biotechnology information). Nello stesso anno vede la luce la Human genome initiative, che si propone di ottenere la mappa fisica e la sequenza completa del genoma umano.
Per avere una misura dell'interesse e della popolarità di cui la bioinformatica gode dopo il 1990 basta osservare la lunga lista di società private che producono software o dati per la bioinformatica nate in tale periodo. Nel 1989 il Genetics computer group diventa una società e commercializza il suo pacchetto di programmi (GCG), nello stesso anno nasce la società Oxford molecular group che mette a disposizione metodi e banche dati per la modellizzazione molecolare. Si prosegue nel 1990 con Michael Levitt che fonda il Molecular applications group (per il disegno e la modellizzazione di proteine) e con InforMax; nel 1991 nascono Incyte pharmaceutical e Myriad genetics, nel 1992 Human genome system, TIGR e Genome therapeutics, nel 1993 Curagen, Affymetrix, Compugen e InterNIC, nel 1994 GeneLogic e potremmo continuare.
Nel frattempo la banca dati di sequenze cresce in modo esponenziale e gli algoritmi della serie FAST cominciano a essere troppo lenti. Il problema viene risolto da Stephen Altschul e dai suoi collaboratori con un programma chiamato BLAST, altra pietra miliare nella storia dello sviluppo di metodi bioinformatici. Rimane ancora il problema di dover aggiornare continuamente le banche dati in ogni laboratorio di ricerca e di dover installare e rendere funzionanti i vari programmi. I compact disk, nati nel 1983, possono essere utilizzati per distribuire dati e programmi, mentre il problema dell'aggiornamento dei dati tra una versione distribuita delle banche dati e l'altra è risolto grazie a Internet, che permette di copiare dati da computer remoti. Non si tratta ancora di soluzioni del tutto soddisfacenti, ma una nuova rivoluzione è alle porte. Nel 1990 viene stabilito il protocollo HTTP (hyper text transfer protocol) che permette una 'collaborazione' ipermediale fra computer. L'idea viene poi implementata l'anno dopo dal CERN di Ginevra: è nato il world wide web. Cambierà la società in cui viviamo, ma cambierà ancora di più il mondo della bioinformatica permettendo di accedere alle informazioni direttamente in rete, ed eliminando due enormi ostacoli che si stavano prospettando: non sarà più necessario gestire localmente l'enorme mole di informazione che verrà resa disponibile dai progetti genomici perché essi potranno essere conservati in istituti centralizzati a cui il mondo potrà accedere direttamente e, allo stesso tempo, non ci sarà più il problema di aggiornare le banche dati con i nuovi dati che inizieranno presto ad accumularsi a una velocità impressionante.
All'inizio degli anni Novanta appare sulla scena un personaggio la cui intraprendenza, visione scientifica e capacità imprenditoriale dovrà avere un grande impatto sulla storia del progetto genoma. Si tratta di J. Craig Venter il quale, nel 1992, prevedendo le difficoltà che si sarebbero incontrate nel progetto di sequenziare l'intero patrimonio genomico umano, una ricerca che suscita grandi aspettative ma altrettante ansie e preoccupazioni, pubblica un articolo in cui descrive la creazione e l'utilizzazione delle expressed sequenze tags o EST. A questo punto della storia della bioinformatica o dei progetti genomici (i loro destini sono ormai indissolubilmente legati) è infatti diventato chiaro che ricercare le regioni codificanti all'interno dell'enorme sequenza nucleotidica che descrive un essere umano non sarà un problema di semplice soluzione. Più del 97% del genoma umano non contiene geni, ma è formato da pseudogeni, retropseudogeni, regioni satellite, minisatellite, microsatellite, trasposoni, retrotrasposoni, vestigia di virus, ecc., e le regioni codificanti sono sparse all'interno di questa enorme quantità di cosiddetto DNA 'egoista'. Il primo passo consiste quindi nell'individuare le regioni interessanti, tuttavia è anche necessario identificare con esattezza i limiti delle regioni codificanti (esoni) che sono intervallate da introni i quali possono contenere un numero variabile di nucleotidi (da sette a qualche migliaia). Generalmente al punto di giunzione tra esone e introne e tra introne ed esone si trovano rispettivamente le coppie di nucleotidi AG e GT, ma non c'è alcun limite sulla distanza a cui ci aspettiamo di trovare questi due segnali e le sequenze degli introni non presentano alcuna caratteristica ovvia che le distingua dal resto del gene.
I geni sono poi trascritti, cioè copiati in molecole di RNA messaggero (mRNA) le quali subiscono modificazioni prima di essere tradotte in proteine: gli introni vengono eliminati dalla molecola di RNA e una serie di nucleotidi, contenenti la base adenina, viene aggiunta a una delle sue estremità. L'idea di Venter è di 'pescare' le molecole di RNA messaggero sfruttando il fatto che contengono le adenine, ricopiarle in molecole di DNA (cDNA) e sequenziare queste ultime. Si tratta di un progetto di grandi dimensioni perché il numero di proteine, e quindi il numero di molecole di RNA messaggero, in una cellula, è molto alto. Pertanto, in prima battuta, i frammenti delle molecole di cDNA vengono sequenziati rapidamente, e con una percentuale di errore abbastanza alta, ma le brevi sequenze ottenute possono essere confrontate con la sequenza del genoma e utilizzate per identificare le regioni in cui è presente un gene.
Nel frattempo un consorzio di università e centri di ricerca sta portando avanti il progetto genoma che dovrebbe essere completato entro la fine del 2003, cinquantesimo anniversario della descrizione della struttura del DNA da parte di Watson e Crick, con un costo stimato di circa tre miliardi di dollari. Il metodo usato per il sequenziamento consiste nel clonare grandi frammenti nei già citati cromosomi artificiali di lievito e poi nel clonare ulteriormente frammenti più piccoli che possono essere sequenziati. A grandi linee si può dire che la tecnica inizialmente usata dal consorzio era accurata e permetteva di ottenere la sequenza di uno stesso frammento più volte in esperimenti indipendenti. Venter fonda la Celera genomics e, utilizzando un metodo più approssimato ma anche più veloce, è in grado di completare la sequenza del genoma umano. Il consorzio accademico raccoglie la sfida, anche perché si ritiene che sia troppo rischioso permettere che una sola società privata abbia a disposizione dati di tale importanza. A questo punto inizia la corsa al genoma. Il consorzio modifica il metodo per ottenere le sequenze, fa investimenti enormi e, il 26 giugno del 2001, sia il consorzio pubblico sia la Celera genomics annunciano contemporaneamente che il sogno accarezzato da tanto tempo si è realizzato: si conosce quasi completamente una 'bozza' delle istruzioni genetiche che descrivono la specie umana.
Questa fondamentale scoperta ha monopolizzato l'attenzione del mondo scientifico per alcuni anni, ma non sarebbe giusto trascurare il fatto che, tra il 1994 e il 1998, è stata ottenuta la sequenza di altri genomi, ugualmente importanti dal punto di vista scientifico. Si tratta di organismi di rilevanza medica, come Haemophilus influenzae, Mycoplasma genitalium, Pseudomonas aeruginosa, o di organismi modello su cui si era concentrata per motivi diversi l'attenzione dei biologi molecolari e dei genetisti: Escherichia coli, Saccharomyces cerevisiae (cioè lievito), Caenorhabditis elegans e di altri ancora.
Una strategia in cui prima si ottiene la sequenza dell'intero genoma e successivamente la si analizza per cercare i geni e per assegnare loro la funzione non sarebbe vincente. Il mondo attende risposte, la Celera genomics potrebbe conseguire risultati di rilevanza medica prima della comunità accademica, modifiche di metodi esistenti e nuovi algoritmi si rendono necessari per affrontare problemi inattesi che si verificano nel processo di analisi genomica: la bioinformatica non può fermarsi e infatti produce nuovi metodi e risultati di pari passo con la produzione dei dati genomici. Ci sono due aspetti del problema che vanno affrontati: da una parte la ricerca dei geni all'interno della sequenza genomica, dall'altra l'attribuzione di una funzione il più possibile definita a ciascuno di essi. Sono proposte decine di metodi statistici disegnati per distinguere le regioni codificanti da quelle non tradotte in proteina sulla base di differenze nelle loro composizioni nucleotidiche. Inoltre, sono sfruttate a pieno anche le potenzialità dei metodi di ricerca di similitudine tra sequenze, sia per ritrovare lungo il genoma le sequenze ottenute nell'ambito del progetto EST, sia per identificare regioni codificanti confrontandole con quelle di proteine note. Un buon numero di sequenze di proteine umane era stato già sequenziato individualmente e il confronto della sequenza del genoma con quelle contenute nella banca dati di sequenze di proteine può permettere la diretta identificazione del prodotto genico. Sebbene la sequenza della proteina umana non sia nota, è frequente che si conosca la sequenza di una proteina omologa in un altro organismo e, se la similarità è sufficientemente alta, l'identificazione delle regioni codificanti diventa molto più semplice. Come abbiamo visto, anche l'assegnazione della funzione a un prodotto genico si può basare sulla ricerca di similarità di sequenza.
È quindi comprensibile che una gran parte degli sforzi della bioinformatica si sia diretta verso metodi più sensibili nell'identificare relazioni evoluzionistiche sia sfruttando i metodi statistici e gli algoritmi esistenti e utilizzati in altre discipline, sia inventandone di nuovi. Aspetti importanti di questo periodo della storia della bioinformatica sono l'organizzazione 'razionale' e l'interconnessione fra le varie banche dati. Sono nate perciò banche dati contenenti allineamenti precompilati di proteine appartenenti alla stessa famiglia evoluzionistica, o in cui le proteine sono raggruppate per similarità strutturale, o ancora contenenti frammenti (contigui o no) di sequenze proteiche associabili a una certa funzione. Allo stesso tempo, sfruttando il world wide web, le banche dati vengono collegate tra loro ed è possibile 'navigare' dall'una all'altra con un semplice click.
Molti fra i metodi di bioinformatica finora sviluppati hanno limitazioni e presentano problemi irrisolti, ma in un numero di casi sempre maggiore è possibile associare una funzione biochimica a un prodotto genico. Questo obiettivo è importantissimo anche se non rappresenta ancora una soluzione soddisfacente. La funzione biochimica di una proteina è determinata dalla sua struttura tridimensionale e, se si vuole interferire con essa, per esempio inibendola a scopi investigativi o terapeutici, è necessario conoscerla nei suoi dettagli molecolari. Ritorniamo perciò a parlare della storia di un'altra linea di ricerca della bioinformatica, quella della predizione della struttura tridimensionale delle proteine.
Il lavoro pionieristico della predizione della struttura secondaria di Chou e Fasman, che ottenevano un'accuratezza di circa il 55%, fu seguito da altri tentativi sempre basati sulle proprietà statistiche delle sequenze amminoacidiche delle proteine di struttura nota; tuttavia sembrava che non vi fosse modo di migliorare l'accuratezza dei metodi, almeno fino al 1993. In questo anno, infatti, Burkhardt Rost e Chris Sander pubblicano un articolo in cui riportano la predizione della struttura secondaria delle proteine con un'accuratezza superiore al 70% e l'intero campo della predizione di struttura riceve nuovo impulso. Due sono le intuizioni che caratterizzano il nuovo metodo: la predizione non riguarda una sola proteina, ma l'intera famiglia cui essa appartiene (in quanto come si è detto la struttura è in gran parte conservata tra proteine omologhe), e il metodo è basato su tecniche di intelligenza artificiale, in particolare su reti neurali. Oggi lo stesso metodo, grazie alla disponibilità di un maggiore numero di sequenze che si può utilizzare nella costruzione della famiglia, ha raggiunto, e spesso supera, un'accuratezza dell'80%.
Come abbiamo detto due proteine con sequenze simili hanno una struttura simile e questa relazione era anche stata formulata quantitativamente da Arthur Lesk e Cyrus Chothia nel 1986. Agli inizi degli anni Novanta si è iniziato a comprendere un altro fondamentale aspetto delle strutture delle proteine, vale a dire che la relazione tra similarità di sequenza e somiglianza strutturale non è biunivoca: spesso proteine con sequenza diversa e quindi presumibilmente non omologhe, hanno una topologia molto simile, come se la Natura utilizzasse preferenzialmente alcune architetture proteiche 'più adatte'. Tale acquisizione è certamente interessante dal punto di vista teorico, ma ha anche un'utilità pratica: una proteina la cui sequenza non assomiglia a quella di nessuna delle proteine di struttura nota, potrebbe comunque assomigliarvi dal punto di vista strutturale per cui possiamo provare a modellare la proteina di struttura ignota come se fosse simile a ciascuna delle proteine note e valutare quale delle strutture è più compatibile con la sua sequenza. Tale metodo, definito riconoscimento di fold, ha migliorato costantemente la sua affidabilità negli ultimi dieci anni e le sue diverse implementazioni sono diventate strumenti di routine in bioinformatica.
Sia il metodo di modellizzazione per omologia sia quello di riconoscimento di fold non sono soluzioni intellettualmente soddisfacenti al folding problem. Le proteine non consultano banche dati di struttura durante il loro processo di strutturazione, quindi deve esistere una soluzione del problema deducibile dalla sola sequenza della proteina. La storia dei tentativi di decodificare la seconda metà del codice genetico, anche definita come predizione di struttura ab initio, è lunga e caratterizzata da momenti di grande entusiasmo collettivo purtroppo sempre seguiti da cocenti disillusioni. Il problema è complesso in quanto per risolverlo in maniera definitiva occorrerebbe generare tutte le possibili conformazioni di una proteina e selezionare quella a energia minore oppure cercare di simulare al computer il processo di strutturazione. Purtroppo da una parte il numero di possibili conformazioni anche per una piccola proteina di un centinaio di amminoacidi supera l'incredibile valore di 1050 e, dall'altra, una valutazione sufficientemente accurata dell'energia di molecole così complesse non è ancora alla nostra portata: l'errore che commettiamo è troppo grande per discriminare la struttura nativa da altre strutture ragionevoli ma scorrette (ricordiamo quanto è piccola la differenza energetica tra la forma nativa e quella destrutturata di una proteina). Tuttavia, alcuni recentissimi e interessanti sviluppi, basati su una combinazione di calcoli energetici e di analisi fondate su parametri derivati da strutture di proteine note, consentono di essere ottimisti e di auspicare che forse, finalmente, si inizia a comprendere alcune regole di questo interessante ma complicatissimo gioco.
Molti degli straordinari progressi nel campo della predizione delle strutture tridimensionali di proteine sono avvenuti grazie alla felice intuizione di John Moult, del Center for advanced research in biotechnology nel Maryland. Fino al 1994 l'unico modo per verificare la qualità di un metodo di predizione era utilizzarlo per predire la struttura di una proteina già nota. Questo creava non pochi problemi: la maggior parte dei metodi è basata su parametri derivati da strutture note per cui non è semplice estrapolare i risultati ottenuti nella predizione della struttura di una proteina utilizzata anche per derivare il metodo con quelli che si otterranno nella predizione di una proteina totalmente 'nuova'.
Moult ha proposto di risolvere il problema avviando una serie di esperimenti su scala mondiale, chiamati CASP (critical assessment of methods for structural predition) che si propongono di valutare l'affidabilità dei metodi di predizione applicandoli a proteine la cui struttura non è ancora nota, ma che lo sarà in tempi brevi. L'esperimento è ripetuto ogni due anni e ha la durata di qualche mese. In una prima fase viene richiesto ai biologi strutturali di rendere pubbliche le sequenze delle proteine su cui stanno lavorando e la cui struttura sarà probabilmente determinata sperimentalmente entro pochi mesi. Nella seconda fase, i bioinformatici depositano predizioni per la struttura di queste proteine e, infine, quando le strutture sono state risolte, una équipe di esperti valuta l'accuratezza delle predizioni e cerca di stabilire in quali aspetti vi è stato chiaro progresso e in quali invece è necessario concentrare gli sforzi futuri. Si può certamente affermare che molti progressi della predizione di struttura di proteine, tra i quali il miglioramento dei metodi di predizione di struttura secondaria, lo sviluppo delle tecniche di riconoscimento di fold e la messa a punto di nuove tecniche per la predizione di strutture ab initio, sono stati enormemente stimolati dagli esperimenti CASP.
Il futuro della bioinformatica
Sull'onda dei progetti genomici, la comunità scientifica si sta ora ponendo altri obiettivi, altrettanto ambiziosi e importanti. Si può affermare che la biologia moderna stia cercando di affiancare agli sforzi diretti alla soluzione di uno specifico problema biochimico, sforzi di tipo più globale o, per utilizzare una locuzione ormai di uso comune, sforzi '-omici'. Per esempio, adesso che possiamo conoscere la sequenza di tutte le proteine di un organismo, è possibile fare un ulteriore sforzo e cercare di determinare la struttura di ciascuna di esse. In realtà, grazie ai progressi della bioinformatica non è necessario determinare la struttura di tutte le proteine del pianeta, basterà risolvere quella di proteine rappresentative di ciascuna famiglia di proteine omologhe (genomica strutturale) modellando le altre. La bioinformatica gioca un ruolo fondamentale tanto nella selezione delle proteine da studiare quanto nel loro successivo impiego per modellare gli altri membri della famiglia.
Anche lo studio dei livelli di espressione di una proteina in una cellula, delle loro variazioni e delle modificazioni subite dalle proteine in risposta agli stimoli esterni può essere studiato non solo a livello della singola proteina, ma in modo '-omico', cioè automatizzando il processo e applicandolo contemporaneamente a centinaia di geni o proteine (genomica funzionale e proteomica). Non sfuggirà che ciascun progetto '-omico', e ve ne sono centinaia, produce un'impressionante quantità di dati che vanno analizzati, raggruppati, interpretati e quindi non deve stupire che questa branca della bioinformatica accolga quotidianamente nuovi adepti. Ormai la bioinformatica si è guadagnata, e meritatamente grazie al suo eclettismo e alla sua impressionante produzione di metodi e teorie, un ruolo di tutto rispetto nelle scienze della vita, ma questa sua veloce ascesa al successo ha anche fatto aumentare le aspettative nei suoi confronti. Alcune sfide future sono imprevedibili, mentre altre possono essere immaginate. Nell'era postgenomica è ineluttabile che sia messa alla prova la capacità della bioinformatica di interpretare fenomeni biologici di complessità sempre maggiore, come la relazione tra diversità genetica e risposta a trattamenti farmacologici, o la predizione e comprensione delle complesse reti di interazioni tra eventi biochimici ed elettrofisiologici all'interno di una cellula o ancora la simulazione di interi cicli biochimici. La bioinformatica si sta preparando con nuovi strumenti e idee a raccogliere anche tali sfide ma, con la stessa lungimiranza testimoniata dalla storia che abbiamo tracciato fin qui, è già pronta a scalare un'altra vetta: la simulazione in silico di un'intera cellula e anche di un intero organismo. Se ciò avesse successo potremmo simulare esperimenti, verificare teorie, analizzare le caratteristiche dei processi patologici e persino simulare terapie.
Lesk 2002: Lesk, Arthur, Introduction to bioinformatics, Oxford, Oxford University Press, 2002.
Perutz 1998: Perutz, Max, I wish I'd made you angry earlier, Plainview (N.Y.), Cold Springs Harbor Laboratory Press, 1998.
Ridley 2002: Ridley, Matt, Genoma. L'autobiografia di una specie in ventitré capitoli, Torino, Instar Libri, 2002 (ed. orig.: Genome: the autobiography of a species in 23 chapters, London, Fourth Estate, 1999).
Sayre 1975: Sayre, Anne, Rosalind Franklin & DNA, New York, Norton, 1975.
Tramontano 2002: Tramontano, Anna, Bioinformatica, Bologna, Zanichelli, 2002.
Watson 1968: Watson, James Dewey, La doppia elica, Milano, Garzanti, 1968 (ed. orig.: The double helix, London, Weidenfeld and Nicolson, 1968).