Bioinformatica
La b. è una disciplina al crocevia tra informatica, statistica, matematica e biologia, nata alla fine degli anni Settanta del 20° sec. dall'esigenza di archiviare, analizzare e interpretare la pletora di dati biologici che si andavano accumulando a velocità sempre maggiore. L'informazione biologica è contenuta nei geni, codificati da sequenze di nucleotidi nella molecola di acido desossiribonucleico (DNA) della cellula. L'informazione viene trascritta nella sequenza nucleotidica di molecole di acido ribonucleico (RNA messaggero) che vengono poi decodificati dando origine alle proteine, polimeri formati da unità di base chiamate aminoacidi, coinvolte in gran parte delle funzioni biologiche. La specifica sequenza di aminoacidi di una proteina ne determina struttura tridimensionale e funzione. Il numero di geni e proteine nei viventi è enorme e non è quindi immaginabile che si possa studiare la funzione di ciascuna di esse con tecniche sperimentali. Compito della b. è sviluppare, validare e integrare metodologie per estrapolare le conoscenze biologiche ottenute sperimentalmente su un sottoinsieme molto limitato di molecole biologiche all'intero insieme delle molecole della vita.
Così come per qualunque meccanismo, anche per un organismo biologico la comprensione del suo funzionamento richiede l'identificazione delle componenti di base e del loro ruolo specifico, e infine la comprensione di come le varie funzioni sono regolate e interagiscono tra loro. Un organismo biologico è però un meccanismo di una complessità senza pari, in grado di svilupparsi, trasdurre energia, riprodursi, autoregolarsi ed evolvere. Il problema di comprendere in dettaglio il suo funzionamento è perciò estremamente intricato e presumibilmente la sua soluzione occuperà ancora i ricercatori per buona parte di questo secolo. Tuttavia, vengono compiuti continuamente passi avanti di notevole importanza e la nostra conoscenza del 'sistema vita' è già sufficientemente accurata da avere rilevanza applicativa nel campo della medicina e della biotecnologia.
Basi razionali
L'informazione biologica è immagazzinata in banche dati biologiche, che sfruttano a pieno i notevoli progressi dell'informatica in questo campo. In b., la difficoltà maggiore non risiede nella quantità di dati da immagazzinare ma piuttosto nella necessità di fornire un accesso integrato veloce e semplice ai dati stessi, tenendo conto delle loro notevoli peculiarità. D'altra parte, però, le informazioni immagazzinate sono di tipo estremamente diverso. Dal punto di vista molecolare, un gene è la sequenza di acido nucleico (DNA o RNA in alcuni virus) necessaria per la sintesi di una proteina o di RNA e quindi include tutta la sequenza necessaria per la sintesi del suo prodotto, per es. le regioni che controllano l'inizio e la terminazione della sua trascrizione, e, negli eucarioti, anche regioni interne dette introni, che non sono tradotte ma vengono rimosse durante il processo di trascrizione. Ne consegue che i dati che caratterizzano un gene non riguardano solo la sua sequenza nucleotidica o la sua posizione nel genoma, ma anche la localizzazione dei suoi introni, la posizione e il tipo di sequenze regolatrici, a cui cioè si legano fattori che ne regolano il livello di trascrizione e traduzione in tempi, condizioni e tipi cellulari diversi. Ancora, è importante collezionare e rendere disponibili dati sulla presenza e posizione di mutazioni patologiche osservate nella popolazione e su variazioni non patologiche (polimorfismi). Per le proteine, i dati necessari alla loro caratterizzazione includono, oltre alla sequenza di aminoacidi, le eventuali modifiche post-traduzionali (come fosforilazioni, glicosilazioni, metilazioni), la loro localizzazione cellulare, la funzione molecolare, il processo biologico a cui prendono parte, la loro struttura tridimensionale, le interazioni con altre molecole e gli eventuali cambiamenti conformazionali e funzionali che ne conseguono.
La b. deve permettere l'accesso a tutte queste informazioni e altre ancora, ma anche mettere a disposizione della comunità il risultato di analisi di routine sui dati, per es. le loro classificazioni, informazioni sulle loro similarità e così via. Le banche dati biologiche devono quindi rispondere a due esigenze fondamentali: da una parte mettere a disposizione della comunità scientifica queste informazioni in banche dati aggiornate, dall'altra garantire che le varie banche dati siano integrate così che si possa navigare in modo semplice, veloce e intuitivo dall'una all'altra. Il problema della disponibilità di dati aggiornati è risolto grazie alla potenza del sistema Internet: le banche dati sono perlopiù centralizzate, cosa che garantisce l'accesso via rete alle stesse informazioni da parte di tutta la comunità scientifica, anche se a costo di altre difficoltà. Il problema dell'integrazione è più complesso, anche perché ogni nuova tecnica sperimentale produce nuovi tipi di dati biologici e quindi richiede l'istituzione di nuove banche dati che vanno integrate con quelle già esistenti.
Un problema di estrema rilevanza è quello dell'affidabilità delle informazioni contenute nelle banche dati. Gran parte di esse sono ottenute con metodi computazionali che hanno diversi livelli di affidabilità e che spesso si basano sulle annotazioni di altri elementi biologici nella stessa o in altre banche dati. Ne consegue che un errore, per es. nell'assegnazione funzionale di un gene o di una proteina, può propagarsi ad altri geni o proteine. Per ridurre l'effetto deleterio del fenomeno, le banche dati memorizzano anche la sorgente delle annotazioni di ciascun loro elemento. In questo modo, almeno in linea di principio, quando nuove informazioni si rendono disponibili, è possibile individuare tutte le annotazioni che devono essere modificate di conseguenza. In alcuni casi, il problema della propagazione degli errori nelle banche dati non è così facilmente risolvibile. Nuove soluzioni sono continuamente implementate, ma è difficile immaginare che il problema possa essere risolto una volta per tutte in maniera completamente soddisfacente.
Gli strumenti bioinformatici
La lista degli strumenti di analisi che la b. ha reso disponibili è lunga e cresce velocemente. I metodi rispondono a un gran numero di esigenze nei diversi settori della b., tra cui l'analisi di sequenze geniche e la ricerca di geni, l'assegnazione di una funzione molecolare a un prodotto genico, le analisi filogenetiche, l'analisi di dati di espressione di geni e proteine, la predizione di strutture tridimensionali di proteine e acidi nucleici e dei loro complessi, l'analisi di mutazioni patologiche e la modellizzazione di interi sistemi. Gran parte dei metodi utilizzati in questi campi si basano su ragionamenti di tipo evoluzionistico. Ricordiamo che il genoma di un organismo subisce, durante l'evoluzione, sostituzioni, inserzioni e delezioni di nucleotidi così come duplicazioni e scambio di intere regioni (crossing over) e che queste variazioni si riflettono sulle proteine codificate. Se una proteina è conservata durante l'evoluzione ed è quindi presente in organismi diversi, è lecito assumere che, in tutti questi organismi, sia in grado di svolgere una funzione e abbia conservato una struttura tridimensionale stabile. Questa osservazione ha importanti implicazioni nel campo della predizione della struttura tridimensionale delle proteine e della loro funzione biologica. Il primo genoma di cui è stata ricostruita l'intera sequenza nucleotidica è stato, nel 1977, quello di un virus batterico, il batteriofago Ί174. La sua dimensione è di 5386 coppie di basi. A meno di tre decenni di distanza, nel 2005, più di 400 genomi completi erano disponibili, senza contare quelli virali, e più di 400 in via di completamento. Il primo passo nell'analisi di questi dati è l'identificazione delle regioni codificanti, cioè dei geni, e l'annotazione funzionale dei loro prodotti. Il problema dell'identificazione dei geni appare particolarmente rilevante nel caso di genomi eucarioti, in quanto la densità dei geni all'interno del loro DNA è bassa (per fare un esempio solo circa il 3% dei circa tre miliardi di nucleotidi del genoma umano codifica per proteine) e, perché, per identificare i prodotti genici, occorre prima di tutto riconoscere gli introni all'interno delle possibili sequenze geniche. I metodi che si utilizzano sono, in prima approssimazione, di due tipi: comparativi e statistici.
Metodi comparativi. - La sequenza di alcune delle proteine codificate può essere già nota, e un confronto della sequenza genomica con quella di sequenze di proteine note può permettere di identificare il prodotto finale. Anche se non è noto il particolare prodotto del genoma in esame, può essere nota la sequenza di una proteina molto simile, o comunque sufficientemente simile da indicare una chiara relazione evolutiva, in un altro organismo. L'analisi comparata di genomi è quindi di aiuto nell'identificazione delle regioni codificanti. È poi possibile che il gene sia presente nella banca dati che contiene le sequenze delle EST (Expressed Sequence Tag), cioè sequenze di DNA derivate da quelle degli RNA messaggeri presenti in una popolazione di cellule (e quindi da geni che sono trascritti in qualche tessuto o a un certo stadio di sviluppo). Infine, le regioni codificanti sono soggette a una pressione evolutiva maggiore rispetto, per es., a sequenze introniche, e quindi il confronto fra l'intera sequenza del genoma in esame con quello di una specie evolutivamente vicina, può permettere l'identificazione delle regioni maggiormente conservate e quindi più probabilmente codificanti.
Metodi statistici. - I metodi statistici cercano invece di sfruttare differenze tra le caratteristiche di regioni codificanti e il resto del genoma. Semplici analisi di frequenze di nucleotidi non sono sufficientemente discriminanti, occorre perciò ricorrere a metodi più sofisticati che, al momento, riescono a identificare circa l'80% dei geni, con un'accuratezza di circa l'80%. La sequenza di un gene, una volta identificata, permette di conoscere immediatamente la sequenza della proteina che esso codifica, in quanto il codice che lega la sequenza nucleotidica del gene alla sequenza aminoacidica della proteina è universale e noto. Non tutti i geni sono però espressi (cioè tradotti nel loro prodotto genico) allo stesso livello, o in tutte le cellule di un organismo o in tutti gli stadi del suo sviluppo e infatti cellule diverse, pur possedendo lo stesso patrimonio genetico, si comportano diversamente e svolgono ruoli diversi. La conoscenza dei prodotti genici, e cioè delle proteine potenzialmente espresse in una cellula, non fornisce sufficienti informazioni biologiche sul suo funzionamento. Inoltre, variazioni nell'espressione di alcuni geni in una cellula possono essere patologiche, come accade in un gran numero di tumori, ed è quindi importante non solo sapere quali sono i geni ma anche quando, dove e a che livello essi sono trascritti e tradotti. Recentemente si sono resi disponibili nuovi metodi che permettono di valutare il livello di trascrizione di tutti i geni all'interno di una popolazione di cellule che possono essere utilizzati per sapere quali e quante proteine sono espresse in varie condizioni sperimentali. Compito della b. è analizzare i dati, quantitativi ma approssimati, derivati da questi esperimenti per ottenere informazioni utili sulle proteine o sulle cellule in esame. L'analisi permette di identificare gruppi di geni che rispondono in modo simile in diverse condizioni sperimentali e che quindi presumibilmente prendono parte allo stesso processo, o di associare alcuni geni con stati patologici di cui sono responsabili. Queste associazioni possono essere poi utilizzate per scopi diagnostici o terapeutici. Questo campo di ricerca, ancora abbastanza recente, ha grandi potenzialità. Ci si aspetta che diventi la base di metodologie più sicure ed efficaci per diagnosi precoci, che permetta una sorta di 'medicina personalizzata', suggerendo le terapie più appropriate sulla base dell'analisi di dati di espressione di tessuti prelevati da pazienti, e che aiuti a identificare le cause molecolari di disfunzioni specifiche e la conseguente scoperta di nuovi agenti terapeutici. Anche le sequenze aminoacidiche delle proteine codificate dai geni di un organismo sono oggetto di intenso studio in b., con lo scopo di associare una funzione biologica a ciascuna sequenza. Va però prima spesa qualche parola per definire i concetti di funzione biologica e funzione cellulare. Una proteina che ha, per es., la funzione biologica di catalizzare il taglio di legami tra aminoacidi di altre proteine (idrolisi), ha anche una funzione cellulare, che specifica il processo biologico a cui prende parte. Per es., proteine che idrolizzano altre proteine possono prendere parte al processo della digestione, della coagulazione del sangue o ad altri ancora. Catalogare le funzione biologiche note e metterle in relazione l'una con l'altra è oggetto di vari sforzi di classificazione mirata a derivare una ontologia delle funzioni, e importanti collaborazioni internazionali stanno affrontando questo problema per ottenere una classificazione soddisfacente e utile. Le strade che si possono utilizzare per assegnare una funzione molecolare a una proteina sono essenzialmente due: in un approccio si cerca di ottenere informazioni, sperimentali o dedotte, sulla sua struttura tridimensionale per cercare di derivare, dalla precisa disposizione degli atomi, la sua possibile funzione, dall'altra si cerca di ricostruite il percorso evolutivo della proteina in esame in modo da poter utilizzare eventuali informazioni già note su suoi omologhi, cioè su proteine derivate da una stessa proteina 'progenitore'. La struttura tridimensionale di una proteina può essere ottenuta con cristallografia a raggi X o risonanza magnetica nucleare, ma entrambe le tecniche non sono sufficientemente veloci e semplici da poter essere applicate all'enorme numero di proteine delle quali vorremmo conoscere la struttura. Un'intera branca della b.si dedica quindi allo sviluppo di metodi per 'predire' la struttura tridimensionale di una proteina dalla sua sequenza aminoacidica. In generale, una proteina assume la struttura tridimensionale a minima energia libera, quindi in teoria sarebbe sufficiente cercare la configurazione a energia minima tra tutte quelle che una proteina può assumere. Questa strategia è resa impraticabile dall'enorme numero di possibili conformazioni di una proteina. Al problema dell'esplorazione di tutte le possibili conformazioni se ne aggiunge un altro: le proteine sono solo marginalmente stabili (l'energia libera di struttura di una proteina è dell'ordine di qualche kcal/mole), ma la loro stabilizzazione è dovuta a un enorme numero di interazioni deboli.
Il calcolo dell'energia associata a una data conformazione di una proteina richiede quindi la valutazione di molti termini e, affinché il valore dell'energia totale abbia una precisione sufficiente, l'energia di ciascuna interazione deve essere calcolata con un'accuratezza molto maggiore di quella possibile con le approssimazioni della meccanica classica. È necessario quindi ricorrere a metodi approssimati per ottenere un modello tridimensionale della struttura di una proteina. Il metodo di gran lunga più utilizzato e più affidabile si basa sul fatto che le proteine sono un prodotto dell'evoluzione. Se avviene una mutazione in un gene, la sequenza aminoacidica della proteina cambierà. La variazione può originare una proteina destrutturata e quindi non funzionale, che quindi non sarà osservata nella popolazione. Solo se la proteina mutata è ancora funzionale, e quindi con una struttura definita, essa sarà osservabile. Poiché la stabilizzazione di una proteina è dovuta all'azione concertata di un grandissimo numero di interazioni deboli, il caso più probabile è che la mutazione sia stata accomodata all'interno della struttura esistente causando solo variazioni strutturali locali. Ne consegue che proteine derivate da uno stesso progenitore comune e che hanno accumulato mutazioni 'accettate' evolutivamente, hanno una struttura tridimensionale simile. La struttura sperimentale di una proteina, quindi, rappresenta una ragionevole approssimazione della struttura di tutte le proteine della stessa famiglia evolutiva. Il problema si riconduce così alla corretta identificazione delle relazioni evolutive, area di estremo interesse della bioinformatica. Altri metodi per predire la struttura di una proteina si basano sull'osservazione che anche proteine non correlate dal punto di vista evolutivo hanno spesso un'architettura simile o comunque sono formate da motivi strutturali ricorrenti. Si può perciò valutare la compatibilità tra la sequenza della proteina di struttura non nota e le strutture, o combinazioni di motivi strutturali, già osservate in altre proteine. Questi metodi, per quanto recentissimi, stanno suscitando grande interesse in quanto sono in grado, in alcuni casi, di produrre modelli strutturali affidabili di proteine, anche se non hanno ancora raggiunto l'attendibilità dei metodi basati sull'evoluzione. Per quanto si è detto, non sorprende che gli strumenti bioinformatici più utilizzati nella ricerca biologica sono proprio quelli che, data una sequenza proteica o nucleotidica, mirano a individuare proteine o geni omologhi tra quelli disponibili nelle banche dati biologiche.
L'identificazione dei membri di una famiglia di proteine si basa perlopiù sul confronto delle loro sequenze: se la similarità tra le sequenze di due proteine è maggiore di quella che ci si aspetterebbe per caso, è probabile che le due proteine siano omologhe. I metodi più utilizzati calcolano l'allineamento ottimale tra la proteina in esame e ciascuna delle proteine della banca dati (vale a dire calcolano la corrispondenza tra gli aminoacidi delle due proteine che più probabilmente riflette la loro relazione evolutiva, se essa esiste). Essi poi calcolano la probabilità che la similarità osservata sia frutto del caso confrontando il risultato con una simulazione effettuata utilizzando sequenze casuali. La ricerca in banca dati può fornire liste di proteine molto probabilmente appartenenti alla stessa famiglia evolutiva, alcune di esse possono essere di funzione nota, la struttura di altre può essere stata determinata sperimentalmente. Il lavoro di un bioinformatico consiste nel capire quali informazioni e a che livello possono essere trasferite da una proteina all'insieme di quelle a essa omologhe. Un problema aperto, e oggetto di intenso dibattito, è quello di stabilire in quali casi la relazione evolutiva tra due proteine può essere utilizzata per dedurre l'esistenza di una funzione comune. Se, durante l'evoluzione, una popolazione dà origine a due nuove specie (speciazione), i geni della specie progenitrice saranno presenti nelle specie figlie ed evolveranno indipendentemente, ma solo mutazioni che non ne compromettono la funzione saranno osservabili nella popolazione. Le proteine diversificate a seguito di speciazioni, dette ortologhe, saranno soggette a una pressione evolutiva volta a mantenerne la funzione, che sarà perciò la stessa nelle due specie. Se però un gene subisce una duplicazione nell'organismo progenitore, generando una nuova proteina inizialmente con la stessa funzione, in una delle due copie saranno possibili anche mutazioni non compatibili con la funzione originaria, purché esse non siano deleterie per l'organismo. Dopo la speciazione, ciascuna delle copie evolverà indipendentemente, ma solo una delle due sarà soggetta a pressione evolutiva per mantenere la funzione, l'altra sarà libera di evolvere assumendo nuove funzioni, anche diverse nelle due specie: un'omologia tra due proteine non garantisce quindi che esse abbiano la stessa funzione molecolare. Lo sforzo in quest'area è diretto allo sviluppo di metodi per evincere dalla sequenza di due proteine se si tratta di proteine ortologhe o paraloghe, cioè derivate da duplicazioni. Come si è visto, un errore di valutazione a questo punto può avere un effetto a cascata sulle annotazioni delle banche dati.
Informazioni funzionali possono essere dedotte anche da dati strutturali, anche se a volte in modo ambiguo. In alcuni casi, la presenza di specifici aminoacidi in una ben definita posizione relativa può aiutare a comprendere la funzione svolta da una proteina, ma vi sono casi in cui la stessa struttura locale è utilizzata da proteine con funzioni diverse. Per es., sia alcune proteine che catalizzano la scissione di legami tra aminoacidi (proteasi) sia quelle che scindono legami tra lipidi (lipasi) utilizzano gli stessi aminoacidi in un'orientazione molto simile.
Le proteine non agiscono da sole: la maggior parte delle funzioni biologiche è mediata da loro interazioni con altre molecole, che possono essere fisiche, quando le molecole formano un complesso sopramolecolare, o logiche, quando il controllo sul comportamento di altre molecole avviene senza interazione fisica. Capire quali proteine interagiscono, come lo fanno e qual è la funzione espletata dal loro complesso è un problema rilevante quanto quello della predizione della struttura delle proteine isolate. Ugualmente importante, specialmente per scopi farmacologici, è la comprensione del modo in cui le proteine interagiscono con piccole molecole, quali i substrati delle reazioni che catalizzano, i loro regolatori e inibitori. Una parte significativa degli sforzi bioinformatici è diretta alla comprensione di questi fenomeni e all'interpretazione dei dati forniti da esperimenti su larga scala: esperimenti di interattomica, che permettono di identificare una gran parte dei complessi macromolecolari; di metabolomica, volti invece alla identificazione e quantificazione di piccole molecole presenti nelle cellule in diverse condizioni. Infine, astro nascente della b. è la biologia dei sistemi, con la quale si intende sia l'analisi e la correlazione di dati, sia il tentativo di modellare sistemi biologici, quali cellule, organi o addirittura interi organismi. Alcuni dei tentativi sono basati su simulazioni stocastiche, in cui il sistema viene modellato statisticamente e fatto evolvere nel tempo, altri sul tentativo di derivare equazioni che descrivono il comportamento del sistema. È indubbio che la prospettiva di simulare il comportamento di un sistema biologico (simulazione in silico) è affascinante e di estremo interesse intellettuale, ma non vanno trascurate le sue implicazioni pratiche. Quando anche questa frontiera verrà raggiunta, sarà possibile simulare in un computer il comportamento di una cellula, di un organo o di un organismo, e quindi predire le sue risposte a stimoli esterni, per es. farmaci. È difficile prevedere quali saranno le prossime sfide alla nostra capacità di interpretare e mettere in relazione i dati biologici. Nuove tecniche sperimentali che permettono di investigare con sempre maggiore dettaglio sistemi sempre più complessi si rendono continuamente disponibili. Ciò permette di formulare nuove domande e di spingere sempre più avanti la frontiera di ciò che è possibile investigare e interpretare. Non vi è però dubbio che ciascuna delle nuove sfide che ci aspettano richiede la capacità di analizzare e mettere in relazione tra loro i dati biologici, e che quindi la b.giocherà un ruolo essenziale nel nostro cammino verso la comprensione del sistema vita.
bibliografia
R. Durbin, S. Eddy, A. Krogh et al., Biological sequence analysis: probabilistic models of proteins and nucleic acids, Cambridge 1998.
A.V. Finkelstein, O.B. Ptitsyn, Protein physics. A course of lectures, San Diego (CA) 2002.
A. Tramontano, Bioinformatica, Bologna 2002.
A. Lesk, Introduzione alla bioinformatica, Milano, 2004.
A. Tramontano, The ten most wanted solutions in protein bioinformatics, London 2005.