Bioinformatica
di Giovanni Paolella e Giuseppe Martini
SOMMARIO: 1. Introduzione. ▭ 2. Acidi nucleici e proteine. ▭ 3. Metodi automatici di sequenziamento. ▭ 4. Banche di dati biologici: a) banche di sequenze nucleotidiche; b) banche di sequenze proteiche; c) altre collezioni di dati. ▭ 5. Programmi per l'analisi delle sequenze. ▭ 6. Algoritmi in uso nell'allineamento delle sequenze: a) allineamento di due sequenze; b) ricerca di allineamenti in banche dati; c) allineamenti multipli e famiglie di proteine. ▭ 7. Il genoma umano e altri genomi. ▭ 8. L'annotazione automatica delle sequenze. ▭ 9. Il prodotto dei geni: le proteine. ▭ 10. I prodotti di trascrizione dei geni. ▭ Bibliografia.
1. Introduzione.
La seconda metà del Novecento è stata caratterizzata, nel campo delle scienze biologiche, dall'enorme sviluppo dello studio delle grandi macromolecole informazionali: proteine, acidi nucleici e, più recentemente, polisaccaridi. Già nella prima metà del secolo, lo studio di queste molecole con i metodi tipici della chimica organica aveva portato alla comprensione della loro struttura chimica in termini di blocchi costruttivi e di tipi di interazioni (v. anche acidi nucleici, vol. I; v. proteine, vol. V; v. macromolecole, struttura delle, vol. XI). La determinazione della struttura a doppia elica del DNA, avvenuta negli anni cinquanta, confermò la sensazione, peraltro ormai diffusa, che le metodiche tradizionali fossero inadatte allo studio di tali molecole e che si rendesse necessario un approccio completamente nuovo per comprendere i meccanismi attraverso i quali la struttura delle macromolecole determina le funzioni delle varie componenti subcellulari e, in ultima analisi, le caratteristiche fenotipiche degli organismi viventi. Era ormai aperta la strada alla grande rivoluzione della seconda metà del secolo che - attraverso la combinazione di tecniche messe a punto in settori apparentemente lontani come la chimica, la genetica e la biochimica - portò allo sviluppo dell'ingegneria genetica e allo studio della biologia e della genetica a livello molecolare. Le proteine e gli acidi nucleici, infatti, sono costituiti da catene lineari di moduli molto simili tra loro, che si uniscono a formare strutture lunghe e complesse la cui identità è determinata dalla specifica sequenza con la quale i vari moduli sono disposti all'interno della macromolecola. Lo studio da parte dei ricercatori di tali sequenze - che sono decine di migliaia, ognuna delle quali è formata da centinaia o migliaia di amminoacidi in una proteina o da un numero analogo di nucleotidi in un gene - è assai difficile, e quello dei miliardi di nucleotidi di un genoma come quello umano è completamente al di fuori della loro portata. Lo sviluppo della bioinformatica, derivato dall'esigenza di gestire i risultati di questo tipo di studi, è stato reso possibile dal contemporaneo e parallelo sviluppo dell'elettronica digitale, che negli stessi anni ha portato l'informatica fuori dalle poche strutture di ricerca dedicate al calcolo, rendendola disponibile ai ricercatori prima e ai singoli studenti poi. Oggi, non solo chi si occupa primariamente di bioinformatica, ma anche il ricercatore che svolge la sua attività in laboratorio, deve utilizzare strumenti di tipo informatico, e i dati ottenuti, distribuiti attraverso Internet, sono alla portata di chiunque voglia collegarsi ai vari siti esistenti. Gli aspetti sociali, morali e giuridici derivanti dalla possibilità di visualizzare e analizzare interi genomi con strumenti ormai comunemente disponibili nelle case di tutti fanno ritenere opportuno che anche quanti non si occupano specificamente di biologia siano messi al corrente delle possibilità e delle implicazioni derivanti dallo studio dei genomi eucariotici.
2. Acidi nucleici e proteine.
Proteine e acidi nucleici sono molecole chimicamente e concettualmente molto diverse tra loro: le proteine, composte di amminoacidi dalla struttura chimica e dalle proprietà differenti, hanno caratteristiche pleiomorfe e sono i diretti protagonisti dei processi biologici intra- ed extracellulari; il DNA, composto da nucleotidi molto simili tra loro, ha una conformazione tridimensionale che nasconde le differenze strutturali piuttosto che evidenziarle ed è principalmente deputato alla conservazione delle informazioni e alla loro trasmissione alla discendenza; l'RNA, pur essendo simile al DNA dal punto di vista chimico, ha una maggiore capacità di assumere conformazioni tridimensionali complesse, ed è probabilmente il retaggio di una tappa evolutiva più antica, in cui la stessa molecola doveva sia conservare informazione che assolvere funzioni specifiche. Queste caratteristiche sono tuttora largamente presenti: l'RNA, infatti, costituisce il genoma di molti virus, ma è anche implicato in processi, come lo splicing e la sintesi proteica, fondamentali per la vita delle cellule.
La chimica degli acidi nucleici è basata sull'assemblaggio di quattro nucleotidi, contenenti basi azotate diverse, in lunghe catene polimeriche, più spesso doppie nel DNA e singole nell'RNA (v. fig. 1). Lo studio dettagliato di queste molecole è divenuto possibile, negli anni settanta e ottanta, con lo sviluppo delle tecniche di clonaggio, che hanno consentito di produrre quantità illimitate di molecole di DNA, mediante tecniche di amplificazione nei Batteri, e di analizzare la loro struttura mediante tecniche di sequenziamento. La determinazione delle sequenze del DNA è stata straordinariamente accelerata in anni più recenti dalla messa a punto di metodiche automatizzate per la determinazione e l'analisi delle sequenze nucleotidiche, che hanno portato allo sviluppo di progetti di sequenziamento su larga scala, culminati nella recente determinazione della sequenza completa del genoma umano (v. genoma, vol. X; v. genomica, vol. XII). I metodi di sequenziamento delle proteine sono antecedenti a quelli degli acidi nucleici, ma anche questi sono andati incontro a notevoli trasformazioni nel corso degli anni; le tecniche oggi comunemente utilizzate si basano nella quasi totalità dei casi sulla disponibilità di sequenze nucleotidiche e sulla loro traduzione in amminoacidi.
3. Metodi automatici di sequenziamento.
I metodi oggi più utilizzati per la determinazione della sequenza delle basi nel DNA si fondano sull'interruzione di una catena neosintetizzata in punti determinati. Un'elica della molecola stampo viene sintetizzata artificialmente utilizzando separatamente quattro diverse miscele di nucleotidi, in ognuna delle quali un singolo nucleotide (A, o C, o T, o G) è modificato in maniera tale da interrompere il processo di allungamento della catena nello specifico punto in cui si è inserito. Si creeranno così dei frammenti di DNA di diversa lunghezza, il cui confronto consente di ricostruire la posizione di una base rispetto alle altre e quindi la sequenza esatta del DNA analizzato. La successiva analisi della dimensione dei prodotti di sintesi ottenuti con questa specifica terminazione (frammenti di restrizione) permette la ricostruzione della sequenza dello stampo. Negli ultimi quindici anni due fattori hanno contribuito in maniera significativa a cambiare la scala dei programmi di sequenziamento, rendendo possibile lo studio di interi genomi: 1) la sostituzione di traccianti radioattivi con marcatori fluorescenti, che ha reso molto più semplice la gestione dei protocolli sperimentali, facilitando le manipolazioni e consentendo così la determinazione delle sequenze anche in laboratori non specificamente attrezzati per l'uso di materiali radioattivi e l'analisi contemporanea di più molecole marcate nello stesso campione anche in assenza di assistenza diretta dell'operatore; 2) l'elevato grado di automazione reso possibile dalle modifiche ai protocolli e dal contemporaneo sviluppo delle tecniche di robotizzazione, che ha permesso di gestire numeri molto elevati di campioni in centri divenuti progressivamente laboratori specificamente dedicati al sequenziamento, in grado oggi di determinare sequenze nucleotidiche dell'ordine delle decine di migliaia di basi al giorno per operatore, e quindi di completare genomi semplici nel giro di pochi giorni.
Attualmente le macchine che leggono i profili sperimentali riescono a determinare la sequenza con un elevato grado di affidabilità anche in assenza di revisione umana e sono direttamente connesse ai sistemi di conservazione e analisi dei dati di sequenza. Nella fig. 2 è rappresentato lo schema delle procedure per la determinazione di sequenze nucleotidiche. Le sequenze ottenute sperimentalmente sono di norma immesse in una banca dati, sottoposte a una prima analisi per verificarne l'attendibilità (ad esempio, mediante eliminazione di sequenze non desiderate, come la sequenza del vettore usato per la generazione dei campioni) e immediatamente passate a un sistema di assemblaggio automatico che provvede a individuare l'esatto ordine dei frammenti che costituiscono la sequenza completa. Il processo è fondamentalmente identico per tutte le molecole, ma differenze importanti derivano dalle loro dimensioni. Per molecole relativamente piccole, come plasmidi ricombinanti o genomi di piccoli Virus, il processo è in genere rapido e affidabile, mentre progetti come la determinazione di sequenze genomiche di Mammiferi richiedono notevoli sforzi per integrare i dati ottenuti in laboratori diversi; giungere a un primo assemblaggio che copra parti significative di un genoma è in genere un importante traguardo per i numerosi ricercatori coinvolti e per la comunità scientifica.
4. Banche di dati biologici.
Il gran numero di sequenze nucleotidiche prodotte dai ricercatori nelle varie branche della biologia e della medicina ha posto nel tempo il problema di come e dove conservare i dati ottenuti. Al problema relativamente semplice di avere una sede per l'archiviazione dei dati cui accedere velocemente, si sono aggiunte nel tempo diverse altre esigenze, come la necessità di verificare la qualità dei dati, di effettuare rapide scansioni di tutta la banca, di rendere i dati facilmente reperibili ai ricercatori di tutto il mondo replicandoli in più siti. Nel tempo sono cambiati il tipo e la quantità dei dati, ma il parallelo progredire delle risorse computazionali ha consentito di tenere il passo e addirittura di migliorarne l'accessibilità, anche grazie a comunicazioni di buona qualità rese possibili da Internet.
a) Banche di sequenze nucleotidiche.
Le sequenze nucleotidiche sono state inizialmente collezionate in due sedi principali, la Sequence Data Bank dell'European Molecular Biology Laboratory (EMBL) a Heidelberg, in Germania, e la GenBank, negli Stati Uniti. All'inizio le due banche dati hanno proceduto indipendentemente, ma ben presto ci si è resi conto degli irrinunciabili benefici che potevano derivare da scambi di dati e aggiornamenti incrociati; pertanto i due progetti, pur rimanendo separati, hanno finito per avere notevoli interazioni che garantiscono oggi una grande omogeneità dei dati disponibili (v. fig. 3). Più recentemente si è aggiunta una terza banca dati, la DNA Data Bank of Japan (DDBJ), che oggi collabora attivamente con le prime due. Oltre alle sequenze nucleotidiche, nelle banche dati sono conservati anche annotazioni relative alla provenienza della sequenza, eventuali riferimenti bibliografici, un minimo di analisi strutturale e una lista, a volte anche molto lunga, di features (caratteristiche) essenziali per marcare zone di interesse all'interno della sequenza nucleotidica. La struttura interna delle banche dati è divenuta sempre più complessa, dovendo garantire la completa corrispondenza tra versioni successive di uno stesso record (documento). Negli anni il formato dei dati archiviati è stato adattato per fare fronte alle mutate esigenze sperimentali: accanto a records molto piccoli, corrispondenti a singoli esperimenti di sequenziamento, esistono records molto grandi, con enormi feature tables corrispondenti al prodotto dell'assemblaggio di grossi progetti di sequenziamento, come quello del genoma umano. Tuttavia, poiché è impensabile che un solo sistema possa soddisfare esigenze scientifiche disparate come quelle attuali, sono state create banche dati secondarie, le quali, invece di dati derivanti direttamente dalla sperimentazione in laboratorio, collezionano informazioni elaborate dai dati delle banche primarie, mettendone in evidenza aspetti non immediatamente visibili. Esempi di banche dati derivate sono UniGene, che conserva tutte le sequenze ottenute per un singolo gene, ed EMEST, una banca dati dove singole sequenze espresse sono assemblate per formare frammenti più lunghi. Ensembl è invece una banca dati dove le sequenze sono organizzate in interi cromosomi cui è possibile associare annotazioni di tipo diverso, come ad esempio i trascritti, i loci genetici, e così via.
b) Banche di sequenze proteiche.
In parallelo alle banche dati di acidi nucleici sono state costruite banche di sequenze proteiche, dapprima collezionando i risultati della determinazione sperimentale di sequenze, e successivamente integrandoli con quelli derivanti dalla traduzione delle corrispondenti sequenze nucleotidiche, quando il numero di queste ultime ha finito per superare di gran lunga quello delle sequenze proteiche determinate sperimentalmente. Naturalmente, non tutte le informazioni necessarie possono essere ottenute per questa via, e di conseguenza è proseguito il sequenziamento diretto di proteine, che di recente ha prodotto quantità consistenti di dati grazie all'uso della spettrometria di massa. L'originale collezione di sequenze proteiche, iniziata da Margaret Dayhoff negli anni settanta, è oggi confluita nella banca dati Swiss-Prot, che continua a essere un importante riferimento, mentre i dati derivanti dalla traduzione di sequenze nucleotidiche sono disponibili nella banca dati TrEMBL. Anche per le proteine esiste un gran numero di banche dati derivate, come ad esempio PROSITE o Pfam, che conservano rispettivamente patterns di sequenza e famiglie di proteine evoluzionisticamente correlate.
c) Altre collezioni di dati.
Parallelamente allo sviluppo di banche dati di sequenze nucleotidiche e proteiche, è stato creato un gran numero di collezioni di dati di interesse biologico. Le strutture tridimensionali di un elevato numero di proteine sono oggi note grazie a studi di cristallografia ai raggi X e di risonanza magnetica nucleare e tali dati sono confluiti nel Protein Data Bank (PDB). Un'importante collezione di dati relativi a malattie ereditarie è oggi disponibile attraverso la banca dati OMIM (Online Mendelian Inheritance in Man), mentre le pubblicazioni in campo medico e biologico possono essere consultate su MEDLINE, creata e resa disponibile dalla National Medical Library (Stati Uniti). Alle grandi banche di dati si è affiancato un elevatissimo numero di piccole collezioni che coprono vari aspetti della biologia, dagli enzimi di restrizione alle specie animali e vegetali, alla nomenclatura degli enzimi. Nella tab. I è riportato un elenco di alcune delle banche dati oggi disponibili, raggruppate in collezioni primarie di sequenze nucleotidiche e proteiche e in collezioni derivate, ottenute dalla rielaborazione dei dati contenuti nelle banche dati primarie. Nella parte a sfondo grigio è elencato un piccolo numero di banche che collezionano dati di interesse biologico non relativi a sequenze.
Il gran numero di banche esistenti ha posto il problema di come facilitare l'accesso ai dati da parte dei ricercatori e, più recentemente, anche del pubblico non specializzato, soprattutto in considerazione del gran numero di potenziali ricerche incrociate. Tutte le banche dati hanno in genere riferimenti a records di altre banche, ad esempio la sequenza di una proteina nella banca dati delle strutture tridimensionali (PDB), o gli articoli in cui è descritta una sequenza nella banca dati delle sequenze nucleotidiche. Inizialmente questi riferimenti erano piuttosto vari nel formato, ma oggi praticamente tutti dipendono dalla conservazione, nella prima banca dati, di un identificativo univoco che individua uno specifico record della banca dati cui si fa riferimento. Sulla base di questi collegamenti e allo scopo di favorire ricerche incrociate sono stati realizzati sistemi per l'integrazione di banche dati di tipo diverso. Il sistema SRS (Sequence Retrieval System), prodotto dalla collaborazione tra l'European Bioinformatics Institute (EBI) di Cambridge e la LYON di Heidelberg, permette di accedere a un numero molto elevato di banche dati, tra cui quelle che collezionano sequenze, mantenendo un'interfaccia d'uso identica e consentendo ulteriori collegamenti oltre a quelli già specificamente previsti dalle banche dati di partenza (v. fig. 4). Analogamente Entrez, creato dal National Center for Biotechnology Information (NCBI), permette di navigare rapidamente integrando in modo immediato le informazioni contenute nelle diverse banche dati, ad esempio sequenze, riferimenti bibliografici, tassonomia, genetica umana, ecc. Progressivamente l'interesse si è spostato da interfacce che riflettono in maniera più o meno diretta gli strumenti informatici e di laboratorio usati nell'analisi dei dati verso sistemi che permettono una completa separazione dei dati dalla loro rappresentazione, sfruttando efficacemente le opportunità offerte da Internet per accedere indifferentemente a dati locali o remoti con interfacce sempre più efficaci e facili da usare.
5. Programmi per l'analisi delle sequenze.
Al di là degli aspetti gestionali, che per quanto specifici ricalcano comunque il problema più generale della creazione e del mantenimento di banche di dati, lo studio delle sequenze nucleotidiche e proteiche richiede un notevole numero di strumenti software che tengano conto della natura chimica delle molecole e che permettano l'analisi di aspetti specifici: dai sistemi più diretti, come quelli che provvedono alla traduzione di una sequenza nucleotidica in sequenza proteica, a quelli più complessi di riconoscimento di patterns e di predizione della conformazione tridimensionale. Nel corso degli anni il grande sforzo compiuto dai numerosi centri di ricerca in tutto il mondo ha portato alla creazione di una gran quantità di software, oggi disponibile in varie forme: programmi da installare su PC di singoli utenti, programmi che richiedono notevole potenza di calcolo e che sono di norma utilizzati su macchine condivise, spesso in centri dedicati, programmi utilizzabili via Internet, in genere collegandosi al sito web dell'istituzione che li ha creati. Il progressivo miglioramento delle prestazioni delle macchine ha attenuato molte delle differenze fra i vari software, per cui molto spesso programmi inizialmente concepiti per l'uso su servers dedicati sono oggi facilmente utilizzabili su singole work stations. I criteri di analisi e gli algoritmi messi a punto quindici anni fa, pur in presenza di variazioni e miglioramenti, sono invece tuttora largamente in uso.
Molti dei programmi oggi disponibili sono riuniti in packages (pacchetti), spesso di tipo generale, che coprono varie aree della ricerca biologica. Alcuni di questi packages sono molto ampi, come il sistema GCG (Genetics Computer Group), originariamente messo a punto dall'Università del Wisconsin e successivamente distribuito commercialmente, ed EMBOSS (European Molecular Biology Open Software Service), un sistema sviluppato più di recente all'EBI, grazie anche alla collaborazione di ricercatori di altre istituzioni. Un altro gruppo di programmi, inizialmente sviluppati da Rodger Staden all'MRC (Medical Research Center) di Cambridge come supporto ai progetti di sequenziamento, si è evoluto negli anni in un package che interessa diversi vettori. Si tratta di strumenti che coprono un'area molto ampia delle esigenze del ricercatore, in quanto sono costituiti da un gran numero di programmi sia di uso generale, sia di tipo più sofisticato, diretti alla risoluzione di problemi specifici (per una lista dei programmi disponibili in EMBOSS, che fornisce anche una loro breve descrizione, si rimanda al sito http://www.hgmp.mrc.ac.uk/Software/EMBOSS/Apps/). I singoli programmi hanno però mantenuto una struttura molto simile, e ciò consente di riutilizzarli come moduli di procedure più complesse. Spesso anche programmi sviluppati separatamente sono stati interfacciati e vengono distribuiti senza restrizioni; in tal modo possono essere utilizzati anche all'interno di diversi packages, il che rappresenta un indubbio vantaggio. A questi pacchetti di programmi sviluppati in ambiente UNIX, più di recente si sono affiancati programmi commerciali da utilizzare sul desktop e capaci di operare con i sistemi operativi più comunemente usati dagli utenti finali, come Windows e MacOS. I migliori tra questi sono interfacciati con altri programmi esterni e con banche dati per permettere operazioni che restano comunque di difficile gestione sulla singola work station.
Ai grandi packages di uso generale se ne aggiungono altri dedicati a problemi più focalizzati, costruiti in genere intorno a singoli programmi sviluppati alcuni anni fa; appartengono a questa categoria i programmi per la comparazione delle sequenze, come FASTA e BLAST, quelli usati per l'analisi filogenetica, per la predizione di strutture secondarie di RNA, per il modelling di proteine, per l'assemblaggio di sequenze, e molti altri.
Infine, il numero dei programmi diretti alla risoluzione di problemi specifici, normalmente disponibili presso i siti web dei rispettivi autori, è così elevato che in più siti sono state organizzate vere e proprie banche dati dedicate alla loro conservazione e distribuzione.
Accanto a programmi commerciali fin dalla loro nascita, o divenuti commerciali nel tempo, una parte molto consistente del software sviluppato è disponibile sotto forma di codice sorgente, o perché distribuito con una delle licenze di tipo open source, o perché comunque messo a disposizione dagli autori. L'ampia condivisione di risorse software ha contribuito alla creazione di alcuni standard di fatto, ormai comunemente accettati, e ha prodotto in genere software di qualità elevata che si giova della partecipazione, anche in sede di revisione, di programmatori attivi in istituzioni di tutto il mondo.
6. Algoritmi in uso nell'allineamento delle sequenze.
Il problema della comparazione delle sequenze - trovare la migliore corrispondenza tra due sequenze nucleotidiche o proteiche più o meno simili - è molto complesso nonostante l'apparente semplicità, in quanto richiede notevoli risorse in termini di memoria e tempo di calcolo, ed è stato a lungo oggetto di studio e di sperimentazione negli ultimi anni.
a) Allineamento di due sequenze.
Gli algoritmi utilizzati - pur traendo ispirazione da algoritmi sviluppati per la soluzione di problemi simili in aree diverse, come ad esempio la ricerca di stringhe o la comparazione di segnali audio - devono adattarsi al particolare tipo di dati biologici cui sono applicati e sono stati sottoposti a un lungo processo di ottimizzazione per scopi specifici, come la ricerca veloce di similarità in sequenze contenute in banche dati. Algoritmi diversi sono stati sviluppati per trovare allineamenti locali tra due sequenze (cioè aree di similarità elevata, riguardanti una parte anche piccola di ciascuna delle due sequenze) o allineamenti globali (cioè allineamenti delle sequenze per tutta la loro lunghezza, come ad esempio quando si comparano proteine omologhe). La comparazione di sequenze è intrinsecamente semplice, e si riduce all'analisi di una matrice bidimensionale in cui le due sequenze sono disposte lungo assi ortogonali; una serie di punti mette in evidenza le posizioni occupate da nucleotidi o amminoacidi uguali. Questo approccio, utilizzato da programmi come Dotmatcher del package EMBOSS (v. fig. 5), è un utile metodo di visualizzazione in cui le regioni di similarità sono evidenziate da linee diagonali; le inserzioni in una delle due sequenze corrispondono a interruzioni della linea di similarità con spostamento verso destra o verso il basso. Regioni duplicate sono chiaramente visibili mediante segmenti paralleli alla diagonale principale, mentre regioni invertite danno luogo a segmenti su linee diagonali perpendicolari. Le difficoltà derivano principalmente da due fattori: in primo luogo, la comparazione di due basi o di due amminoacidi non è sempre correttamente rappresentata da una semplice scelta sì/no; in secondo luogo, nel caso di sequenze di notevoli dimensioni, la costruzione e l'analisi della matrice risulta un problema piuttosto gravoso e, oltre un certo limite, non gestibile in maniera manuale.
Il primo problema è stato affrontato mediante la costruzione di matrici di sostituzione, in cui il valore da attribuire alla sostituzione tra due amminoacidi o nucleotidi non si limiti solo a 1 (uguaglianza) o 0 (diversità), ma sia proporzionale al grado di similarità, concetto che naturalmente assume significati diversi a seconda del tipo di confronto e del contesto. Nella comparazione di proteine, dove questo problema è particolarmente sentito, sono state sviluppate diverse matrici, tra cui sono molto usate quelle di tipo PAM (Point Accepted Mutation) e BLOSUM (Blocks Substitution Matrix), riportate in tab. II. Le matrici di tipo PAM (v. tab. IIA), originariamente sviluppate da M. Dayoff nel 1978, rappresentano la probabilità che in un dato insieme di proteine omologhe un amminoacido possa essere sostituito da un altro; le matrici sono caratterizzate da un numero che rappresenta il numero di sostituzioni in cento amminoacidi, e può essere maggiore di cento, perché con l'aumentare del numero di amminoacidi aumenta la probabilità di sostituire un amminoacido già sostituito: PAM250 corrisponde a circa il 20% di amminoacidi identici, che per una proteina rappresenta una similarità ancora significativa. Le matrici di tipo BLOSUM (v. tab. IIB), sviluppate per facilitare il confronto tra proteine più lontane dal punto di vista evolutivo, sono ottenute a partire da insiemi di proteine omologhe in cui siano state eliminate quelle che presentano omologie superiori a una data percentuale: la matrice BLOSUM20 corrisponde quindi alla PAM250 precedentemente menzionata. Le matrici BLOSUM sono in genere ritenute migliori nella ricerca di allineamenti locali. Le matrici per il confronto di acidi nucleici sono in genere più semplici, in quanto si limitano a dare valori equivalenti a basi identiche, o privilegiano mutazioni più probabili, come ad esempio la sostituzione di A con G e viceversa.
Il problema dell'identificazione del miglior allineamento è naturalmente di complessità proporzionale al prodotto delle lunghezze delle due sequenze; l'introduzione di inserzioni e delezioni complica ulteriormente il processo, ma in molti casi è essenziale per consentire un corretto allineamento. Algoritmi per allineamenti globali sono stati sviluppati a partire dal 1970 (v. Needleman e Wunsch, 1970). Sono tuttora in uso in programmi, come EMBOSS: needle, in cui gli allineamenti sono ottenuti mediante la ricerca automatica del percorso più vantaggioso lungo le diagonali della matrice di confronto; il programma ottimizza l'allineamento delle due sequenze dall'inizio alla fine, in genere utilizzando una delle matrici indicate per la comparazione degli amminoacidi o nucleotidi e attribuendo punteggi arbitrari di penalizzazione, determinati sperimentalmente, per l'introduzione di intervalli (gaps) e per la loro estensione; in genere la penalizzazione per l'estensione è molto inferiore a quella per l'apertura di un nuovo gap, perché l'introduzione di un numero troppo elevato di gaps produrrebbe risultati biologicamente non attendibili. A partire dal 1981 sono stati sviluppati algoritmi per la ricerca di allineamenti locali, partendo dal presupposto che due sequenze anche diverse potessero condividere una similarità elevata in una o più regioni, corrispondenti ad esempio a dominî funzionali simili condivisi da proteine o acidi nucleici diversi. Questo approccio, che è in genere più rapido, è anche molto utile in progetti di sequenziamento per la ricerca di frammenti già sequenziati. Programmi come EMBOSS: water sono basati sull'algoritmo originale di Smith e Waterman (v., 1981) e sono piuttosto impegnativi in termini di risorse computazionali, ma danno risultati accurati nella comparazione di un numero limitato di sequenze.
b) Ricerca di allineamenti in banche dati.
Lo sviluppo di programmi di sequenziamento su larga scala ha portato alla possibilità di confrontare rapidamente, e con risorse contenute, una sequenza di dimensioni relativamente piccole con una o più sequenze di dimensioni molto più grandi, come avviene ad esempio nella ricerca di una sequenza nucleotidica o proteica all'interno di un genoma. FASTA è un programma sviluppato da Pearson e Lipman (v., 1988; v. Pearson, 2000) e ormai giunto alla versione FASTA3 che si basa sul principio della ricerca di allineamenti globali di una sequenza con tutte le sequenze contenute in una banca dati; si tratta di un meccanismo a più stadi, che partendo da una prima rapida scansione delle sequenze alla ricerca di brevi frammenti (in genere di 6 basi o 2 amminoacidi) giunge, attraverso stadi successivi di affinamento, all'identificazione di allineamenti ottimali. Il metodo è meno accurato degli algoritmi descritti precedentemente, ma molto più veloce e può essere usato su grandi quantità di dati. La ricerca di allineamenti locali su larga scala è invece oggi basata su BLAST, un algoritmo proposto nel 1990 da S. F. Altschul, e andato incontro negli ultimi anni a notevoli revisioni. Il metodo, che è oggi il più usato per la ricerca rapida di omologie in banche dati, è basato sulla ricerca di un numero più limitato di 'parole' di lunghezza predefinita (3 amminoacidi o 11 basi) e sulla successiva estensione delle zone di omologia così identificate. BLAST è meno sensibile di FASTA, perché potrebbe eliminare nel primo stadio frammenti importanti, ma che non rispettano il requisito minimo previsto; da questo punto di vista FASTA è più flessibile, potendo utilizzare 'parole' più brevi. La notevole velocità ottenuta da BLAST ha garantito la sua larga diffusione nell'analisi rapida di banche dati; è spesso disponibile su macchine dedicate multiprocessore, che consentono la scansione di banche dati di dimensioni notevoli in pochi secondi, con una sensibilità e accuratezza più che adeguate. Sia FASTA che BLAST sono oggi dei veri e propri packages comprendenti diverse versioni dei programmi, ottimizzate per il confronto di sequenze nucleotidiche e proteiche in varie combinazioni.
La comparazione di una sequenza con numerose altre ha reso molto importante il problema dell'analisi statistica dei risultati. Il grado di similarità di una sequenza non è di per sé significativo, se non è considerato in rapporto alla probabilità di trovare in maniera casuale quella specifica sequenza in quella specifica serie di dati. Per questo motivo, oggi programmi come FASTA e BLAST associano alla lista degli allineamenti trovati alcuni parametri necessari a valutare la significatività statistica; tali parametri sono derivati dal confronto con altri allineamenti ottenuti cercando permutazioni della sequenza usata in un sottoinsieme casuale della banca dati. FASTA esegue questa ricerca di riferimento automaticamente a ogni comparazione e genera due parametri: Z-score, che rappresenta il numero di deviazioni standard che differenziano l'allineamento trovato con quelli casuali, ed E, corrispondente al numero di allineamenti della stessa qualità che potrebbero essere ottenuti usando una sequenza casuale. Per contenere i tempi entro valori comparabili a quelli usati per la ricerca, BLAST utilizza calcoli effettuati precedentemente sulla stessa banca dati e riporta il valore di E, che ha un significato simile a quello che abbiamo visto per FASTA. Il risultato di una ricerca in banca dati con FASTA e BLAST riporta queste statistiche in maniera grafica assieme agli allineamenti trovati (v. fig. 6).
c) Allineamenti multipli e famiglie di proteine.
L'allineamento di sequenze multiple, come ad esempio le sequenze di una famiglia di proteine omologhe ottenute da organismi diversi, può essere effettuato naturalmente mediante il confronto a due per volta di tutte le sequenze di una famiglia, ma può essere effettuato più efficacemente da programmi come CLUSTALW, che ricercano motivi comuni tra tutte le sequenze e producono in uscita un allineamento che evidenzia gli amminoacidi conservati tra tutte o la maggior parte delle sequenze appartenenti alla famiglia. Il risultato della comparazione di sequenze multiple porta alla generazione di una matrice triangolare di distanze, in cui ogni valore rappresenta la distanza, calcolata in vari modi, tra coppie di sequenze. Partendo dall'assunzione che distanze maggiori indichino una separazione in tempi più lontani nel corso dell'evoluzione delle specie, è possibile costruire alberi filogenetici che rappresentano l'evoluzione ipotizzabile di un gene attraverso le varie specie nelle quali è presente. PHYLIP è un package dedicato alla costruzione di alberi filogenetici ottimizzati secondo vari metodi; poiché il calcolo di tutti i possibili alberi è fuori della portata di macchine reali, sono stati sviluppati metodi euristici che, sulla base di determinate assunzioni, cercano di valutare una piccola frazione degli alberi possibili e di produrre come risultato l'albero che, tra quelli esaminati, meglio si adatta alle distanze osservate nel confronto tra i vari componenti della famiglia. Naturalmente, a seconda delle assunzioni effettuate, sarà possibile ottenere alberi diversi, che privilegiano aspetti diversi, decisi di volta in volta sulla base delle diverse problematiche biologiche. I metodi attualmente in uso si basano sul criterio della massima parsimonia, nel qual caso gli alberi sono ottenuti minimizzando il numero di mutazioni necessario a generare i risultati osservati (v. fig. 7), o su quello della massima probabilità, più lento, che tiene conto della probabilità di ogni data mutazione.
Un metodo entrato nell'uso negli ultimi anni utilizza le conoscenze acquisite nello studio di modelli basati su catene di Markov per rappresentare allineamenti di famiglie di proteine come modelli di Markov (MM, Markov Models, e HMM, Hidden Markov Models). Il principio su cui sono basati questi programmi è la rappresentazione della famiglia come una sequenza lineare di nodi - uno per ogni amminoacido contenuto nelle proteine allineate - necessari a congiungere l'inizio con la fine della catena. Ai nodi può essere associata una transizione a uno stato di inserzione o di delezione per compensare le variazioni di lunghezza, oltre naturalmente allo stato di match, usato per descrivere la probabilità di trovare uno specifico amminoacido in una specifica posizione. Rispetto alle matrici tradizionalmente usate, il metodo permette di tener conto della posizione, e quindi della successione specifica; i modelli HMM permettono di assegnare valori diversi ad amminoacidi uguali, come se ciascuno di essi potesse essere presente in più di uno stato. Sequenze diverse possono essere confrontate con il modello ed eventualmente unite alla famiglia per generare un modello modificato. HMMER e SAM, due gruppi di programmi sviluppati rispettivamente alla Washington University di St. Louis e alla University of California di Santa Cruz, sono comunemente usati nella creazione e nel confronto di modelli di Markov. Pfam è una banca dati derivata che contiene allineamenti di famiglie di proteine e modelli di Markov generati su di esse.
7. Il genoma umano e altri genomi.
La rapida evoluzione delle tecniche di sequenziamento avvenuta negli anni ottanta ha generato, a partire dal 1990, un grande sforzo congiunto di vari paesi nel tentativo di arrivare alla determinazione della sequenza completa del genoma umano. Negli Stati Uniti il progetto è stato finanziato dai National Institutes of Health e dal Department of Energy, mentre in Europa il lavoro, finanziato da tutte le principali agenzie nazionali di ricerca - tra cui anche il Consiglio Nazionale delle Ricerche (CNR) per l'Italia - ha trovato il suo punto di riferimento nel campus di Hinxton, presso Cambridge, in Inghilterra, dove convivono tre importanti istituzioni, il Human Genome Mapping Project Resource Centre del Medical Research Council (MRC), il Sanger Center, finanziato dal Wellcome Trust, e l'European Bioinformatics Institute, una branca dell'European Molecular Biology Laboratory. Anche se il progetto aveva come scopo primario di ottenere la sequenza completa del genoma umano, ne sono derivati anche una serie di benefici collaterali, come lo sviluppo delle tecnologie informatiche necessarie alla gestione di questa notevole massa di dati, l'analisi delle sequenze con conseguente identificazione dei geni in esso contenuti e lo studio delle problematiche di natura etica, morale e sociale derivanti dalla conoscenza di tali informazioni, a livello sia generale, sia di singoli individui. Inoltre, sono attesi grandi sviluppi nei campi collegati della medicina e della farmacologia, anche a seguito del trasferimento al settore privato delle conoscenze e delle tecnologie acquisite. Questo sforzo congiunto a livello mondiale ha generato nell'ultimo decennio una gran quantità di dati e di tecnologie, e ha già portato, nel febbraio 2001, alla pubblicazione della prima stesura della sequenza del genoma umano (v. Lander e altri, 2001). Il completamento della sequenza è atteso per la fine del 2003. Parallelamente allo sforzo effettuato dalla ricerca pubblica, negli Stati Uniti una compagnia privata, la Celera Genomics, ha allestito negli ultimi anni un'unità ad altissima capacità di sequenziamento che, giovandosi anche dei dati resi disponibili dal progetto pubblico, è riuscita a pubblicare all'inizio del 2001 un primo abbozzo del genoma umano (v. Venter e altri, 2001).
Lo schema riportato nella fig. 8 rappresenta le tappe utilizzate nella prima fase di mappatura del genoma, dalla quale si ottengono frammenti grandi, di 60-100.000 basi, che sono stati ordinati con vari metodi allo scopo di determinarne la successione e la localizzazione sui cromosomi. I frammenti così ottenuti sono stati separatamente sequenziati in vari laboratori. L'assemblaggio finale, effettuato in un piccolo numero di centri dotati di notevoli risorse di calcolo, ha successivamente permesso la ricostruzione dell'intero genoma. La procedura per la determinazione della sequenza dei frammenti è la classica procedura shotgun, consistente nella creazione di un gran numero di frammenti più piccoli, di dimensioni adeguate a essere sequenziati in un singolo esperimento, assemblati successivamente mediante comparazione di sequenza e sovrapposizione di estremità identiche. La tecnica seguita, pur riflettendo le tecnologie disponibili all'inizio degli anni novanta, ha tuttavia permesso di giungere, entro i limiti prefissati, alla prima stesura della sequenza del genoma umano, generando nel frattempo una gran quantità di dati che sono stati utilizzati dai ricercatori interessati alla genetica umana molto prima che l'assemblaggio finale consentisse la conoscenza del genoma a livello di singole basi. Lo sviluppo di migliori tecniche di assemblaggio e la disponibilità di macchine con prestazioni elevate e grandi capacità di conservazione di dati, ha permesso più recentemente la realizzazione di un metodo più rapido, che salta la prima fase di mappatura e cerca di assemblare i dati primari di sequenza direttamente in un'unica fase. Il sistema prevede un coinvolgimento molto maggiore della componente informatica del progetto, perché ogni sequenza va confrontata con tutta la banca dati prodotta finora, senza poter contare sull'approccio divide et impera, consistente nell'assemblare prima frammenti più piccoli. Il sistema presenta innegabili vantaggi, ma è esposto alle difficoltà derivanti dall'esistenza nel genoma di un gran numero di sequenze ripetute, che tendono a introdurre nella fase di assemblaggio errori dovuti all'errato accoppiamento di frammenti, in realtà lontani nel genoma, sulla base dell'omologia di sequenza. Tale metodo è stato utilizzato con successo da Celera Genomics nell'assemblaggio dei dati da essa ottenuti nell'ambito del progetto di sequenziamento del genoma umano, anche se in questo caso la disponibilità dei dati di mappatura prodotti dal progetto pubblico ha certamente consentito di risolvere molte ambiguità derivanti dall'esistenza di regioni simili per sequenza, ma localizzate in zone fisicamente lontane sul genoma. La grande accelerazione indotta da questo metodo nella produzione dei dati primari ne ha comunque stimolato l'introduzione anche nei più recenti progetti di sequenziamento di genomi di altre specie.
L'assemblaggio delle sequenze ottenute sperimentalmente si basa su programmi che utilizzano gli algoritmi di allineamento descritti in precedenza, per arrivare, attraverso diversi stadi, alla produzione di un'unica sequenza, corrispondente, in ultima analisi, a un'intera molecola di DNA. Un insieme di programmi è stato sviluppato da Rodger Staden all'MRC di Cambridge come supporto ai progetti di sequenziamento, ma il package più utilizzato è basato sui programmi Phred/Phrap/Consed, ed è stato messo a punto all'Università di Washington. I programmi contenuti nel package assistono in tutte le varie fasi dell'operazione: Phred è in grado di interpretare direttamente i files primari prodotti dalle macchine usate per il sequenziamento, e fornisce sequenze con livelli di affidabilità associati a ogni base letta; Phrap si occupa dell'assemblaggio mediante comparazione delle estremità dei frammenti di sequenza determinati sperimentalmente, tenendo in considerazione i livelli di affidabilità generati nella prima fase; Consed è un editor per l'analisi ed eventuale rifinitura manuale dell'assemblaggio. Nella fig. 9 è rappresentato un esempio di uso di questi programmi.
Il Progetto genoma ha inoltre stimolato lo studio del genoma di altre specie, in genere quelle più comunemente usate nella ricerca medica e biologica, o quelle di interesse economico e culturale. Genomi più semplici sono stati utilizzati come progetti pilota per il genoma umano, e hanno portato al sequenziamento del genoma di Drosophila melanogaster, il classico moscerino della frutta utilizzato in tanti esperimenti di genetica, e di Caenorhabditis elegans, un nematode molto spesso impiegato in studi sulla biologia dello sviluppo. In seguito all'esperienza acquisita sul genoma umano, sono stati iniziati progetti, ormai vicini al completamento o in fase molto avanzata, per lo studio del genoma del topo, del ratto, di pesci usati come sistema modello, come il Fugu (pesce palla) e il pesce zebra, e altri insetti come la zanzara. Ai grandi progetti di sequenziamento dei Vertebrati e di altri organismi pluricellulari, vanno comunque aggiunti progetti più limitati, che hanno parallelamente portato alla conoscenza delle sequenze del lievito Saccharomyces cerevisiae e di circa 30 genomi batterici, tra cui Escherichia coli e un certo numero di specie patogene. Lo stato del sequenziamento di vari genomi è riassunto nella tab. III, nella cui ultima colonna a destra, sono riportate in alcuni casi due percentuali: la prima si riferisce all'effettiva sequenza 'finita', ossia avente una probabilità di errore inferiore allo 0,01%; la seconda indica la percentuale di sequenze note ma in cui l'assemblaggio è interrotto da piccole aree di sequenza non nota. Negli organismi superiori, la presenza di sequenze ripetitive non consente in pratica di raggiungere il 100% del sequenziamento. I valori superiori al 90% sono in realtà circa il 100% delle aree contenenti geni.
8. L'annotazione automatica delle sequenze.
La notevole quantità di dati prodotta dai progetti di sequenziamento ha generato la necessità, oltre che della conservazione e dell'assemblaggio delle sequenze ottenute, di programmi per l'analisi dei dati mirante a interpretare le caratteristiche di interesse biologico in essi contenuti. Programmi già sviluppati per l'identificazione di sequenze potenzialmente codificanti sono stati migliorati e utilizzati per la ricerca, all'interno del genoma, delle regioni trascritte e codificanti proteine. I metodi disponibili sono principalmente basati sulle caratteristiche tipiche delle regioni codificanti, come la diversa composizione in basi, l'uso dei codoni tipico di una specie, la presenza di variazioni in terza posizione, di norma più tollerate, la presenza di ritmicità con modulo tre nella sequenza.
Sono stati messi a punto programmi più elaborati, capaci di affiancare all'identificazione di sequenze potenzialmente codificanti anche altre caratteristiche, come ad esempio la presenza di giunzioni tra esoni (le regioni del trascritto primario che si ritrovano nel trascritto maturo) e introni (le parti rimosse nel corso della maturazione e di norma non contenenti regioni codificanti). Altre caratteristiche utilizzate sono il riconoscimento di strutture tipiche dell'inizio e della fine della catena polipeptidica o dell'RNA, come pure sequenze normalmente presenti nelle regioni contenenti promotori, gli elementi funzionali necessari all'espressione di un gene. Il più antico di questi programmi, GRAIL (Gene Recognition and Assembly Internet Link), sviluppato nel 1991 all'Oak Ridge National Laboratory negli Stati Uniti, è stato aggiornato più volte per aggiungere caratteristiche non presenti nella versione originale. Oggi è in grado di riconoscere promotori, esoni, siti di aggiunta di poli-A, sequenze ripetitive e isole CpG, ed è dotato di interfaccia grafica. Programmi simili, sviluppati negli ultimi anni, sono MZEF (Michael Zhang's Exon Finder), fgens, Procrustes, GeneID, GeneScan e altri, che in varie combinazioni utilizzano gli elementi predetti come base per l'identificazione di possibili geni in regioni sequenziate. Uno dei programmi più usati è GeneScan, il quale, basato su metodi probabilistici, è particolarmente utile per la capacità di generare predizioni alternative, che identificano esoni sia 'ottimali' che 'subottimali', e consente la predizione di geni potenzialmente interessati da splicing alternativi o altre caratteristiche inusuali. I risultati dell'esecuzione di questi programmi possono inoltre essere confrontati con ulteriori dati sperimentali, come ad esempio la contemporanea identificazione delle stesse sequenze in banche di sequenze espresse prodotte in progetti di sequenziamento casuale di EST (Express Sequence Tags) o la similarità delle sequenze proteiche predette con altre note scoperte mediante scansione di banche dati di proteine.
I progetti di sequenziamento hanno generato un altro risultato importante, cioè lo sviluppo di banche dati dedicate alla gestione dei risultati ottenuti dell'assemblaggio del genoma nelle quali le sequenze sono annotate con una serie di informazioni addizionali, derivanti dall'integrazione di dati contenuti in altre banche dati. Una banca dati di questo tipo è stata realizzata all'Università di California a Santa Cruz e un'altra, Ensembl, è il prodotto di un progetto di collaborazione tra EMBL-EBI e Sanger Institute, a Cambridge. Ambedue sono basate su sistemi automatici per l'annotazione delle sequenze attraverso l'uso di vari programmi. Le sequenze sono associate a quelle corrispondenti presenti in altre banche dati, come ad esempio i frammenti usati per generare gli allineamenti e le proteine note codificate, ma sono anche riportati i risultati dell'analisi delle sequenze con programmi per la predizione di geni, come quelli precedentemente descritti, o con altri programmi capaci di identificare altre caratteristiche della sequenza. Sono annotati i trascritti noti, perché presenti in altre banche dati, sia come cDNA che come EST, e collegamenti ad altre informazioni presenti in altre banche dati, sia di sequenze, come UniGene, sia di altre informazioni, come Locus Link, Gene Ontology e altre. Entrambi i sistemi sono dotati di un'interfaccia grafica molto curata e accessibile via Internet, che consente di muoversi con facilità attraverso le informazioni disponibili, sia per la navigazione all'interno del sistema che per connettersi ad altri sistemi. Nella fig. 10 è illustrato un esempio di uso del sistema Ensembl: sono riportate le varie fasi di visualizzazione di un gene, a partire dal cromosoma, mediante successivi zoom fino alla rappresentazione dettagliata delle informazioni sulla sequenza.
Quando si parla della determinazione della sequenza di un genoma, di solito si pensa ai geni codificanti proteine in esso contenuti, e i vari progetti di sequenziamento si concentrano in genere sulle sequenze in singola copia, che corrispondono in massima parte alle regioni popolate da geni che codificano per proteine. Tuttavia, circa il 50% del genoma umano è costituito da sequenze ripetute, classificabili in varie categorie. Le sequenze intersperse (SINE, Short Interspersed Elements, e LINE, Long Interspersed Elements), che corrispondono a circa il 45% del genoma, si sono diffuse con un meccanismo di retrotrascrizione a partire da intermedi di RNA e sono intimamente legate ai geni, mentre il resto è confinato in regioni specifiche dei cromosomi, come il centromero. Le sequenze intersperse rappresentano di per sé un interessante problema biologico, ma sono anche causa di molte difficoltà nell'analisi delle sequenze genomiche. Non solo rappresentano un ostacolo al rapido completamento della copertura del genoma, ma a volte rendono impossibile il corretto uso degli strumenti di comparazione e allineamento di sequenze. RepeatMask è un programma molto usato come prefiltro, per eliminare dalle sequenze usate come test, mediante mascheramento, le sequenze ripetute che verrebbero trovate moltissime volte generando un elevato rumore di fondo dal quale sarebbe difficile far emergere le similarità realmente cercate. Il programma utilizza una banca dati di sequenze ripetute di vario genere ed è comunemente usato prima di impiegare altri programmi; il suo uso non può però essere indiscriminato, perché a volte la stretta relazione fra sequenze ripetute e geni rende impossibile la corretta identificazione di giunzioni introne/esone o segnali di terminazione, che sono in realtà forniti proprio dalla sequenza ripetuta.
9. Il prodotto dei geni: le proteine.
Sebbene le proteine siano state studiate molto prima degli acidi nucleici, tuttavia gli enormi sviluppi delle tecniche di analisi di questi ultimi hanno portato, in relativamente pochi anni, a risultati imponenti nel campo degli acidi nucleici, come quelli descritti finora. L'interesse per lo studio delle proteine è stato però soltanto momentaneamente accantonato, e ora che interi genomi cominciano a essere noti diviene fondamentale integrare le conoscenze acquisite attraverso lo studio dei geni con le conoscenze sulle proteine, che sono le molecole realmente attive. L'attenzione si va però spostando dalle singole molecole proteiche al proteoma, come è oggi definito per analogia l'insieme di tutte le proteine presenti in una cellula (v. proteomica, vol. XIII). Rispetto al genoma, tuttavia, il proteoma è infinitamente più sfuggente, perché, pur essendo di dimensioni più piccole, ha molti più gradi di indeterminazione, dato che il comportamento di una cellula dipende oltre che dallo specifico insieme di geni espressi, anche dalla quantità di ciascuna proteina e dal grado e tipo di modificazione post-traduzionale; inoltre, l'espressione dei geni è soggetta a variazioni notevoli nel tempo, anche in conseguenza di stimoli e situazioni contingenti.
Lo studio delle proteine espresse ha potuto avvantaggiarsi in maniera significativa dei dati prodotti dal sequenziamento del genoma, che in combinazione con lo sviluppo della tecnica di spettrometria di massa, capace di determinare con grande precisione il peso molecolare di un peptide, ha reso possibile la rapida identificazione di sequenze proteiche. Questa tecnica, descritta nella fig. 11, prevede la digestione chimica o enzimatica di quantità molto piccole di proteine, come ad esempio quelle estratte da cellule tenute in coltura, la separazione mediante elettroforesi e la successiva analisi dei prodotti con precisa identificazione del loro peso molecolare. Questo dato, combinato con poche informazioni addizionali, come ad esempio il tipo di digestione effettuato, è in genere sufficiente a identificare, in una banca dati, peptidi compatibili con i dati sperimentali e quindi la proteina di partenza. Il software necessario per l'analisi è rappresentato da alcuni programmi specificamente sviluppati allo scopo, come Mascot, inizialmente messo a punto all'Imperial Cancer Research Fund (ICRF) di Londra e successivamente distribuito commercialmente, o PeptideSearch, sviluppato all'EMBL di Heidelberg, capaci di identificare nella banca dati corrispondente all'organismo di provenienza i peptidi candidati. Queste tecniche hanno consentito di recente lo studio dei grandi complessi proteina-RNA, coinvolti in processi fondamentali della vita della cellula come la trascrizione, la sintesi proteica e la maturazione dell'RNA, e hanno aperto la strada allo studio funzionale del proteoma.
Lo studio delle proteine richiede di poter prevedere il ripiegamento tridimensionale di una data struttura primaria e di assegnare ruoli specifici ai vari residui. Il problema peraltro non è di facile soluzione e, nonostante i molti progressi, è ben lontano dall'essere risolto. In teoria, essendo nota la struttura primaria, la conformazione tridimensionale dovrebbe essere ottenibile applicando poche regole che tengano conto delle interazioni che si vengono a creare tra gli atomi e delle loro implicazioni energetiche, ma, salvo il caso di peptidi di dimensioni molto piccole, la complessità delle strutture reali sfugge a un'analisi numerica, anche senza tener conto del fatto che il ripiegamento di proteine in vivo potrebbe non seguire necessariamente le stesse regole che valgono al di fuori della cellula, in assenza di altre proteine interferenti. Le tecniche utilizzate per prevedere le strutture si basano quindi su metodi principalmente statistici e/o sulla comparazione con proteine di struttura nota. Alcune proprietà di una catena polipeptidica possono essere facilmente dedotte dalla struttura primaria, almeno in prima approssimazione: metodi in uso da molti anni permettono di prevedere il peso molecolare o il punto isoelettrico e di determinare il grado di idrofobicità o la distribuzione della carica elettrica lungo la molecola. Programmi del genere sono contenuti in tutti i principali packages di analisi di sequenza, ad esempio iep, charge e pepwindow in EMBOSS. Questi metodi possono esser usati per scopi specifici e sono alla base di programmi per la ricerca di regioni idrofobiche transmembrana di una proteina o di regioni idrofiliche probabilmente antigeniche, ma non consentono di prevedere il ripiegamento tridimensionale. Metodi statistici, basati sulla frequenza con cui i vari amminoacidi si trovano nelle proteine in regioni ad α-elica o β-planari, permettono previsioni di struttura secondaria, anche se il livello di attendibilità di tali previsioni è ben lontano dall'essere soddisfacente. Nel tempo, si sono succedute molte metodiche alternative, nel tentativo di ottenere risultati più affidabili, fino all'uso di metodi basati su reti neurali, ma resta il dubbio se effettivamente l'informazione derivante dallo studio lineare della sequenza sia sufficiente. In ogni caso, le metodiche attualmente disponibili non consentono predizioni realistiche di strutture più complesse.
Una importante osservazione è che le proteine non sono tutte diverse una dall'altra, ma al contrario possono essere raggruppate in famiglie dalle caratteristiche strutturali e funzionali simili. Inoltre, anche proteine lontane dal punto di vista evoluzionistico e con funzioni piuttosto diverse, possono a volte condividere dominî funzionali simili, come ad esempio un sito deputato all'interazione con una specifica molecola. Dal confronto di proteine omologhe è sempre possibile identificare amminoacidi conservati in tutte o quasi tutte le proteine di una data famiglia, che verosimilmente devono avere un ruolo importante, per esempio essere essenziali per il ripiegamento, o per formare legami con parti lontane della molecola. Questo tipo di osservazioni consente di affrontare con diverso spirito il problema della predizione della struttura di una proteina, soprattutto se, ad esempio, qualche membro della famiglia è già stato studiato e ne è nota la struttura tridimensionale. Oggi la struttura tridimensionale di un gran numero di molecole proteiche è conservata nella Protein Data Bank (PDB) in forma di coordinate tridimensionali, ed esistono strumenti software, come RasMol, che consentono la visualizzazione della struttura tridimensionale interattiva sulle macchine più diffuse (v. fig. 12). Se è nota la struttura di una o più proteine simili, si può procedere a creare un modello per omologia: le regioni identiche sono poste nelle stesse posizioni che hanno nella proteina nota, e le zone differenti vengono costruite poco per volta, utilizzando le informazioni derivanti dalla struttura di riferimento e alterando la conformazione per adattare i gruppi funzionali modificati, nel rispetto dei criteri energetici e delle geometrie di legame. Programmi come MODELLER e WHAT IF consentono di calcolare questo tipo di modelli e di visualizzarli in modo interattivo, tenendo conto delle necessarie restrizioni (v. fig. 13). L'elevato livello di soggettività di queste procedure richiede uno sforzo significativo per la valutazione critica dei risultati della predizione; CASP (Critical Assessment of Techniques for Protein Structure Prediction) è un progetto internazionale dedicato al confronto tra i modelli predetti e strutture determinate con le classiche tecniche di cristallografia e di risonanza magnetica che si propone l'obiettivo di determinare l'attendibilità delle predizioni ottenute con le varie tecniche oggi disponibili.
10. I prodotti di trascrizione dei geni.
L'identificazione di gran parte delle sequenze che costituiscono il patrimonio genetico dell'uomo e di altri organismi ha stimolato lo studio sistematico dei prodotti trascrizionali con vari obiettivi, che vanno dalla validazione dei geni predetti alla caratterizzazione funzionale di cellule e tessuti. I metodi sperimentali in uso - il sequenziamento casuale su larga scala di frammenti di RNA trascritti e l'ibridazione con microarray - generano grandi quantità di dati e richiedono l'intervento di metodiche informatiche per la gestione e l'interpretazione dei dati prodotti.
I progetti di sequenziamento casuale di EST sono stati iniziati da molto tempo e hanno contribuito all'identificazione di geni e all'allineamento delle sequenze. Nonostante l'identificazione del genoma sia ormai pressoché completa, essi sono tuttora importanti sia perché le sequenze ritrovate in tali collezioni sono prova dell'espressione e dello specifico tipo di maturazione dell'RNA di un dato gene in uno specifico tipo cellulare o tessuto, sia perché dal numero di EST trovate è possibile avere una valutazione, sia pure approssimata, dei livelli di espressione del gene relativo. Quest'ultimo dato può essere inoltre ottenuto con grande efficienza dall'analisi dell'ibridazione di RNA estratto da cellule o tessuti e reso fluorescente in vetrini su cui siano state deposte microscopiche quantità di DNA complementare sino a formare matrici ordinate (array) in cui ogni punto rappresenta il segnale di ibridazione a uno specifico gene (v. fig. 14). Esperimenti di questo tipo possono essere letti automaticamente e con grande precisione da macchine dedicate, e permettono di ottenere in pochissimo tempo dati su un elevatissimo numero di geni per un certo tipo cellulare. L'analisi dei dati così ottenuti è un problema di non facile soluzione, perché è necessario tener conto di numerosi fattori capaci di alterare l'accuratezza del risultato e perché il rumore di fondo generato dalle variazioni di espressione non riconducibili a uno stimolo preciso è molto elevato. Metodi statistici di clustering sono in genere applicati allo studio dei risultati, allo scopo di identificare gruppi di geni la cui trascrizione risulta coordinata e che verosimilmente condividono processi o molecole importanti per la loro espressione.
La grande quantità di dati accumulati permette oggi di pensare, per la prima volta, alla possibilità di simulare in maniera ragionevolmente rappresentativa della realtà i fenomeni che avvengono all'interno delle nostre cellule. L'identificazione di un gran numero di molecole in grado di interferire con le vie metaboliche e con i meccanismi di regolazione consente la costruzione di modelli accurati, che potranno nel prossimo futuro essere studiati in silicio in quanto riescono a riprodurre fedelmente quanto osservato in vivo.
Bibliografia.
Altschul, S. F., Amino acid substitution matrices from an information theoretic perspective, in "Journal of molecular biology", 1991, CCXIX, 3, pp. 555-565.
Altschul, S. F. e altri, Basic local alignment search tool, in "Journal of molecular biology", 1990, CCXV, 3, pp. 403-410.
Altschul, S. F. e altri, Gapped BLAST and PSI-BLAST: a new generation of protein database search programs, in "Nucleic acids research", 1997, XXV, 1, pp. 3389-3402.
Altschul, S. F., Gish, W., Local alignment statistics, in "Methods in enzymology", 1996, CCLXVI, pp. 460-480.
Bairoch, A., PROSITE: a dictionary of sites and patterns in proteins, in "Nucleic acids research", 1991, XIX, suppl., pp. 2241-2245.
Bairoch, A., Boeckmann, B., The SWISS-PROT protein sequence data bank, in "Nucleic acids research", 1991, XIX, suppl., pp. 2247-2249.
Bateman, A. e altri, The Pfam protein families database, in "Nucleic acids research", 2002, XXX, 1, pp. 276-280.
Bernstein, F. C. e altri, The Protein Data Bank: a computer-based archival file for macromolecular structures, in "Journal of molecular biology", 1977, CCXII, 3, pp. 535-542.
Boeckmann, B. e altri, The SWISS-PROT protein knowledge base and its supplement TrEMBL, in "Nucleic acids research", 2003, XXXI, 1, pp. 365-370.
Burge, C. B., Karlin, S., Prediction of complete gene structures in human genomic DNA, in "Journal of molecular biology", 1997, CCLXVIII, 1, pp. 78-94.
Burge, C. B., Karlin, S., Finding the genes in genomic DNA, in "Current opinion in structural biology", 1998, VIII, 3, pp. 346-354.
Burks, C. e altri, The GenBank nucleic-acid sequence database, in "Computer applications in the biosciences", 1985, CCXXV, 4, pp. 225-233.
Devereux, J., Haeberli, P., Smithies, O. A., Comprehensive set of sequence analysis programs for the VAX, in "Nucleic acids research", 1984, XII, 1, pp. 387-395.
Eddy, S. R., Multiple alignment using hidden Markov models, in Proceedings of the Third international conference on intelligent systems for molecular biology (a cura di C. Rawlings e altri), Menlo Park, Cal.: American Association for Artificial Intelligence, 1995, pp. 114-120.
Eddy, S. R., Profile hidden Markov models, in "Bioinformatics", 1998, XIV, 9, pp. 755-763.
EMBL (European Molecular Biology Laboratory) Bioanalytical Research Group, PeptideSearch. Protein identification by peptide mapping or peptide sequencing, http://www.mann.embl-heidelberg.de/GroupPages/PageLink/peptidesearchpage.html
Etzold, T., Argos, P., SRS-an indexing and retrieval tool for flat file data libraries, in "Computer applications in the biosciences", 1993, IX, 1, pp. 49-57.
Etzold, T., Ulyanov, A., Argos, P., SRS: information retrieval system for molecular biology data banks, in "Methods in enzymology", 1996, CCLXVI, pp. 114-128.
Ewing, B. e altri, Base-calling of automated sequencer traces using Phred. I. Accuracy assessment, in "Genome research", 1998, VIII, 3, pp. 175-185.
Ewing, B., Green, P., Base-calling of automated sequencer traces using Phred. II. Error probabilities, in "Genome research", 1998, VIII, 3, pp. 186-194.
Falquet, L. e altri, The PROSITE database, its status in 2002, in "Nucleic acids research", 2002, XXX, 1, pp. 235-238.
Felsenstein, J., PHYLIP (Phylogeny Inference Package), Seattle: University of Washington, Department of genetics, 1993.
Gordon, D., Abajian, C., Green, P., Consed: a graphical tool for sequence finishing, in "Genome research", 1998, VIII, 3, pp. 195-202.
Gordon, D., Desmarais, C. P., Green, P., Automated finishing with autofinish, in "Genome research", 2001, XI, 4, pp. 614-625.
Guigo, R., Knudsen, S., Drake, N., Smith, T., Prediction of gene structure, in "Journal of molecular biology", 1992, CCXXVI, 1, pp. 141-157.
Hamosh, A. e altri, Online Mendelian Inheritance in Man (OMIM), a knowledgebase of human genes and genetic disorders, in "Nucleic acids research", 2002, XXX, 1, pp. 52-55.
Henikoff, S., Henikoff, J. G., Amino acid substitution matrices from protein blocks, in "Proceedings of the National Academy of Sciences", 1992, LXXXIX, 22, pp. 10915-10919.
Higgins, D. G., Thompson, J. D., Gibson, T. J., Using CLUSTAL for multiple sequence alignments, in "Methods in enzymology", 1996, CCLXVI, pp. 383-402.
Hirosawa, M., Hoshida, M., Ishikawa, M., Toya, T., MASCOT: multiple alignment system for protein sequences based on three-way dynamic programming, in "Computer applications in the biosciences", 1993, IX, 2, pp. 161-167.
Hubbard, T. e altri, The Ensembl genome database project, in "Nucleic acids research", 2002, XXX, 1, pp. 38-41.
Hughey, R., Krogh, A., Hidden Markov models for sequence analysis: extension and analysis of the basic method, in "Computer applications in the biosciences", 1996, XII, 2, pp. 95-107.
Kneale, G. G., Kennard, O., The EMBL nucleotide sequence data library, in "Biochemical Society transaction", 1984, XII, 6, pp. 1011-1014.
Lander, E. S. e altri, Initial sequencing and analysis of the human genome, in "Nature", 2001, CDIX, 6822, pp. 860-921.
Marti-Renom, M. A. e altri, Comparative protein structure modeling of genes and genomes, in "Annual reviews in biophysics and biomolecular structure", 2000, XXIX, pp. 291-325.
Needleman, S. B., Wunsch, C. D., A general method applicable to the search for similarities in the amino acid sequence of two proteins, in "Journal of molecular biology", 1970, XLVIII, 3, pp. 443-453.
Pearson, W. R., Flexible sequence similarity searching with the FASTA3 program package, in "Methods in molecular biology", 2000, CXXXII, pp. 185-219.
Pearson, W. R., Lipman, D. J., Improved tools for biological sequence comparison, in "Proceedings of the National Academy of Sciences", 1988, LXXXV, 8, pp. 2444-2448.
Pontius, U., Wagner, L., Schuler, G. D., UniGene: a unified view of the transcriptome, in The National Center for Biotechnology Information (NCBI) handbook, Bethesda, Md.: National Library of Medicine-NCBI, 2002, cap. 21.
Pruitt, K. D., Maglott, D. R., RefSeq and LocusLink: NCBI gene-centered resources, in "Nucleic acids research", 2001, XXIX, 1, pp. 137-140.
Rice, P., Longden, I., Bleasby, A., EMBOSS: the European molecular biology open software suite, in "Trends in genetics", 2000, XVI, 6, pp. 276-277.
Sali, A. e altri, Evaluation of comparative protein modeling by MODELLER, in "Proteins", 1995, XXIII, 3, pp. 318-326.
Sayle, R. A., Milner-White, E. J., RASMOL: biomolecular graphics for all, in "Trends in biochemical sciences", 1995, XX, 9, pp. 374-376.
Schuler, G. D., Epstein, J. A., Ohkawa, H., Kans, J. A., Entrez: molecular biology database and retrieval system, in "Methods in enzymology", 1996, CCLXVI, pp. 141-162.
Schwartz, R. M., Dayhoff, M. O., Matrices for detecting distant relationships, in Atlas of protein sequence and structure (a cura di M. O. Dayhoff), Washington: National Biomedical Research Foundation, 1978, vol. V, suppl. 3, pp. 353-358.
Smit, A. F. A., Green, P., RepeatMasker documentation, http://ftp. genome.washington.edu/RM/RepeatMasker.html
Smith, T. F., Waterman, M. S., Identification of common molecular subsequences, in "Journal of molecular biology", 1981, CXLVII, 1, pp. 195-197.
Solovyev, V. V., Salamov, A. A., Lawrence, C. B., Identification of human gene structure using linear discriminant functions and dynamic programming, in Proceedings of the Third international conference on intelligent systems for molecular biology (a cura di C. Rawlings e altri), Menlo Park, Cal.: American Association for Artificial Intelligence, 1995, pp. 367-375.
Sonnhammer, E. L., Eddy, S. R., Durbin, R., Pfam: a comprehensive database of protein domain families based on seed alignments, in "Proteins", 1997, XXVIII, 3, pp. 405-420.
Staden, R., The Staden sequence analysis package, in "Molecular biotechnology", 1996, V, 3, pp. 233-241.
Thompson, J. D., Higgins, D. G., Gibson, T. J., CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice, in "Nucleic acids research", 1994, XXII, 22, pp. 4673-4680.
Uberbacher, E. C., Mural, R. J., Locating protein-coding regions in human DNA sequences by a multiple sensor-neural network approach, in "Proceedings of the National Academy of Sciences", 1991, LXXXVIII, 24, pp. 11261-11265.
Uchida, H., DNA data bank of Japan, in "Tanpakushitsu, Kakusan, Koso" [Protein, nucleic acid, enzyme], 1986, XXIX, suppl., pp. 159-162.
Venter, J. C. e altri, The sequence of the human genome, in "Science", 2001, CCXCI, pp. 1304-1351.
Vriend, G., WHAT IF: a molecular modeling and drug design program, in "Journal of molecular graphics", 1990, VIII, 1, pp. 52-56.
Waterston, R. H. e altri, Initial sequencing and comparative analysis of the mouse genome, in "Nature", 2002, CDXX, pp. 520-562.
Westbrook, J., Feng, Z. L., Yang, H., Berman, H. M., The Protein Data Bank and structural genomics, in "Nucleic acids research", 2003, XXXI, 1, pp. 489-491.
Womble, D. D., GCG: The Wisconsin Package of sequence analysis programs, in "Methods in molecular biology", 2000, CXXII, pp. 3-22.
Zhang, M. Q., Identification of protein coding regions in the human genome by quadratic discriminant analysis, in "Proceedings of the National Academy of Sciences", 1997, XCIV, 2, pp. 565-568.