Genomica e genomica funzionale
La genomica è la disciplina che si occupa della struttura, sequenza, funzione ed evoluzione del genoma, vale a dire di tutta l’informazione genetica contenuta nel DNA (DeoxyriboNucleic Acid) presente nelle cellule di una particolare specie. La grandezza del genoma e il numero dei geni ivi contenuti variano tra gli organismi viventi.
La genomica comprende principalmente due sottoaree, una strutturale e una funzionale. La genomica strutturale si occupa della mappatura genetica, di quella fisica e del sequenziamento di interi genomi. La genomica funzionale mira a comprendere le modalità con cui i geni dirigono lo sviluppo e il funzionamento del nostro organismo e come il loro malfunzionamento induca uno stato patologico.
Genomica strutturale
Nel 1981 si ottenne la prima sequenza completa di un genoma, quello circolare di 16.569 coppie di basi (bp) del mitocondrio umano che, considerando la capacità di sequenziamento dell’epoca, rappresentò un risultato straordinario. Il genoma nucleare è 200.000 volte più grande e il suo sequenziamento sembrava un’impresa eccezionale. Tuttavia, i grandi avanzamenti realizzati nell’automazione del sequenziamento del DNA e nello sviluppo di programmi informatici per l’analisi di una vasta quantità di dati di sequenza hanno fatto sì che, a metà degli anni Ottanta, il sequenziamento di grandi genomi diventasse possibile.
Progetto genoma umano
La genomica moderna ha inizio con il sequenziamento del genoma umano. La possibilità di decodificare per intero il genoma umano fu discussa per la prima volta in un convegno scientifico organizzato nel 1985 da Robert L. Sinsheimer della University of California di Santa Cruz. L’importanza e la fattibilità di questo progetto furono ribadite nel 1986, in un convegno organizzato dal Ministero dell’energia degli Stati Uniti a Santa Fe, nel Nuovo Messico. Nello stesso anno, Renato Dulbecco, vincitore nel 1975 del premio Nobel per la fisiologia o medicina, espose in un editoriale pubblicato dalla rivista «Science» l’idea della mappatura del DNA umano per poter sconfiggere il cancro (Dulbecco 1986). Il progetto di sequenziare il genoma umano, denominato Progetto genoma umano (HGP, Human Genome Project) e approvato nel 1989 dal Congresso americano, ebbe inizio nel 1991 e prevedeva una durata di 15 anni. L’HGP fu condotto da un consorzio internazionale (IHGSC, International Human Genome Sequencing Consortium), a cui presero parte ricercatori appartenenti a 16 istituzioni tra Stati Uniti, Gran Bretagna, Francia, Germania e Cina.
Gli obiettivi iniziali dell’HGP furono i seguenti: determinare la sequenza dei 3 miliardi di bp che costituiscono il DNA umano; identificarne i geni; conservare le informazioni ottenute in banche dati pubbliche; sviluppare strumenti informatici per l’analisi dei dati; trasferire le tecnologie derivate al settore pubblico; affrontare gli aspetti di ordine etico, legale e sociale che sarebbero sorti con la realizzazione del progetto. Oltre al genoma umano, l’HGP ha finanziato il sequenziamento dei genomi di altri organismi, comunemente usati come modello negli studi genetici, al fine di rendere possibile lo studio comparativo dei genomi: il batterio Escherichia coli, il lievito Saccharomyces cerevisiae, il moscerino della frutta Drosophila melanogaster, il nematode Caenorhabditis elegans, il topo Mus musculus.
Grazie al rapido progredire dei mezzi tecnici impiegati per la lettura delle sequenze di DNA, i ricercatori riuscirono a completare il progetto con più di due anni di anticipo e con un notevole risparmio rispetto al budget previsto. Una delle ragioni per cui si giunse a una conclusione anticipata dell’HGP fu la competizione che si sviluppò fra i laboratori del consorzio pubblico e un’impresa privata, la Celera genomics. Nel giugno del 2000, in una conferenza stampa congiunta alla quale presero parte Francis Collins, del National human genome research institute (NHGRI), e John Craig Venter, della Celera genomics, fu annunciata la prima stesura operativa della sequenza del genoma. Questa stesura e l’interpretazione iniziale delle sequenze assemblate furono pubblicate dall’IHGSC (McPherson, Marra, Hillier et al. 2001) e da Celera genomics (Venter, Adams, Myers et al. 2001). Questa versione incompleta copriva il 90% del genoma con un tasso di errore di 1/1000 bp, comprendeva più di 150.000 interruzioni e soltanto il 28% della sequenza aveva raggiunto la sua forma completa. Una versione accurata del genoma umano fu annunciata al pubblico nell’aprile 2003: in essa erano presenti meno di 400 interruzioni, il 99% della sequenza del genoma era completa e il tasso di precisione era inferiore a 1/10.000 bp.
Sequenziamento dei genomi
Esistono due approcci per sequenziare un genoma. Il primo crea inizialmente una mappa che permette di suddividere il genoma in diversi segmenti attraverso la costituzione di mappe genetiche e fisiche e, successivamente, prosegue con il sequenziamento dei vari segmenti. Questo approccio è analogo a quello di ordinare i capitoli di un libro e poi trovare le parole comprese in ogni capitolo. Un esempio di tale tecnica fu quello utilizzato dall’IHGSC che si basava su mappe di cloni contigui all’interno di vettori BAC (Bacterial Artificial Chromosome). Con questo metodo, il DNA umano è frammentato in pezzi (100.000-200.000 bp) e i frammenti vengono poi clonati in batteri che conservano e replicano il DNA in modo da prepararne quantità abbastanza grandi per il sequenziamento. Nel metodo di sequenziamento basato sui cloni BAC, ogni clone è mappato in modo da determinare il punto del genoma umano da cui ha origine il DNA del clone stesso. Questo metodo assicura la comprensione della sequenza precisa del DNA di ogni clone e la relazione spaziale con gli altri cloni. Minimizzando la sovrapposizione, occorrono circa 20.000 cloni BAC diversi per raccogliere i 3 miliardi di bp del genoma umano. Per il sequenziamento, ogni clone BAC è tagliato in frammenti più piccoli (circa 2000 basi) che vengono in seguito sequenziati automaticamente da uno strumento che riesce a leggere circa 500-800 basi a reazione. Dopo che ogni frammento è stato sottoposto a sequenziamento, un computer allinea le sequenze contigue permettendo in tal modo di risalire alla sequenza di un clone BAC.
Il secondo approccio, denominato whole-genome shotgun, ovvero sequenziamento diretto, prevede la frammentazione casuale del genoma in segmenti parzialmente sovrapposti e poi il loro sequenziamento. La sequenza genomica è in seguito assemblata dal computer sulla base delle sovrapposizioni di sequenza tra i frammenti. Questo approccio è analogo a quello di strappare diverse copie dello stesso libro per poi ricostruirne una copia completa rimettendo insieme le pagine che si sovrappongono. Con tale modalità è stato sequenziato il primo genoma di una cellula vivente, quello del batterio Haemophilus influenzae. La stessa tecnica è stata utilizzata dalla ditta Celera genomics per sequenziare il genoma umano.
Mappatura
Per sviluppare una mappa fisica del genoma, oltre che localizzare e orientare le sequenze ottenute in diversi laboratori, si utilizzarono i siti STS (Sequence-Tagged Site), ovvero siti unici nel genoma caratterizzati da brevi sequenze (circa 200-500 bp). Questi marcatori STS comprendono sequenze ottenute da regioni non ripetitive del genoma, sequenze appartenenti a sequenze codificanti (EST, Expressed Sequence Tag) e microsatelliti polimorfici.
Agli inizi del Progetto genoma umano, le librerie di DNA genomico disponibili contenevano inserti lunghi fino a 40 kb (cloni cosmidici). Una libreria di cosmidi con inserti di tali dimensioni avrebbe dovuto essere costituita da diverse centinaia di migliaia di cloni differenti affinché il 100% del genoma umano fosse rappresentato nella libreria. Per ridurre il numero di cloni su cui indagare furono sviluppati nuovi metodi che utilizzavano i ‘cromosomi artificiali’ di eucarioti. Combinando piccole sequenze derivate dai cromosomi di lievito con grossi frammenti di DNA umano fu possibile produrre molecole ibride contenenti inserti umani lunghi anche alcune megabasi (Mb), ma che nelle cellule di lievito si comportavano ancora come cromosomi, gli YAC (Yeast Artificial Chromosomes).
Quando si scoprì che il DNA clonato nei vettori YAC poteva essere costituito da DNA proveniente da posizioni diverse del genoma, il Progetto genoma umano iniziò a muoversi verso due direzioni: la creazione di mappe geniche (di trascritti) ad alta risoluzione e l’utilizzo di mappe di siti STS impiegando cloni di nuova generazione ottenuti non più da YAC ma da BAC, i quali, nonostante i loro inserti fossero molto più piccoli (100-200 kb), rimediavano alle problematiche di affidabilità riscontrate con i cloni YAC. Come stampi fisici per il sequenziamento venne quindi utilizzata una varietà di librerie diverse di BAC umani.
Genomi sequenziati
Il sequenziamento dei genomi di diversi organismi ha permesso fino a oggi di conoscere la sequenza di circa 2360 virus, 2950 batteri e 670 organismi eucarioti. Alcuni di questi rappresentano modelli di elezione per lo studio delle funzioni del genoma. L’analisi delle sequenze ha confermato la divisione degli organismi in Bacteria, Archea ed Eukarya.
Il primo genoma procariotico a essere completamente sequenziato fu quello dell’eubatterio Haemophilus influenzae. Esso è lungo 1,83 Mb e il suo sequenziamento, avvenuto nel 1995, ha costituito una pietra miliare della biologia perché per la prima volta si riuscì a descrivere il genoma di un organismo capace di vita indipendente.
Nel 1997 venne determinato il genoma di Escherichia coli, batterio presente nell’intestino degli animali, uomo compreso, di dimensioni pari a 4,64 Mb (4.639.221 bp). Desta sorpresa il fatto che, nonostante l’enorme quantità di studi precedenti, quasi il 40% dei geni identificati non ha funzione nota.
Il primo genoma di un archeobatterio a essere completamente sequenziato fu nel 1996 quello di Methanococcus jannaschii. Questo organismo è un metanogeno ipertermofilo che cresce a una temperatura di 85 °C e a pressioni fino a 200 atmosfere. Il suo genoma ha un cromosoma circolare principale di 1.664.976 bp e due elementi circolari extracromosomici rispettivamente di 58.407 e 16.550 bp.
Il lievito Saccharomyces cerevisiae rappresenta un modello eucariotico molto utilizzato in diversi tipi di ricerca. Dal punto di vista funzionale esso assomiglia per diversi aspetti alla cellula di mammifero ed è per questo che il suo genoma è stato oggetto di un importante progetto di sequenziamento. Il genoma di Saccharomyces cerevisiae fu nel 1996 il primo genoma eucariotico a essere sequenziato completamente. Una grande percentuale dei geni del lievito è omologa a quelli di mammifero, mentre per il 25% circa di essi non si conosce ancora una funzione.
Schizosaccharomyces pombe è un altro fungo unicellulare largamente utilizzato nella ricerca. La sequenza completa di 13,8 Mb venne pubblicata nel 2002 ed è risultata costituita da 4824 geni. I dati mostrano notevoli differenze tra i genomi di Saccharomyces cerevisae e di Schizosaccharomyces pombe: vi sono diversi geni presenti nell’uno, ma apparentemente assenti nell’altro, differenze nel numero di introni e di elementi trasponibili.
Nel 2002 fu sequenziato il genoma di Plasmodium falciparum, parassita unicellulare che causa la malaria, e contemporaneamente venne pubblicato il genoma completo del vettore, la zanzara Anopheles gambiae.
Il primo genoma di un organismo eucariotico pluricellulare a essere sequenziato è stato quello del nematode Caenorhabditis elegans. Benché si tratti di un organismo semplice, lungo appena 1 mm, Caenorhabditis elegans costituisce un importante modello per la ricerca. Il suo sequenziamento ebbe inizio negli anni Novanta e la sua sequenza fu riportata nel dicembre del 1998. Il genoma è composto da 100,3 Mb e contiene 20.443 geni, 1270 dei quali non codificano proteine. A causa delle grandi dimensioni del suo genoma, il progetto riguardante Caenorhabditis elegans è considerato il principale modello pilota per il sequenziamento del genoma umano.
Nel marzo del 2000 fu riportata la sequenza completa del genoma del moscerino della frutta, Drosophila melanogaster: ha una dimensione stimata di 118,4 Mb. Altre 60 Mb circa del genoma consistono di sequenze di DNA ripetute che non possono essere clonate.
Per quanto riguarda i genomi di mammiferi, sono stati sequenziati completamente quelli dell’uomo, del topo e del ratto. Sebbene quello umano risulti il più grande, tutti e tre questi mammiferi possiedono all’incirca lo stesso numero di geni. La loro sequenza rivela che il 99% circa dei geni di topo e di ratto hanno una controparte diretta nell’uomo, inclusi i geni associati alle malattie. Per tale motivo, questo tipo di studi fornirà conoscenze fondamentali anche sull’analisi e la cura di diverse malattie umane.
La comparazione della sequenza dei diversi genomi sequenziati permette di osservare che non esiste una relazione diretta tra la quantità totale di DNA contenuto nel genoma e la complessità strutturale e organizzativa dell’organismo.
Se si osservano alcuni genomi di eubatteri, ci si accorge che questi hanno densità geniche di 1 gene ogni 1-2 kb. Gli spazi tra geni sono relativamente piccoli, pertanto essi hanno una grande concentrazione. L’85-90% del genoma degli eubatteri e degli Archea consiste di DNA codificante. Tuttavia, studi molecolari e fisiologici suggeriscono che gli Archea assomigliano agli eucarioti in diversi aspetti. Infatti, i geni per la replicazione del DNA e per la trascrizione dell’RNA (RiboNucleic Acid) assomigliano più a quelli degli eucarioti che a quelli dei batteri. A differenza degli eucarioti, i geni degli Archea che codificano proteine non hanno alcun introne, ma vi sono introni nei geni dei tRNA (transfer RNA), proprio come negli eucarioti. Inoltre, negli eucarioti si osserva un’ampia varietà nei valori di densità genica ed è evidente un decremento di quest’ultima con l’aumento della complessità del genoma. Quando si analizzano i valori di densità genica, bisogna comunque ricordare che in ogni organismo sono presenti tratti di cromosomi detti regioni ricche di geni, con un numero di geni significativamente superiore alla media, e regioni, i deserti genici, con un numero di geni significativamente inferiore alla media. In generale si può dire che gli esseri umani e altri organismi complessi possiedono una minore percentuale del loro genoma dedicato ai geni, mentre il resto è costituito da regioni intergeniche che nell’uomo spesso consistono di DNA ripetuto.
Recentemente è stato sequenziato il genoma del vertebrato Fugu rubripes, il pesce palla: ha dimensioni di 365 Mb, circa otto volte più piccolo di quello umano, ma con una densità genica che è otto volte quella dell’uomo, a causa del minore numero di introni e di una piccola quantità di DNA ripetuto, caratteristiche che rendono il DNA di questo organismo molto utile per la ricerca.
Genoma umano
Il sequenziamento del genoma umano, insieme a quello di altre specie, ha permesso di evidenziare come le sequenze geniche fra esseri fenotipicamente molto diversi presentino una forte e inattesa similitudine.
Prima che il genoma umano fosse sequenziato, le previsioni sul numero totale dei geni variavano tra 60.000 e 100.000. Dopo la pubblicazione della prima bozza dell’intera sequenza, la nuova stima si rivelò sorprendentemente bassa, intorno ai 30.000 geni. In seguito, effettuando il confronto fra il genoma umano e quello di altri organismi, risultò chiaro che in realtà la quantità di DNA di una cellula non è sempre direttamente proporzionale alla sua complessità funzionale; alcuni tipi di amebe, per es., hanno un contenuto di DNA cellulare superiore a quello umano. Nel corso degli ultimi anni lo sviluppo di nuovi software ha permesso la gestione dell’enorme quantità di informazioni sul genoma umano in modo sistematico e facile da usare. Un altro importante progresso si è avuto nella descrizione dell’ontologia dei geni. Il consorzio Gene ontology (GO) ha permesso di sviluppare un sistema di nomenclatura comune per definire un concetto di funzionalità genica applicabile a tutti gli organismi (Ashburner, Ball, Blake et al. 2000). Secondo questa nuova nomenclatura, i prodotti genici sono suddivisi in tre categorie separate: processo biologico, componente cellulare e funzione molecolare. Attualmente il vocabolario del GO contiene circa 28.000 termini funzionali.
Organizzazione del genoma umano
Il genoma umano è costituito da una componente complessa, il genoma nucleare, che comprende circa 30.000 geni, e da una più semplice, il genoma mitocondriale, con 37 geni. La maggior parte del DNA codificante è utilizzata per produrre mRNA (messenger RNA) e quindi polipeptidi, ma una minoranza non trascurabile (tra il 5% e il 10%) dei geni umani specifica RNA non codificante (geni a RNA).
Il genoma mitocondriale è una molecola di DNA circolare lunga 16.569 bp; principalmente a doppio filamento, possiede una piccola porzione caratterizzata da una struttura di DNA a tripla elica detta DNA 7S. Esso contiene 37 geni privi di introni e con una densità di 1/0,45 kb: 24 codificano RNA (22 molecole di tRNA e 2 molecole di rRNA, ribosomal RNA). I 13 geni rimanenti codificano polipeptidi che sono sintetizzati sui ribosomi mitocondriali. A differenza della sua controparte nucleare, il 93% circa della sequenza del DNA mitocondriale è codificante. Le sequenze codificanti di alcuni geni mostrano una certa sovrapposizione e, nella maggior parte degli altri casi, le sequenze codificanti di geni vicini sono contigue o separate da una o due basi non codificanti. L’unica regione priva di DNA codificante è la regione dell’ansa D, la quale contiene i promotori per la trascrizione del DNA mitocondriale che permettono la trascrizione di grandi trascritti multigenici. Gli RNA maturi si ottengono successivamente mediante il taglio di questi trascritti. È interessante sottolineare che il DNA mitocondriale è ereditato esclusivamente per via materna: nella formazione dello zigote, lo spermatozoo fornisce solamente il DNA nucleare, dunque i maschi non possono trasmettere i propri mitocondri alle generazioni successive.
Il genoma nucleare costituisce più del 99% del DNA cellulare. Il genoma nucleare è suddiviso in 24 tipi diversi di molecole lineari di DNA a doppio filamento, a ciascuna delle quali si legano istoni e altre proteine non istoniche, formando i cromosomi. Il DNA scelto per il sequenziamento nel progetto genoma umano non rappresentava il genoma nucleare totale, bensì solo la porzione eucromatica.
Esiste una discreta minoranza di geni che specifica come prodotto finale molecole di RNA non codificante (che non sono tradotte) e per questo vengono denominati geni a RNA. La maggior parte di questi è adibita a produrre molecole che intervengono nel processo complessivo dell’espressione genica. Alcuni, in particolare l’rRNA e il tRNA, partecipano alla traduzione dell’mRNA. Molte altre famiglie di RNA sono coinvolte in reazioni che portano alla maturazione dell’RNA, che comprende il taglio e le modificazioni base-specifiche di altre molecole di RNA (mRNA, rRNA, tRNA e altre specie di RNA). Recentemente sono stati identificati altri geni a RNA con funzioni diverse: snRNA (small nuclear RNA) che compongono lo spliceosoma; snoRNA (small nucleolar RNA), coinvolti nelle modificazioni sito-specifiche e nel processamento di rRNA; microRNA, molecole di circa 22 nucleotidi che hanno funzioni regolative antisenso, in grado di impedire la traduzione di uno specifico mRNA; RNA associati a inattivazione del cromosoma X (RNA di XIST o di TSIX), che regolano geni soggetti all’imprinting.
Genomica funzionale
Per conoscere un gene non è sufficiente identificarne la sequenza: bisogna anche determinarne l’esatta funzione e il modo in cui interagisce con altri geni, ovvero è necessario attribuirgli una connotazione funzionale. Questo particolare settore della ricerca è denominato genomica funzionale.
Passando da un approccio riduzionista (lo studio dei geni e dei loro prodotti, uno per volta) a un approccio olistico (in cui molti o addirittura tutti i prodotti genici sono studiati simultaneamente), la genomica funzionale mira a comprendere le modalità con le quali i geni che compongono il nostro genoma dirigono lo sviluppo e il funzionamento del nostro organismo e come il loro malfunzionamento induca uno stato patologico.
La genomica funzionale, nata dal contributo di diverse discipline, si basa sulla bioinformatica per l’analisi computazionale della grande quantità di dati di laboratorio prodotta. Il principale scopo degli approcci computazionali è innanzitutto quello di fornire le corrette annotazioni funzionali di una data sequenza genica. Tali annotazioni prevedono l’identificazione di geni potenzialmente codificanti una o più proteine. Questo processo viene effettuato grazie all’ausilio di algoritmi di ricerca in grado di identificare le cosiddette ORF (Open Reading Frame), cioè le sequenze di codoni che codificano le proteine. In genere l’identificazione di una sequenza ORF richiede il confronto con le informazioni presenti all’interno di banche dati alle quali è possibile accedere attraverso Internet. I programmi preposti a tali confronti si basano su algoritmi di allineamento di sequenze e implicano la comparazione della sequenza di interesse con quelle presenti all’interno dei data-base, di cui si conosce la funzione. Fra i vari algoritmi di allineamento spicca in modo particolare il programma BLAST (Basic Local Alignment Search Tool), prodotto dal National center for biotechnology information (NCBI). I problemi di annotazione di una determinata sequenza possono nascere laddove nessun gene simile a quello che stiamo studiando sia stato ancora caratterizzato. Questi geni vengono spesso definiti geni FUN (Function UNknown), meglio conosciuti come geni orfani. Tuttavia, le annotazioni di un genoma non si limitano solo all’identificazione di sequenze ORF: esistono sequenze regolatrici la cui funzione è quella di riunire i vari esoni e introni di un gene. Per l’identificazione e l’annotazione di queste particolari sequenze si richiede l’ausilio di algoritmi più sofisticati.
Per superare alcuni dei limiti sino a qui descritti, le annotazioni vengono spesso eseguite sulla base della cosiddetta genomica comparativa, ovvero quella branca della genomica funzionale in grado di confrontare interi genomi di diverse specie con lo scopo di aumentare le conoscenze sulle funzioni dei singoli geni e quindi dell’intero genoma. L’approccio comparativo si basa sull’assunto che tutti gli attuali genomi si siano evoluti partendo da genomi ancestrali. In questo modo, la conoscenza di un gene in un dato organismo può fornire informazioni sul gene omologo di un altro organismo. L’uso di informazioni su altri genomi, diversi da quello umano, è in grado di rimediare alla mancanza di conoscenza spesso causata da problemi etici inerenti, talora, l’impossibilità di una diretta sperimentazione sui geni umani.
International HapMap project ed ENCODE
Il progetto internazionale HapMap ha preso avvio nell’ottobre del 2002 grazie a un consorzio di scienziati di sei nazioni con lo scopo di ottenere una mappa del genoma umano e identificare i geni correlati a malattie come l’asma, il cancro, il diabete e le patologie cardiologiche. Inoltre, esso dovrebbe permettere lo studio dei fattori genetici che contribuiscono alla variazione individuale ai rischi ambientali, alla suscettibilità alle infezioni e all’efficacia di farmaci e vaccini.
Il progetto ENCODE (ENCyclopedia Of Dna Elements) si prefigge di creare un’enciclopedia degli elementi funzionali codificati nel DNA, e quindi di identificare e di localizzare con precisione tutti i geni codificanti o meno e tutti gli altri elementi funzionali contenuti nella sequenza del DNA (The ENCODE project consortium, 2007). La creazione di questo catalogo monumentale aiuterà gli scienziati a scrutare e utilizzare in maniera più efficace la sequenza del genoma umano, al fine di sviluppare nuove strategie per la prevenzione e il trattamento delle malattie. In una fase iniziale, i gruppi di ricerca partecipanti svilupperanno metodi efficaci e ad alta capacità per analizzare in maniera completa approssimativamente l’1% del genoma umano. L’analisi di questi primi 30 milioni di basi del genoma umano consentirà di sperimentare e paragonare una varietà di tecnologie utili all’identificazione degli elementi funzionali del DNA umano.
Trascrittoma
Le metodiche classiche di biologia molecolare (Northern blot, reazione a catena delle polimerasi in tempo reale, ibridazione in situ ecc.) hanno l’enorme limite di quantificare l’espressione di solo uno o pochi geni per volta. Il sequenziamento del genoma ha aperto la strada a nuove prospettive di ricerca: lo studio dell’espressione di tutti i geni di una cellula a livello trascrizionale e traduzionale e l’analisi delle interazioni tra tutte le proteine. La misurazione del trascrittoma (ovvero l’insieme di mRNA trascritti in una cellula) offre un quadro complessivo dello stato di espressione genica della cellula. Poiché gli mRNA specificano le proteine che svolgono le funzioni cellulari, il trascrittoma è un indicatore fondamentale del fenotipo e della funzione cellulare.
È importante puntualizzare che un singolo gene può produrre molti mRNA diversi (mediante lo splicing alternativo, l’utilizzo di promotori o di siti di poliadenilazione diversi, e l’RNA editing) e le proteine sintetizzate da questi mRNA possono poi essere modificate in modi differenti (per es., mediante il processo proteolitico, fosforilazione o glicosilazione). Il trascrittoma di una cellula, dunque, è molto complesso e varia significativamente nei differenti tipi cellulari; inoltre esso cambia in seguito alle risposte cellulari agli stimoli ambientali, e in funzione del procedere della cellula attraverso il ciclo cellulare, che comporta la replicazione del DNA e la divisione cellulare. L’analisi del trascrittoma fornisce un preciso ritratto molecolare della cellula in determinate condizioni, come, per es., in uno stato di salute o in una patologia. Questo tipo di indagine ha notevoli implicazioni in campo medico-clinico, fornendo un mezzo efficace per la prognosi e la diagnosi precoci, e per lo sviluppo di strategie terapeutiche mirate. I geni la cui espressione è specificatamente incrementata in condizioni patologiche potrebbero, inoltre, rappresentare dei bersagli farmacologici, mentre geni la cui espressione è ridotta potrebbero codificare proteine importanti ai fini terapeutici.
Microarray
Gli incredibili avanzamenti scientifici nel campo delle biotecnologie hanno contribuito allo sviluppo di nuove tecnologie che consentono di monitorare e confrontare simultaneamente l’espressione di migliaia di trascritti. Attualmente la tecnologia di elezione per l’analisi del profilo di espressione genica è rappresentata dalla tecnologia dei microarray.
I microarray sono dispositivi che permettono di misurare la presenza di specifiche sequenze di DNA. Essi sono costituiti da una superficie solida (vetro, silicio, plastica) sulla quale vengono immobilizzate differenti molecole di DNA secondo una disposizione a griglia. I microarray attualmente disponibili sono di due tipi: i cDNA-microarray e gli oligo-microarray. I primi contengono sequenze di DNA relativamente lunghe, mentre i secondi contengono brevi sequenze oligonucleotidiche di DNA (solitamente 25-60 basi) immobilizzate o sintetizzate direttamente in situ mediante un processo di fotolitografia. I microarray sfruttano la tecnica di ibridazione inversa, ossia la reazione di riassociazione fra due catene complementari di acidi nucleici, una immobilizzata al supporto solido e una in soluzione che viene marcata con una molecola fluorescente. In un esperimento tipico, una popolazione di molecole di mRNA estratta da un determinato campione, subisce una trascrizione inversa, viene marcata con una molecola fluorescente e quindi ibridata sul microarray. A volte, vengono coibridate sullo stesso microarray due popolazioni di RNA differenti, ciascuna marcata con fluorofori differenti, per es. la Cy3 (che emette una lunghezza d’onda nel campo del rosso) e la Cy5 (che la emette nel campo del verde). Una volta avvenuta l’ibridazione, il livello di espressione di un gene può essere derivato calcolando l’intensità di fluorescenza del colorante di ogni singolo punto e, dove esistente, sottraendo a esso il segnale di fondo.
La tecnologia dei DNA microarray fornisce nuovi strumenti per identificare il ruolo e le funzioni di un determinato gene, caratterizzare i geni responsabili di una specifica malattia e determinare potenziali bersagli terapeutici per la sua cura. Le principali applicazioni dei microarray sono l’analisi del trascrittoma, il sequenziamento del DNA e lo screening di alterazioni geniche (Heller 2002).
Esistono microarray che consentono di misurare simultaneamente l’espressione di 40.000 trascritti o varianti di splicing alternativi. Attraverso il monitoraggio del trascrittoma è possibile caratterizzare le basi molecolari di uno stato patologico ed elaborare protocolli terapeutici mirati e con minori effetti indesiderati. Lo studio dei profili di espressione genica mediante microarray ha trovato numerose applicazioni soprattutto in ambito oncologico. L’analisi dei profili di espressione genica in soggetti affetti da alcuni tipi di tumore ha permesso l’identificazione di geni utilizzabili come marcatori diagnostici, prognostici e terapeutici nelle patologie oncologiche di maggiore interesse. Nel carcinoma della mammella, per es., lo screening genomico permette di distinguere le neoplasie con alta probabilità di invasione e metastatizzazione dalle neoplasie scarsamente invasive, e i geni associati con la risposta alla chemioterapia e all’ormonoterapia. In ematologia, lo screening genomico permette di tipizzare leucemie e linfomi, fornendo informazioni per la loro prognosi e terapia.
Oltre allo studio del trascrittoma, i DNA microarray possono essere usati per la genotipizzazione e lo studio delle variazioni genetiche. Gli SNP microarray, per es., sono usati per identificare i polimorfismi di un singolo oligonucleotide SNPs (Single Nucleotide Polymorphisms) ovvero quelle sequenze che variano da individuo a individuo (Sachidanandam, Weissman, Schmidt et al. 2001). Attualmente è possibile misurare simultaneamente circa un milione di SNPs. I CGH-microarray consentono di eseguire in maniera più standardizzata e riproducibile la tecnologia CGH (Comparative Genomic Hybridization), una tecnica che permette di rilevare variazioni del numero di copie di geni.
Farmacogenetica e farmacogenomica
Il sequenziamento del genoma umano ha permesso non solo un avanzamento nella farmacogenetica, la disciplina che studia la variabilità della risposta individuale a un farmaco legata all’ereditarietà e alle caratteristiche genetiche personali e familiari, ma ha determinato lo sviluppo della farmacogenomica. Questa disciplina combina le tecniche di medicina, farmacologia e genomica allo scopo di sviluppare e utilizzare nuove terapie farmacologiche personalizzate, più efficaci e meno dannose, partendo dall’analisi dell’intero genoma individuale per identificare sia i nuovi geni che possono fungere da bersaglio per nuove terapie, sia i profili genetici individuali, dai quali può dipendere la risposta al farmaco somministrato (Marsh 2007).
La possibilità di poter misurare profili di espressione o alterazioni di migliaia di geni simultaneamente, potendo cogliere le differenze tra individuo e individuo, ci conferisce l’opportunità di intervenire terapeuticamente in modo più efficace e con maggiore specificità di quanto non si sia fatto in passato. Entrambe le discipline ci permettono di pensare a una terapia ‘su misura’, mirata su ciascun individuo, con la consapevolezza che la risposta di ogni essere umano possa essere influenzata in modo particolare dal suo stesso genoma. Un esempio applicativo, a cavallo tra la farmacogenetica e la farmacogenomica, è rappresentato dallo studio degli enzimi epatici del citocromo P450 (CYP) che sono in grado di metabolizzare un vasto numero di farmaci. Da soggetto a soggetto, le variazioni geniche di tali enzimi possono comportare una diversa capacità metabolica. Misurando le variazioni genetiche di questi enzimi, è possibile definire un fenotipo predittivo della capacità di risposta a una determinata categoria di farmaci da parte del soggetto e quindi individuare il trattamento farmacologico e il dosaggio più opportuno, massimizzando l’efficacia e riducendo al minimo gli effetti collaterali. Allo stesso tempo, la definizione di questo fenotipo può essere utile per testare l’eventuale incidenza di reazioni avverse di nuovi farmaci in modo da individuare in anticipo la risposta al trattamento.
Proteomica
La proteomica è la disciplina che mira a catalogare le proteine di un organismo (proteoma), determinarne la sequenza e analizzare il corredo complessivo delle proteine nei diversi tipi cellulari, nelle diverse fasi di sviluppo e in differenti stadi fisiopatologici. L’identificazione e il sequenziamento di tutte le proteine di una cellula sono molto più complessi della mappatura e del sequenziamento di un genoma. La sfida posta dalla proteomica va ben oltre quella posta dalla genomica funzionale: si pensa infatti che a fronte di circa 30.000 geni ci siano circa 500.000 proteine, frutto di variazioni di espressione genica, splicing alternativo e modificazioni postraduzionali. L’analisi convenzionale del proteoma è condotta mediante elettroforesi bidimensionale su gel di poliacrilammide e la spettrometria di massa. Poiché questi procedimenti permettono di rilevare solamente proteine espresse ad alti livelli, si è pensato di trasferire la tecnologia degli array di DNA allo studio del proteoma realizzando microarray di proteine (Tao, Chen, Zhu 2007). Concettualmente simili ai microarray di DNA, essi prevedono proteine immobilizzate su substrati solidi, come vetro, membrane o pozzetti di micropiastre, in modo da identificare specifiche interazioni proteina-proteina. Alternativamente, è possibile immobilizzare su substrati solidi anticorpi che riconoscono specificamente una molecola bersaglio (microarray di cattura).
Genomica funzionale ed etica
Grazie al completamento del Progetto genoma umano sarà possibile identificare i geni responsabili delle patologie umane. Le ricadute sanitarie di questi aspetti della genomica funzionale sono innumerevoli, se si considera la possibile implementazione di test diagnostici sempre più mirati in grado di prevedere con estrema precisione lo sviluppo di patologie come il cancro in un individuo ancora sano. L’insorgenza di una serie di problemi di carattere etico si ha dal momento in cui la realizzazione di questi test precederà quella dello sviluppo di possibili terapie mirate e risolutive. Di conseguenza, ci si porrà di fronte al dubbio di dover informare, oppure no, i soggetti che dovessero risultare positivi a un test per una patologia non ancora curabile.
Le conseguenze di una possibile rivelazione della preannunciata patologia, in un individuo, potrebbero avere effetti disastrosi nell’ambito lavorativo, come nel caso della predisposizione alla malattia di Huntington, causata da una mutazione a carattere dominante e che si manifesta in età avanzata. In tal caso, un datore di lavoro potrebbe sentirsi autorizzato a richiedere un test genetico per conoscere la condizione genomica del suo ipotetico futuro lavoratore. Allo stesso modo anche le varie compagnie assicurative potrebbero un domani rifiutarsi di assicurare i propri clienti, in nome di una garantita e incombente patologia.
Fortunatamente sono state sviluppate agenzie pubbliche che si occupano della risoluzione di questi problemi etici, legali e sociali. Il programma ELSI (Ethical, Legal and Social Issue), per es., studia il modo in cui la riservatezza dell’informazione genetica debba essere preservata (Cassel, Levinson 1995). Allo stesso tempo il programma esamina le varie possibili linee-guida per l’integrazione delle informazioni genetiche nelle pratiche cliniche. Il programma si occupa inoltre dell’educazione pubblica e professionale oltre che della cura e della correttezza di tutte le informazioni inerenti la genetica.
Prospettive future
La ricerca biologica è tradizionalmente un’impresa individuale, dove i ricercatori procedono con i loro studi più o meno indipendentemente. La sfida tecnologica e lo sforzo finanziario necessario hanno spinto il Progetto genoma umano a costituire squadre interdisciplinari (comprendenti l’ingegneria, l’informatica e la biologia), ad automatizzare, ove possibile, le procedure e a concentrare gli studi nei maggiori centri di ricerca per economizzare al massimo le risorse.
Alcuni progetti di ricerca attuali (come HapMap ed ENCODE) sono caratterizzati da attività cooperative che coinvolgono istituzioni e nazioni diverse. La genomica, quindi, sta spingendo la ricerca biologica in una nuova era basata sull’attività multidisciplinare e cooperativa. Questa disciplina sta comunque introducendo una serie di nuovi strumenti e tecnologie che può essere usata dai singoli scienziati per eseguire in maniera più efficace la propria ricerca.
Conoscere la sequenza completa del genoma umano è come avere tutte le pagine del manuale del corpo umano. La prossima sfida sarà riuscire a leggere il contenuto di tutte queste pagine per poi comprendere come le varie parti del nostro organismo lavorino insieme e scoprire le basi genetiche della salute o della malattia. A tale riguardo, la ricerca basata sul genoma permetterà alla scienza medica di sviluppare strumenti diagnostici estremamente efficaci, comprendere il contributo genetico dell’individuo e sviluppare nuovi trattamenti terapeutici per le malattie.
L’analisi individualizzata basata sul genoma di ciascuna persona condurrà a una forma di medicina personalizzata. I professionisti sanitari potranno aiutare il singolo individuo a migliorare la propria salute mediante cambiamenti di dieta o modi di vivere, oppure attraverso un più attento controllo medico. Inoltre, mediante la comprensione a livello molecolare di come si sviluppano patologie quali il diabete, le malattie cardiache o la schizofrenia, potremo sviluppare nuovi interventi terapeutici, molti dei quali saranno basati su farmaci più specifici ed efficaci di quelli attualmente disponibili.
Lo sviluppo di test diagnostici arriverà più rapidamente, soprattutto per quanto riguarda quelli capaci di predire i rischi per la salute individuali e la medicina preventiva. Per i farmaci, invece, il progresso sarà più lento dal momento che una ditta farmaceutica impiega solitamente più di dieci anni per la sperimentazione e la commercializzazione di una sostanza. Si prevede che i farmaci basati sul genoma si svilupperanno nei prossimi 10-15 anni. Nel frattempo, si potrà iniziare a selezionare gli individui che rispondono meglio ai farmaci sulla base del loro corredo genetico.
Bibliografia
R. Dulbecco, A turning point in cancer research. Sequencing the human genome, «Science», 1986, 231, 4742, pp. 1055-56.
C.K. Cassel, D. Levinson, The human genome project: who’s looking out for ELSI? Ethical, legal and social implications, «Hospital practice», 1995, 30, 4, pp. 11-14.
M. Ashburner, C.A. Ball, J.A. Blake et al., Gene ontology: tool for the unification of biology. The Gene ontology consortium, «Nature genetics», 2000, 25, 1, pp. 25-29.
J.D. McPherson, M. Marra, L. Hillier et al., A physical map of the human genome, «Nature», 2001, 409, 6822, pp. 934-41.
R. Sachidanandam, D. Weissman, S.C. Schmidt et al., A map of human genome sequence variation containing 1.42 million single nucleotide polymorphisms, «Nature», 2001, 409, 6822, pp. 928-33.
J.C. Venter, M.D. Adams, E.W. Myers et al., The sequence of the human genome, «Science», 2001, 291, 5507, pp. 1304-51.
M.J. Heller, DNA microarray technology. Devices, systems, and applications, «Annual review of biomedical engineering», 2002, 4, pp. 129-53.
The international HapMap consortium, The international HapMap project, «Nature», 2003, 426, 6968, pp. 789-96.
S. Marsh, Pharmacogenomics, «Annals of oncology», 2007, 18, Suppl. 9, pp. ix24-ix28.
S.C. Tao, C.S. Chen, H. Zhu, Applications of protein microarray technology, «Combinatorial chemistry & high throughput screen», 2007, 10, 8, pp. 706-18.
The ENCODE project consortium, Identification and analysis of functional elements in 1% of the human genome by the ENCODE pilot project, «Nature», 2007, 447, 7146, pp. 799-816.