Genomica
di Edoardo Boncinelli
Genomica
sommario: 1. Introduzione. 2. Dalla genetica alla genomica. 3. Evoluzione del concetto di gene. 4. L'analisi dei genomi. a) Individuazione dei geni. b) Analisi dei prodotti genici. c) Studio della funzione: la genomica funzionale. 5. Le prospettive. □ Bibliografia.
1. Introduzione
'Genomica' è il termine usato da qualche anno per indicare lo studio di regioni più o meno estese del genoma di una specie, con particolare riguardo alla specie umana. Si tratta della naturale rivisitazione ed estensione del termine 'genetica', usato da oltre un secolo per indicare lo studio della trasmissione dei caratteri ereditari da una generazione all'altra. Per 'era genomica' o 'era della genomica' si intende nella pubblicistica non specialistica l'epoca appena iniziata che vedrà, o dovrebbe vedere, il trionfo della genomica come scienza e come presidio diagnostico, se non clinico. A tale periodo ci si riferisce a volte anche con il termine 'era postgenomica', in quanto iniziato all'indomani del completamento del Progetto genoma (v. Lander, 2001; v. Venter, 2001).
2. Dalla genetica alla genomica
Negli anni la genetica è passata dallo studio fenomenologico e statistico della trasmissione delle caratteristiche biologiche all'analisi sempre più approfondita e dettagliata delle basi biochimiche e molecolari di tali caratteristiche. Partita dallo studio dei tratti somatici esterni (fenotipo) di un individuo e dei suoi consanguinei, è divenuta sempre più uno studio dell'assetto genetico (genotipo) di un determinato individuo e del suo rapporto con il corrispondente fenotipo. Così, da scienza descrittiva, anche se basata fin dall'inizio su metodi quantitativi, la genomica si è progressivamente trasformata in scienza esplicativa e predittiva. Analizzando la base biochimica prima e quella molecolare poi dei singoli tratti fenotipici, essa è divenuta la scienza che studia i geni e la loro azione. Il progredire delle conoscenze e dei metodi d'analisi ha permesso di passare dallo studio di singoli geni all'analisi multipla, vale a dire l'indagine della natura, della trasmissione e dell'azione di due o più geni contemporaneamente, la quale pur essendo sicuramente ancora ascrivibile al dominio della genetica, viene sempre più spesso indicata con il termine genomica. Tale evoluzione terminologica può apparire essenzialmente come un cambiamento di etichetta e una delimitazione di competenze, ma la sua affermazione ha coinciso con un significativo cambiamento di prospettiva. Si è passati, infatti, dalla visione del genoma come l'insieme dei geni di un organismo alla considerazione del gene come porzione limitata del genoma. Se prima si prendeva in esame il singolo gene, considerando il genoma come la mera somma dei geni di un organismo, ora si preferisce considerare il genoma come un'entità funzionale, di cui il singolo gene rappresenta una limitata porzione.
3. Evoluzione del concetto di gene
La storia della biologia e della genetica del XX secolo ha sancito il primato logico e concettuale della nozione di gene. Partendo dallo studio di sistemi biologici relativamente semplici, come i Batteri e i loro virus (detti batteriofagi o fagi), i lieviti, alcuni protozoi e il moscerino dell'aceto Drosophila melanogaster, si è definito il gene come quel segmento di patrimonio genetico che controlla una determinata caratteristica biologica, sia che si tratti di una struttura che di una funzione. Dopo la scoperta che il patrimonio genetico è costituito di DNA (oppure, in qualche caso, di RNA), si è definito operativamente il gene come uno specifico tratto di DNA, dotato di un inizio e di una fine. Il ruolo primario del tratto di DNA che costituisce un determinato gene è quello di dettare la sequenza degli amminoacidi che compongono la corrispondente proteina o, meglio, la corrispondente catena proteica. Per catena proteica, o polipeptidica, s'intende una successione lineare di amminoacidi legati chimicamente fra di loro. La struttura e la funzione di una catena proteica sono determinate dalla sequenza degli amminoacidi che la compongono. Poiché un gene specifica in maniera non ambigua questa sequenza, esso ne determina automaticamente anche la struttura, la conformazione spaziale e la funzione. La catena proteica specificata da un dato gene può avere una funzione di per sé o può combinarsi con altre catene per formare una proteina funzionante. Una generica proteina può quindi essere formata da una singola catena proteica o da più catene: l'emoglobina, ad esempio, è costituita da quattro catene di due tipi diversi codificate da altrettanti geni. Negli anni sessanta del XX secolo il gene era definito come il tratto di DNA che codificava una catena proteica.
Se la funzione primaria di un gene è quella di specificare la sequenza di una data proteina, tuttavia la sua attività non si riduce solo a questo. È necessario, infatti, che la cellula sappia quando deve produrre tale proteina e quanta ne deve produrre. Il tratto di DNA corrispondente a un gene deve quindi contenere informazioni addizionali. Al suo interno si distingue una regione codificante, che specifica la sequenza amminoacidica della corrispondente proteina, e una o più regioni regolative, o regioni di controllo, che specificano in quali circostanze e in che quantità la proteina in questione deve essere prodotta. Se si tratta di un organismo pluricellulare, queste regioni devono specificare inoltre in quale parte del corpo e in quale tessuto la proteina deve essere prodotta.
Alcune delle regioni di controllo si trovano nelle immediate vicinanze della regione codificante del gene, mentre altre possono trovarsi a distanze anche ragguardevoli (v. Lettice e altri, 2002), talché talvolta esse finiscono per trovarsi all'interno di quelle che un tempo sarebbero state designate come regioni intergeniche. Così, nel corso degli anni il concetto di gene è andato progressivamente arricchendosi, non solo dal punto di vista strutturale, ma anche da quello funzionale; ciò ha reso tale concetto più ricco, ma anche più sfumato. Infatti si è visto, che uno stesso gene può codificare più di una proteina ed esplicare un certo numero di funzioni diverse, rendendo difficile individuare la sua funzione specifica, soprattutto negli organismi superiori. Parallelamente a questi studi di carattere biologico-molecolare, lo studio delle malattie genetiche si va progressivamente spostando da quelle monofattoriali, determinate cioè dalla disfunzione di un solo gene, a quelle multifattoriali, determinate dall'azione concertata di molti geni diversi, che possono essere decine o anche centinaia. Sempre più spesso, pertanto, l'attenzione degli scienziati viene rivolta allo studio di gruppi di geni piuttosto che a quello di geni singoli, ed è quindi opportuno considerare il genoma come dato primario e i geni come elementi costituenti del genoma stesso. Può darsi che il genoma di una specie coincida con l'insieme dei geni che lo compongono, ma al momento nessuno lo può dire con certezza. Conviene perciò partire dal genoma, definito come l'insieme delle istruzioni biologiche necessarie agli individui di una data specie per crescere e svilupparsi, per mantenersi in vita e riprodursi. L'insieme di queste istruzioni costituisce un testo scritto nel DNA contenuto nelle cellule dell'organismo in questione, e poiché l'alfabeto utilizzato è costituito di sole quattro lettere - le quattro basi del DNA, A, G, C e T - il testo deve essere molto lungo. Il genoma umano è costituito infatti di più di tre miliardi di basi. Lo scopo del Progetto genoma è stato proprio quello di determinare lettera per lettera questo gigantesco testo, che si presenta continuo, uniforme e decisamente monotono. Fortunatamente, molte sue porzioni possono essere mentalmente suddivise in un certo numero di istruzioni di senso compiuto che corrispondono ai vari geni.
Come abbiamo detto, se storicamente si è proceduto dai geni al genoma, è oggi opportuno partire, almeno concettualmente, dal genoma, perché è questo che si trova nelle cellule, per essere consultato in ogni momento della loro vita, ed è questo che viene trasmesso da ogni cellula madre alle proprie cellule figlie e in definitiva da una generazione all'altra. Anche per quanto concerne la specificità di specie biologica, possiamo parlare di un genoma umano, ma non di geni propriamente umani. I geni infatti sono per la maggior parte molto simili in specie diverse e ancora più simili in specie evolutivamente vicine. Non tutte le regioni del genoma sono poi suddivisibili in geni: alcune, infatti, per struttura globale e sequenza sembrano ospitare pochi geni, altre nessuno. Si tratta di regioni definite 'povere di geni', 'desertiche' (barren), o anche ricche di 'DNA di rifiuto' o 'DNA spazzatura' ( junk DNA).
4. L'analisi dei genomi
La genetica e la prima genomica hanno raggiunto il loro culmine nel decennio 1990-2000, con l'avvio, l'esecuzione e la conclusione del cosiddetto Progetto genoma, un gigantesco progetto di collaborazione internazionale il cui obiettivo era originariamente quello di catalogare tutti i geni della specie umana e di posizionarli sui rispettivi cromosomi. Per raggiungere questo scopo si è prima costruita una mappa a grana grossa dei vari cromosomi umani e successivamente ci si è imbarcati nell'impresa di determinare l'intera sequenza dei tre miliardi di basi che compongono il DNA genomico della nostra specie. Tale impresa è stata preceduta dalla determinazione della sequenza di genomi più piccoli e verrà presto seguita da un'analoga determinazione per genomi comparabili al nostro o addirittura più grandi, come quello di alcuni cereali. Tra i genomi già analizzati in dettaglio spiccano quelli di un certo numero di batteri (qualche milione di basi corrispondenti a qualche migliaio di geni), del lievito di birra Saccharomyces cerevisiae (12 milioni di basi per circa 7.000 geni; v. Goffeau e altri, 1996), del plasmodio della malaria Plasmodium falciparum (23 milioni di basi per circa 5.000 geni; v. Gardner e altri, 2002), del nematode Caenorhabditis elegans (97 milioni di basi per circa 20.000 geni; v. The C. elegans Sequencing Consortium, 1998), della pianticella Arabidopsis thaliana (140 milioni di basi per 27.000 geni; v. The Arabidopsis Genome Initiative, 2000), del moscerino dell'aceto Drosophila melanogaster (180 milioni di basi corrispondenti a 13.500 geni; v. Adams e altri, 2000), della zanzara Anopheles gambiae (300 milioni di basi per circa 14.000 geni; v. Holt e altri, 2002) e di due varietà di riso Oryza sativa (400-450 milioni di basi per circa 50.000 geni; v. Goff e altri, 2002; v. Yu e altri, 2002). Sono in via di completamento i genomi del topo (v. Mouse Genome Sequencing Consortium, 2002), leggermente più piccolo di quello umano, dello scimpanzé e del pesce Fugu rubripes, e altri sono in lista d'attesa, tra i quali spiccano i genomi del ranocchio Xenopus, sul quale sono stati compiuti molti studi di biologia dello sviluppo, del pollo, del cane, della mucca, del grano, dell'orzo e del mais.
L'impresa viene portata a termine per passi successivi, cosa che disorienta un po' i non addetti ai lavori. In un primo momento si completa la sequenza del DNA di un gran numero di frammenti parziali che coprono buona parte del genoma dell'organismo in questione, ma lasciano qua e là delle lacune irrisolte. In un secondo tempo si provvede a colmare queste lacune e si arriva a determinare, cromosoma per cromosoma, la sequenza ininterrotta del DNA. A questo punto la determinazione della sequenza è completata. Ciò significa che la sequenza di un gene è definitivamente stabilita: ogni volta che sarà necessario, basterà andare a cercare nella banca dati del genoma la sequenza del frammento di DNA corrispondente e copiarla. Questo non vuol dire però che si sappia leggere direttamente questo testo e che sia possibile comprendere il significato delle sue diverse regioni. Per raggiungere questo scopo ci vogliono anni e anni e non è possibile utilizzare procedure automatizzate. Occorrono ingegno, inventiva e l'impiego di tecniche molto avanzate, alcune delle quali sono già state messe a punto e verranno esaminate in seguito, mentre altre devono ancora essere ideate.
Attualmente, la genomica si propone di individuare sempre nuovi geni, partendo dallo studio di caratteristiche biologiche, normali o patologiche, alle quali quelli saranno direttamente o indirettamente collegati, e di scoprire la funzione e il meccanismo d'azione del più alto numero possibile di geni, individuati come sopra o semplicemente scorrendo la sequenza del genoma. Si può cioè cercare un gene sulla base della sua ipotetica funzione o, al contrario, cercare la funzione di un ipotetico gene. La ricerca della funzione di uno o più geni già individuati prende il nome specifico di 'genomica funzionale' e non è difficile prevedere che questa costituirà l'impegno primario dei laboratori di ricerca del futuro. Poiché il prodotto finale dei geni sono le proteine, secondo alcuni l'ideale completamento della genomica e la vera scienza del futuro sarà la proteomica (v. Koonin e altri, 2002), vale a dire lo studio della struttura, della funzione e delle reciproche interazioni del più alto numero possibile di proteine (v. proteomica, vol. XIII).
a) Individuazione dei geni
I metodi usati per individuare un gene responsabile, per esempio, di una particolare malattia ereditaria non sono diversi da quelli usati negli ultimi anni dalla genetica, e segnatamente il clonaggio per posizione e la procedura detta del 'gene candidato'. Di volta in volta si segue l'una o l'altra via, a seconda delle conoscenze di cui si dispone, e talvolta si adotta una strategia mista. Per clonaggio di posizione s'intende una procedura che porta all'individuazione e all'isolamento di un gene sulla base della conoscenza della sua posizione all'interno del genoma. Si tratta in primo luogo di approfittare di un qualsiasi indizio per restringere la regione cromosomica, o meglio genomica, nella quale il nostro gene può venire a trovarsi. Spesso però non si può contare su alcun indizio a priori riguardo alla localizzazione del gene che si sta cercando ed è necessario allora intraprendere una ricerca a tutto campo per scoprire in quale parte del genoma esso si trovi; a tale scopo vengono spesso utilizzate le cosiddette 'sequenze segnaposto', ossia sequenze di DNA anonime e in genere prive di funzione che si succedono lungo il genoma con una certa regolarità (v. Lyon, 2002). Ciascuna di queste deve essere stata precedentemente localizzata all'interno del corrispondente cromosoma e possedere un certo numero di forme alleliche, in modo che se ne possa seguire la trasmissione nelle generazioni. Si tratta di marcatori genomici che si possono seguire sul genotipo, anche se non sul fenotipo. Più fitta è la rete di queste sequenze segnaposto, più dettagliata sarà la localizzazione di ogni sequenza a esse associata. È sufficiente seguire come vengono ereditati la caratteristica biologica o il difetto congenito che si vogliono studiare in relazione alla distribuzione delle sequenze segnaposto nei vari individui: la sequenza che viene ereditata più di frequente insieme con la nostra caratteristica o con il nostro difetto ereditario, sarà quella alla quale il gene che stiamo cercando sarà più vicino.
Anche quando si sarà così localizzato il gene, ci si troverà davanti a una regione genomica che contiene un certo numero di geni. Moltissime sono le strategie per arrivare a individuare qual è quello che ci interessa e non esiste una regola. Ci si può orientare, per esempio, partendo dalla struttura dei geni presenti in quella regione: se si ha motivo di ritenere che il gene codifichi una proteina destinata a essere secreta dalla cellula, si cercherà tra i geni presenti in quella regione quello che soddisfa tale requisito. Oppure ci si può basare sulla localizzazione dei prodotti dei vari geni candidati: se ci sono buone ragioni per ritenere che il gene sia attivo nel fegato, verrà verificato quale dei geni candidati è attivo nel fegato. Oppure possiamo basarci sull'assenza del prodotto di uno di questi geni nei tessuti degli individui affetti dal difetto genetico che ci interessa. Il gene così individuato deve comunque soddisfare un requisito fondamentale: deve essere mutato negli individui affetti e normale negli individui normali, anche se imparentati con i primi. Se si riescono a caratterizzare anche un certo numero di mutazioni diverse, si può veramente affermare di aver compreso sia la fisiologia che la patologia di quel gene. Non sono ancora moltissimi i geni per i quali è stato possibile raggiungere questo traguardo, ma il loro numero sta aumentando di giorno in giorno. Questo viaggio di andata e ritorno, dalla malattia al gene e da questo di nuovo alla malattia, incarna l'essenza della nuova genetica e del suo formidabile sforzo per comprendere in profondità l'azione dei geni, nella normalità come nella patologia.
Quando non è disponibile alcun indizio sulla localizzazione del gene da individuare, si ricorre alla strategia del gene candidato. In questo caso la base di partenza è soltanto la conoscenza della probabile natura e distribuzione del suo prodotto; in sostanza, viene cercato un gene che codifichi una proteina che possieda tali caratteristiche. Nella realtà, la maggior parte dei geni viene oggi identificata seguendo una procedura ancora diversa: si isola un frammento di DNA che si ritiene contenga una sequenza genica e se ne studia la natura e la distribuzione del prodotto. Sulla base di queste informazioni si cerca di immaginare quale effetto potrebbe avere una mutazione in questo gene, e molto spesso sarà anche possibile individuare un difetto genetico che corrisponde almeno in parte a questi criteri; infine si cerca di dimostrare che questo gene è effettivamente mutato nei portatori di tale difetto genetico. Con questa procedura si individuano ogni giorno nuovi geni e di frequente, anche se non sempre, viene identificato un difetto genetico causato da una loro mutazione.
b) Analisi dei prodotti genici
Per portare a termine un'impresa del genere e, più in generale, per studiare la funzione di un dato gene, occorre poter contare su un certo numero di tecniche, come ad esempio quelle utilizzate per determinare la quantità e la distribuzione dei prodotti genici. La proteina prodotta da un determinato gene può essere individuata, sia all'interno della cellula che nell'organismo che si vuole studiare, se è disponibile un anticorpo che la riconosce specificamente. Marcando questo anticorpo con sostanze radioattive o con coloranti se ne può facilmente seguire la localizzazione. Molto spesso però lo studio sarà rivolto a individuare, almeno in prima istanza, non la proteina, ma il prodotto immediato dell'attività genica, vale a dire l'RNA messaggero.
Per visualizzare l'RNA messaggero di un dato gene viene utilizzata la tecnica dell'ibridazione molecolare, che è basata sull'osservazione che corti frammenti di DNA o di RNA si associano in maniera stabile soltanto con frammenti di sequenza identica o molto simile. Adoperando come frammento-sonda, marcato radioattivamente o con un colorante, un frammento del gene da studiare può essere individuato il corrispondente RNA, sia su un filtro di carta sia direttamente sui tessuti di un organismo adulto o di un embrione. Per scoprire se un certo RNA è presente in un dato tipo di cellule o di tessuti, l'RNA estratto da questi viene fissato su un filtro di carta che viene poi immerso in una soluzione appropriata contenente il frammento-sonda; dato che questo si legherà preferenzialmente alle molecole di RNA messaggero corrispondenti al gene in questione, si riuscirà a sapere se in quelle cellule è presente l'RNA ricercato, quanto è lungo e quanto è abbondante. Tutte le cellule dello stesso organismo contengono gli stessi geni, ma in cellule diverse sono attivi (cioè producono il loro RNA messaggero) geni diversi. Si dà oggi il nome di trascrittoma all'insieme degli RNA prodotti, cioè trascritti, da una determinata cellula in una specifica fase del suo ciclo vitale. In un certo senso, la conoscenza del trascrittoma di una cellula o di un tessuto è ancora più importante di quella del loro genoma.
Si può anche eseguire un'ibridazione su tessuti, allo scopo di localizzare l'RNA all'interno dei tessuti di un intero organismo. In questo caso, l'organismo oggetto di studio viene sezionato in fettine sottilissime che sono quindi immerse in una soluzione appropriata contenente i frammenti-sonda che interessano. Questi andranno a localizzarsi in prevalenza su quelle cellule in cui si trova una certa quantità del corrispondente RNA messaggero, le quali emetteranno un forte segnale, radioattivo o colorato, che sarà invece assente in tutte le altre. Si potrà così ottenere un'immagine della distribuzione nello spazio e nel tempo del messaggero del gene in questione.
Oggi è possibile studiare l'attività di molti geni allo stesso tempo. Per raggiungere questo scopo, l'RNA estratto da una cellula o da un tessuto viene depositato su un chip al silicio in modo che occupi una superficie piccolissima: un chip di 1 centimetro di lato può contenere gli RNA estratti da quarantamila fonti diverse. Immergendo poi il chip nel bagno contenente il frammento-sonda che ci interessa, si potrà osservare se il corrispondente RNA è presente, e in che misura, in tutti questi diversi RNA. Un robot preleva i vari campioni, li deposita in maniera ordinata sul chip e conduce l'analisi finale, cioè la valutazione quantitativa dei risultati ottenuti. Il robot dovrà leggere con assoluta precisione un altissimo numero di macchioline presenti in uno spazio molto ristretto e quantificare l'intensità di ciascuna di esse. È così possibile condurre un'analisi in parallelo dell'espressione di un gene in molti tessuti diversi.
È possibile anche analizzare l'espressione di molti geni diversi nella stessa cellula o nello stesso tessuto. In questo caso sul chip non si mettono gli RNA estratti da molte fonti diverse, bensì i frammenti di DNA di molti geni diversi e si usa come sonda la totalità dell'RNA estratto da una cellula o da un tessuto, cioè il suo trascrittoma, reso preventivamente radioattivo o colorato. Questo esperimento è il simmetrico del precedente: si analizza l'RNA di una sola cellula e vi si cerca l'eventuale espressione di molti geni diversi. Perché un tale esperimento abbia senso, occorre che i geni del genoma che vogliamo studiare siano stati tutti preventivamente distribuiti, uno per uno, in un numero altissimo di tubicini che vengono conservati in maniera ordinata. Questa tecnica - chiamata indagine per microchip, per biochip o più spesso per microarray (v. Eisen e Brown, 1999) - permette di analizzare moltissimi geni di cui non si conosce l'identità e la natura, in quanto non è necessario sapere quale gene è stato depositato nella tale macchiolina, ma solo che in quella macchiolina c'è il DNA prelevato dal robot, tanto per fare un esempio, dal tubicino 32H48. Su ogni chip sono stati infatti depositati ordinatamente, cioè in modo da formare un reticolato (array), un certo numero di frammenti di DNA prevalentemente distribuiti in microprovette diverse. Dopo aver immerso il chip in un bagno contenente l'RNA estratto, ad esempio, da una cellula di fegato, si va a osservare a quali macchioline questo si è legato, che rappresentano altrettanti geni che sono attivi in quella cellula in quel particolare momento della sua vita, mentre le macchioline negative rappresentano geni che non sono attivi in quella cellula in quel momento. Tale metodologia è particolarmente utile per individuare e studiare i diversi geni che determinano collettivamente un particolare carattere multifattoriale, normale o patologico, un tipo di ricerca per il quale non sono disponibili molte altre metodiche di carattere generale.
Questa metodica consente applicazioni ancora più interessanti e più nuove, ad esempio un confronto globale fra tutti i geni attivi in una cellula e quelli attivi in un'altra. Consideriamo ad esempio una cellula in cultura prima e dopo la sua trasformazione in una cellula tumorale: trattandosi dello stesso tipo di cellula, ci aspettiamo che la maggior parte dei geni attivi (o inattivi) in uno stato siano attivi (o inattivi) anche nell'altro. I geni che mostreranno una diversa attività nella cellula prima e dopo la sua trasformazione tumorale saranno quindi probabilmente quelli più o meno direttamente connessi con il fenomeno del cancro. Tutto ciò può essere studiato procedendo alla cieca, cioè senza sapere in anticipo di quali geni stiamo parlando. La stessa procedura può essere usata per studiare altri fenomeni: ad esempio, per fare l'inventario dei geni che sono attivati o disattivati da un determinato gene regolatore; in questo caso si paragonerà l'espressione del maggior numero possibile di geni in una cellula dove è stato appena attivato il gene regolatore in questione con l'espressione genica della stessa cellula prima dell'attivazione. Questo tipo di analisi, che è della massima importanza se si vogliono capire i meccanismi della regolazione e della programmazione biologica, era impossibile prima che fossero disponibili queste nuove metodologie.
c) Studio della funzione: la genomica funzionale
Conoscere la sequenza di un gene e la distribuzione dei suoi prodotti genici non significa conoscerne la funzione. Raggiungere tale obiettivo richiede ingegno e molto impegno da parte del ricercatore, il quale, peraltro, fortunatamente può oggi contare su strumenti di indagine sempre più potenti per scoprire la funzione di un gene, o almeno la sua funzione preminente. Per esempio è possibile produrre un organismo nel quale tale gene sia stato soppresso o parzialmente inattivato. Uno dei più grossi successi della biologia degli ultimi vent'anni è rappresentato dalla produzione dei cosiddetti organismi transgenici, animali o piante che portano inserito nel loro genoma un gene estraneo, detto transgene. Il gene può essere inserito in aggiunta a quelli già presenti nell'animale oppure in sostituzione di uno di essi. Con questa tecnica si possono produrre animali che hanno qualcosa in più, ma anche animali che hanno qualcosa in meno. Particolarmente utili si sono rivelati i topi transgenici, specie i cosiddetti topi knock-out, ossia topi nel cui genoma si è distrutto volontariamente un certo gene. Lo scopo è quello di studiare l'effetto della mancata funzione di un gene, anche in assenza di mutanti naturali, che nei Mammiferi non sono mai in numero sufficiente. Con questa metodologia sono stati prodotti diversi ceppi di topi nei quali sono stati eliminati di volta in volta i geni dell'huntingtina, della fibrosi cistica, delle varie forme di distrofia muscolare o del ritardo mentale legato all'X fragile. È stato perfino prodotto un moscerino con la sindrome di Parkinson. Grazie ai progressi della genomica è oggi possibile inserire nel genoma di un topo anche grandi frammenti di DNA contenenti un certo numero di geni diversi. Con una combinazione di queste metodiche si possono ottenere animali affetti da una malattia, genetica o meno, affine a una malattia umana. In questi casi si usa dire che è stato prodotto un adeguato 'modello animale' di questa o quella malattia. L'utilità di questi modelli animali è abbastanza ovvia, in quanto sull'animale possono agevolmente essere condotte molte analisi i cui risultati sono spesso trasferibili all'uomo.
5. Le prospettive
La genomica ha gli stessi obiettivi e lo stesso campo di applicazione della genetica, ma può contare su strumenti e metodi più potenti o interamente nuovi. Basandoci su quanto è successo negli anni passati possiamo chiederci quali siano le prospettive di questa disciplina. In prima battuta si tratterà di completare l'inventario e la caratterizzazione dei geni che conosciamo abbastanza bene e di quelli che sono con loro strettamente imparentati. I primi geni a essere individuati e studiati sono stati quelli che possono causare malattie ereditarie gravi, come la talassemia, l'emofilia e le varie deficienze immunitarie congenite, ma anche molto meno gravi, come l'albinismo o il daltonismo. Si tratta di disordini ereditari relativamente diffusi che dipendono dalla disfunzione di un solo gene e che abbiamo chiamato monofattoriali. È stata poi la volta dei geni che possono portare a malattie ereditarie monofattoriali più rare o rarissime. Sono stati infine individuati alcuni geni ai quali non corrisponde alcuna malattia ereditaria nota al momento, ma che sono stati identificati come responsabili di alcune funzioni biologiche fondamentali, quali la replicazione e la respirazione cellulare, la digestione e via discorrendo. Procedendo in questa maniera si è giunti a caratterizzare diverse centinaia di geni, anche se non di tutti conosciamo in dettaglio la funzione. A questi possiamo aggiungere quelli che hanno una struttura simile, per quanto non sia detto che abbiano anche una funzione simile, e altri ancora che si presume esistano dal momento che sono stati già individuati in altre specie viventi.
Non tutte le nostre caratteristiche biologiche, patologiche o meno, dipendono dall'azione di un singolo gene. Anzi, la stragrande maggioranza delle nostre caratteristiche personali - dall'altezza alla forma del naso e degli orecchi, dal ritmo cardiaco alla pressione sanguigna, dall'intelligenza alla perseveranza - dipendono dall'azione combinata di molti geni e dalla loro interazione con l'ambiente in cui viviamo. Lo stesso si può dire di molte malattie dal carattere genetico più sfumato - tra le quali il diabete, l'ipertensione, l'asma, il ritardo mentale, la labilità psicologica, l'emicrania, l'epilessia, la predisposizione alle malattie cardiocircolatorie, allo sviluppo di allergie di vario tipo, al decadimento senile e ai vari tipi di tumori - che sono molto più diffuse di quelle monofattoriali. Un capitolo fondamentale delle ricerche future riguarderà appunto l'individuazione di quanti e quali siano i geni che cooperano alla determinazione di ciascuno di questi tratti biologici, detti multifattoriali (v. Nadeau, 2001). Il progetto che mira a definire la base genetica dei tratti multifattoriali è solo all'inizio, ma presto si svilupperà fino a dare frutti che riusciamo a mala pena a immaginare. Si tratterà in sostanza di fare l'inventario dei geni che cooperano a determinare in tutti gli esseri umani quella particolare forma del naso, delle mani, della bocca, oppure la presenza dei capelli e della barba, invece che del pelo su tutto il corpo, come hanno le scimmie, per non parlare della capacità di imparare e usare un linguaggio articolato o di utilizzare espressioni simboliche. Non possiamo che attendere con ansia il momento in cui alcuni di questi problemi cominceranno a essere risolti, consentendoci di avere una migliore conoscenza di noi stessi e della nostra particolare visione del mondo.
bibliografia
Adams, M. D. e altri, The genome sequence of Drosophila melanogaster, in "Science", 2000, CCLXXXVII, pp. 2185-2195.
Eisen, M. B., Brown, P. O., DNA arrays for analysis of gene expression, in "Methods in enzymology", 1999, CCCIII, pp. 179-205.
Gardner, M. J. e altri, Genome sequence of the human malaria parasite Plasmodium falciparum, in "Nature", 2002, CDXIX, pp. 498-511.
Goff, S. e altri, A draft sequence of the rice genome (Oryza sativa L. ssp. japonica), in "Science", 2002, CCXCVI, pp. 92-100.
Goffeau, A. e altri, Life with 6000 genes, in "Science", 1996, CCLXXIV, pp. 546-567.
Holt, R. A. e altri, The genome sequence of the malaria mosquito Anopheles gambiae, in "Science", 2002, CCXCVIII, pp. 129-149.
Koonin, E. V., Wolf, Y. I., Karev, G. P., The structure of the protein universe and genome evolution, in "Nature", 2002, CDXX, pp. 218-223.
Lander, E. S., Initial sequencing and analysis of the human genome, in "Nature", 2001, CDIX, pp. 860-921.
Lettice, I. A. e altri, Disruption of a long-range cis-acting regulator for Shh causes preaxial polydactyly, in "Proceedings of the National Academy of Sciences", 2002, XCIX, pp. 7548-7553.
Lyon, M. F., A personal history of the mouse genome, in "Annual review of genomics and human genetics", 2002, III, pp. 1-16.
Mouse Genome Sequencing Consortium, Initial sequencing and comparative analysis of the mouse genome, in "Nature", 2002, CDXX, pp. 521-562.
Nadeau, J. H., Modifier genes in mice and humans, in "Nature reviews genetics", 2001, II, pp. 165-181.
The Arabidopsis Genome Initiative, Analysis of the genome sequence of the flowering plant Arabidopsis thaliana, in "Nature", 2000, CDVIII, pp. 796-815.
The C. Elegans Sequencing Consortium, Genome sequence of the nematode C. elegans: a platform for investigating biology, in "Science", 1998, CCLXXXII, pp. 2012-2018.
Venter, J. C., The sequence of the human genome, in "Science", 2001, CCXCI, pp. 1304-1351.
Yu, J. e altri, A draft sequence of the rice genome (Oryza sativa L. ssp. indica), in "Science", 2002, CCXCVI, pp. 1-91.