Genoma
Sommario: 1. Definizioni. 2. Costituzione del genoma nucleare. 3. Il Progetto Genoma. a) Premesse storiche. b) iI nuovo Progetto. 4. Le basi tecnologiche del Progetto. a) La conoscenza della dinamica degli acidi nucleici. b) Gli enzimi di restrizione. c) II clonaggio di frammenti di DNA. d) PCR (Polymerase Chain Reaction). e) Polimorfismi del DNA. 5. Le mappe del DNA. 6. Mappe citogenetiche. 7. Mappe genetiche. a) Identificazione dei polimorfismi. b) L'uso delle mappe genetiche. 8. Mappe fisiche. a) Generalità. b) Tipi di mappe. c) La mappa dei cloni linking. d) L'integrazione delle mappe. e) Dimostrazione di uguaglianze o differenze tra genomi. 9. Alla ricerca dei geni. a) Caratteristiche monogeniche. b) Strategie di ricerca delle caratteristiche monogeniche. c) Caratteristiche genetiche complesse. 10. La scoperta di geni sconosciuti. a) Identificazione di geni tramite il sequenziamento. b) Identificazione di geni tramite i messaggeri. c) Identificazione di geni tramite le isole CpG. 11. L'organizzazione del genoma. a) L'organizzazione dei cromosomi. b) L'organizzazione delle sequenze del DNA. c) Le sequenze codificanti; le regioni di controllo. d) Gruppi di geni. e) Le sequenze non codificanti; le sequenze ripetute. f) Centromeri e telomeri. g) La cromatina. 12. La replicazione del genoma. 13. I genomi di mitocondri e cloroplasti. □ Bibliografia.
1. Definizioni
La parola ‛genoma' - che indica l'insieme dei geni di un organismo - ha un doppio significato: da una parte definisce l'informazione contenuta nei geni, che è responsabile dello sviluppo e del funzionamento dell'organismo; dall'altra parte si riferisce alla struttura chimica in cui detta informazione è iscritta, cioè l'acido desossiribonucleico, o DNA. Le due definizioni non sono equivalenti, perché il DNA è solo in parte formato da geni: esiste infatti un DNA ‛extragenico', che non contiene geni. Il rapporto tra DNA genico e DNA totale di un organismo varia molto: si stima che nell'uomo sia solo del 3% e che nel pesce Fugu rubripes, per esempio, possa essere circa del 70%. Discuteremo in seguito la ragione di queste differenze (v. cap. 3, § b).
È anche necessario sottolineare come nelle cellule degli Eucarioti (cioè provviste di nucleo) ci siano due o tre genomi distinti: il maggiore, il ‛genoma nucleare', è presente nel nucleo delle cellule; il ‛genoma mitocondriale', invece, è presente nei mitocondri contenuti nel citoplasma delle cellule; nelle piante esiste un ‛genoma cloroplastico', contenuto nei cloroplasti citoplasmatici. I genomi mitocondriale e cloroplastico, responsabili delle trasformazioni di energia, sono molto più piccoli di quello nucleare, che è responsabile dello sviluppo della maggior parte delle funzioni dell'organismo. Ci occuperemo ora del genoma nucleare; gli altri due saranno considerati in seguito (v. cap. 13).
2. Costituzione del genoma nucleare
Il genoma nucleare è costituito da segmenti separati di DNA noti come cromosomi, riconoscibili durante la metafase della mitosi, il cui numero varia a seconda della specie. I Batteri e molti virus hanno un solo cromosoma, mentre gli organismi eucarioti ne hanno generalmente più di uno: per esempio, Drosophila melanogaster (il moscerino della frutta) ne ha 8, l'uomo 46. Negli Eucarioti, i cromosomi sono presenti in coppie, i cui elementi derivano l'uno dal padre, l'altro dalla madre; gli elementi di ogni coppia sono essenzialmente uguali e contengono gli stessi geni (però con possibili differenze nei dettagli), a eccezione del paio di cromosomi responsabili della determinazione del sesso, designati come X e Y. Poiché le varie coppie di cromosomi costituiscono un genoma doppio, gli organismi con cromosomi appaiati sono detti diploidi, mentre il singolo genoma è detto aploide; quindi il genoma aploide di Drosophila è costituito da 4 cromosomi, quello umano da 23. In genere, con il termine genoma si suole indicare un genoma aploide, nel quale i cromosomi sono numerati secondo l'ordine decrescente della loro lunghezza durante la metafase: il cromosoma 1 è pertanto il più lungo.
Il numero di geni nei diversi genomi, sconosciuto nella quasi totalità dei casi, può variare molto: alcuni virus, che per le loro funzioni vitali utilizzano i geni delle cellule ospiti, hanno solo tre o quattro geni, organismi complessi come i Mammiferi (incluso l'uomo) posseggono invece circa 70.000 geni (v. Fields e altri, 1994). La presenza di un gene può essere dedotta o da una funzione specifica (per esempio, la formazione di una proteina nota), oppure da una malattia ereditaria che si manifesta in individui in cui quel gene è alterato.
Come si è detto, il genoma è costituito da DNA, una molecola filiforme molto lunga formata da una sequenza di basi in cui è iscritta l'informazione dei geni, necessaria a produrre due tipi di molecole fondamentali per la cellula, l'RNA e le proteine. Per poter essere utilizzata, l'informazione di un gene deve essere prima trasferita a un RNA, una molecola molto simile al DNA, che usa essenzialmente lo stesso ‛linguaggio'; per questa ragione il trasferimento è indicato come ‛trascrizione'. Mentre per alcuni geni l'RNA rappresenta il prodotto finale, l'informazione della maggioranza dei geni viene ulteriormente elaborata, dando luogo alla formazione di una proteina. Siccome il linguaggio del DNA (o dell'RNA) dispone solo di quattro basi, mentre quello delle proteine utilizza venti amminoacidi, quest'ultimo trasferimento è indicato come ‛traduzione': esso avviene secondo un codice, il codice genetico, in cui a una tripletta di basi corrisponde un amminoacido oppure un segnale (per esempio, di inizio o di arresto della traduzione).
3. Il Progetto Genoma
a) Premesse storiche
L'interesse per i geni è sempre stato vivo sin da quando fu dimostrata la loro esistenza, cioè poco dopo l'inizio del XX secolo. Il loro studio fu dapprima possibile solo in organismi molto semplici - quali Drosophila, certi batteri, virus che si moltiplicano nei Batteri (batteriofagi) - nei quali i geni venivano individuati studiando gli improvvisi cambiamenti (mutazioni) di qualche caratteristica che avvengono o spontaneamente oppure a causa di determinati agenti, per esempio radiazioni ionizzanti, che, come si è scoperto in seguito, danneggiano il DNA (v. genetica, voll. III, VIII e X). Per localizzare un gene su un determinato cromosoma oppure in una certa regione del genoma venivano poi utilizzati gli incroci tra ceppi che presentavano differenze morfologiche nei cromosomi, oppure, negli scambi genetici tra Batteri, si determinava il tempo necessario al gene per penetrare nella cellula ospite durante il trasferimento del genoma da una cellula all'altra. Con questi mezzi fu possibile determinare l'ordine di un certo numero di geni in alcuni genomi. L'osservazione dei cromosomi ‛politenici', anche noti come cromosomi giganti, presenti nelle ghiandole salivari di Drosophila, fu di grande aiuto: risultando da circa dieci duplicazioni del DNA in assenza di mitosi, questi cromosomi contengono ciascuno circa un milione di copie, tutte perfettamente allineate, le quali formano un gran numero di bande caratteristiche (circa 5.100) che servono come punti di riferimento.
Nei Mammiferi alcuni geni vennero scoperti per effetto di mutazioni e attribuiti a certi cromosomi in base ai risultati di incroci. Questo indirizzo, il cui scopo era invero molto limitato, permise di documentare nell'uomo, principalmente in base allo studio di malattie ereditarie prodotte da mutazioni, l'esistenza di migliaia di geni, parecchie centinaia dei quali vennero localizzate sui cromosomi.
A partire dagli anni cinquanta, lo sviluppo dell'oncologia sperimentale rese possibile un nuovo approccio: lo studio dei virus che inducono tumori in animali da esperimento portò alla scoperta di geni dominanti, chiamati ‛oncogeni', che avviano il processo neoplastico (v. Bishop, 1987), mentre la successiva osservazione che le leucemie sono spesso causate da una traslocazione che dà origine a un oncogene (v. Haluska e Croce, 1987) consentì di scoprire geni simili sia negli animali che nell'uomo. Si scoprì anche l'esistenza di geni ‛soppressori' del cancro, geni recessivi che ostacolano l'insorgenza o la progressione verso la malignità delle neoplasie (v. Knudson, 1986). Entrambi i tipi di geni vennero isolati attraverso lo studio sia dei virus o delle traslocazioni, sia delle alterazioni cromosomiche che rivelavano l'esistenza dei geni soppressori.
L'esperienza acquisita nello studio dei geni, malgrado abbia consentito la scoperta di un numero relativamente piccolo di essi, è stata di grande utilità nel dimostrare che per identificare un gene occorre una guida: tale guida può essere rappresentata dalla proteina specificata dal gene (nel caso dei geni delle globine), oppure da una struttura nota (come per gli oncogeni e i geni soppressori). Ne è derivata l'esigenza di disporre di un metodo più generale per scoprire i geni, basato sull'impiego di guide di altra natura, di applicazione più ampia.
b) Il nuovo Progetto
Questa considerazione portò, attraverso una serie di stadi, a formulare un progetto di ampio respiro, che divenne noto come Progetto Genoma. L'idea originale (v. Dulbecco, 1986) si basava sulla necessità di conoscere in dettaglio i geni responsabili della malignità dei tumori in stadi avanzati; ma rapidamente il Progetto si prefisse una meta molto più ambiziosa, includendo la scoperta di tutti i geni.
Il timore iniziale che la maggior parte dei fondi destinati alla ricerca biomedica sarebbe stata assorbita dallo sviluppo del Progetto, un timore che aveva dato origine ad ampie discussioni sulla sua effettiva utilità, cadde ben presto, in quanto fu possibile dimostrare l'esiguità della cifra effettivamente necessaria, di poco superiore all'1% dei fondi disponibili per ricerche biomediche. Le obiezioni di natura etica relative all'eugenetica e alla preoccupazione che la conoscenza dei geni possa portare a forme di discriminazione, peraltro generalmente fondate, non erano comunque motivate nelle prime fasi del Progetto: vi era infatti tutto il tempo di prepararsi ad affrontare queste problematiche in una fase successiva.
La rapida estensione del Progetto dal genoma umano ad altri genomi fu giustificata dalle notevoli somiglianze di molti geni in specie diverse, anche molto lontane: per esempio, i geni che controllano il ciclo cellulare sono molto simili in tutte le specie eucariote, dal lievito all'uomo. Le possibilità di studio più favorevoli sono offerte dagli organismi semplici, nei quali è molto più agevole isolare geni e progettare la sperimentazione perché hanno genomi più piccoli; la conoscenza dei loro geni, poi, può portare direttamente all'identificazione dei geni umani corrispondenti. Tra gli organismi inclusi nel Progetto si trovano il batterio Escherichia coli, il nematode Caenorhabditis elegans, il moscerino Drosophila melanogaster e il pesce Fugu rubripes, i cui genomi sono rispettivamente di 4,7, 100, 165 e 400 Mb (megabasi o milioni di basi), mentre quello dell'uomo è di 3.000 Mb. L'identificazione di geni nel genoma umano è di estrema difficoltà, sia perché è molto grande, sia perché contiene anche un'alta percentuale (circa il 97%) di sequenze non geniche; in certe specie (quali Fugu o C. elegans), invece, i geni costituiscono la maggioranza delle sequenze. Tuttavia per certi scopi, per esempio per l'identificazione di geni attraverso lo studio delle malattie ereditarie, il genoma umano è il più adatto, perché la patologia è conosciuta nell'uomo molto più che in altre specie.
Quando tra il 1988 e il 1990 cominciarono a nascere i progetti nazionali - una dozzina, incluso quello italiano (v. Dulbecco, 1990) - fu subito evidente la necessità che il Progetto avesse un carattere internazionale, in considerazione del significato universale dei geni, ma non fu possibile stabilire una regolamentazione del lavoro da svolgere nei vari paesi. Una pianificazione di questo tipo venne adottata negli Stati Uniti, dove si crearono vari centri dedicati ciascuno allo studio dei geni di un certo cromosoma; essa risultò di grande utilità nella fase organizzativa dell'infrastruttura necessaria alla scoperta dei geni, ma quando questa fu sufficientemente sviluppata prevalse l'interesse per il ruolo funzionale dei geni, indipendentemente dalla loro localizzazione nel genoma, cosicché il piano originale ha recentemente perduto parte del suo valore (v. Collins e Galas, 1993).
In un primo tempo il Progetto, seguendo la tradizione della genetica umana, fu diretto principalmente alla scoperta e all'isolamento di geni responsabili di malattie ereditarie, ma successivamente l'obiettivo della ricerca mutò e i geni vennero studiati soprattutto per individuarne il ruolo biologico.
4. Le basi tecnologiche del Progetto
Il progetto fu reso possibile dai grandi progressi precedentemente conseguiti sia nel campo della genetica sia in quello della biologia molecolare, tra i quali alcuni di particolare importanza (v. biologia molecolare, vol. VIII; v. biotecnologie, voll. VIII e X).
a) La conoscenza della dinamica degli acidi nucleici
È noto che il DNA è un filamento elicoidale a doppia catena, mentre l'RNA è a catena singola. Le due catene del DNA possono essere separate con un processo detto ‛denaturazione', nel quale si spezzano i legami a idrogeno che tengono insieme le varie coppie di basi aumentando la temperatura fino a un livello che dipende sia dalla composizione del mezzo contenente il DNA che da quella del DNA stesso. Il processo opposto è la ‛rinaturazione', che avviene spontaneamente quando la soluzione contenente le due catene complementari viene raffreddata. Questi cambiamenti sono alla base del processo di ‛ibridazione', nel quale un segmento di DNA o di RNA di sequenza nota viene usato come ‛sonda', mescolandolo a un DNA o a un RNA di cui si cerca d'identificare una sequenza omologa; la miscela viene prima denaturata, quindi, nella successiva rinaturazione, si formano doppie eliche ibride, costituite da una catena della sonda e da una del DNA o dell'RNA in esame, che identificano la regione di omologia. Il processo può svolgersi in soluzione oppure su catene attaccate a un supporto, o anche in cellule opportunamente fissate (ibridazione in situ).
b) Gli enzimi di restrizione
Gli enzimi di restrizione sono delle endonucleasi in grado di tagliare il DNA in corrispondenza di determinate sequenze palindromiche (i cosiddetti ‛bersagli') di varia lunghezza (da 4 a 10 basi) e di differente composizione. Trattando il DNA con questi enzimi si individua un certo numero di frammenti, detti ‛frammenti di restrizione', con una combinazione di lunghezze che è caratteristica di ciascun DNA e che perciò viene usata, analogamente alle impronte digitali di un individuo, come DNA fingerprinting (v. genetica: Applicazioni della genetica, vol. X). I frammenti contengono una metà del bersaglio a un'estremità e l'altra metà a quella opposta. La lunghezza media dei frammenti dipende dal numero delle basi che formano il bersaglio, variando da poche centinaia di nucleotidi per i bersagli a quattro basi, a circa un milione per quelli a dieci basi. Alcuni enzimi perdono la capacità di tagliare un bersaglio che abbia una base metilata e tale caratteristica trova importanti applicazioni (v. cap. 10, § c).
Molti enzimi di restrizione producono frammenti nei quali le due catene complementari, sebbene siano della stessa lunghezza, non terminano nello stesso punto, ma alle due estremità una delle catene sporge di alcune basi, in modo simmetrico. Questa proprietà è sfruttata per unire frammenti diversi prodotti dallo stesso enzima, perché, data la simmetria dei frammenti, l'estremità dell'uno si ibrida all'estremità opposta dell'altro, riformando la sequenza bersaglio. Per esempio, il bersaglio dell'enzima EcoRI,
5′ - - - G A A T T C - - - 3′
3′ - - - C T T A A G - - - 5′
quando è tagliato produce i due frammenti
5′ - - - G 3′ 5′ A A T T C - - - 3′
3′ - - - C T T A A 5′ 3′ G - - - 5′
che possono riunirsi grazie alla complementarità delle basi; la loro unione può essere stabilizzata dall'azione dell'enzima ligasi, che forma tra di essi un legame covalente. Invece, frammenti prodotti da enzimi diversi in genere non si uniscono.
c) Il clonaggio di frammenti di DNA
Clonaggio significa produrre una popolazione di frammenti di DNA tutti uguali - dei ‛cloni', appunto - risultanti dalla moltiplicazione di un frammento originario. Per attuare il clonaggio, il frammento, generalmente prodotto da un enzima di restrizione, è introdotto in una molecola di DNA, nota come ‛vettore', tagliata con lo stesso enzima. Le basi sporgenti nel DNA del frammento e del vettore ne permettono l'appaiamento. Dopo che l'unione è stabilizzata dalla formazione di legami covalenti, la molecola ibrida così formata viene introdotta nelle cellule in cui il vettore può moltiplicarsi, dalle quali si ottiene il clone. I frammenti così ottenuti sono poi liberati dal vettore usando lo stesso enzima di restrizione.
Per il clonaggio sono disponibili molti tipi di vettore, dai ‛plasmidi', cioè anelli di DNA extracromosomico capaci di riprodursi presenti nei batteri, ai genomi di batteriofagi (virus che si moltiplicano in batteri, anche detti ‛fagi'), ai genomi di virus di vario tipo che si moltiplicano in cellule animali. Per produrre vettori, di questi genomi si usa solo la parte necessaria per la moltiplicazione, eliminando tutte le altre: in tal modo si ottiene spazio per inserirvi il frammento da clonare e si prevengono possibili effetti indesiderati. Si impiegano come vettori anche cromosomi cellulari modificati, ottenuti o da batteri o da lieviti (rispettivamente noti come BAC, Bacterial Artificial Chromosomes, e YAC, Yeast Artificial Chromosomes; v. genetica, vol. X).
Una delle proprietà fondamentali dei vettori è la lunghezza dei frammenti che essi possono contenere, variabile da alcune centinaia di basi, per certi vettori fagici, a circa due milioni, per i vettori YAC. La lunghezza prescelta dipende dallo scopo del clonaggio, come vedremo in seguito (v. cap. 8, § a).
d) PCR (Polymerase Chain Reaction)
La PCR è una procedura di clonaggio basata sulla moltiplicazione del DNA in vitro (v. Mullis e Faloona, 1987), specialmente utile per clonare DNA di cui sia nota almeno qualche sequenza, mentre il clonaggio tramite vettori non richiede conoscenza alcuna. Nella forma più comune la PCR impiega due brevi sequenze, dette primers, complementari alle due estremità equivalenti (cioè le estremità 3′) delle due catene del DNA da clonare. Il DNA di partenza - che può essere anche una sola molecola - viene mescolato con i primers e con l'enzima DNA-polimerasi, capace di allungare il DNA, ottenuto da batteri termofili e perciò attivo anche a temperatura elevata (60-80 °C). La temperatura della miscela viene portata a 94 °C per separare le due catene del DNA, poi viene ridotta a 55 °C, onde permettere ai primers di ibridarsi alle estremità delle due catene, quindi nuovamente alzata a 72 °C, per permettere alla polimerasi di allungare i primers, costruendo su ciascuna catena una catena complementare a quella esistente. Così si formano due molecole di DNA esattamente uguali a quella di partenza. Il processo viene ripetuto molte volte; dopo venti volte il numero delle molecole di DNA prodotte è più di un milione.
Questa tecnica offre anche due diverse modalità per amplificare un DNA sconosciuto, a seconda che questo sia o meno attaccato a un vettore. Nel primo caso uno dei primers corrisponde a una sequenza del vettore e l'altro a una sequenza ripetuta presente in molte copie disperse nel genoma; quando si amplifica DNA umano, si usa di solito una sequenza Alu (v. Nelson e altri, 1989) e il sistema può funzionare solo se il DNA di partenza contiene una sequenza Alu sufficientemente vicina al vettore, cioè a qualche migliaio di basi di distanza (v. cap 11, § e). Nel secondo caso, poiché entrambi i primers corrispondono alla sequenza ripetuta, si amplificano molti segmenti, compresi tra sequenze Alu successive: il metodo può essere usato per caratterizzare un certo DNA, basandosi sulla distribuzione delle lunghezze dei segmenti amplificati.
e) Polimorfismi del DNA
I DNA di individui diversi della stessa specie, tagliati con lo stesso enzima di restrizione, producono tutta una gamma di frammenti, per lo più di lunghezza uguale nei diversi individui. È tuttavia possibile osservare alcune differenze, per esempio un certo segmento può essere sdoppiato in due parti, oppure due segmenti adiacenti possono essere fusi insieme: ciò è dovuto a differenti localizzazioni di basi che, nel primo caso, creano un nuovo bersaglio per l'enzima, nel secondo ne eliminano uno preesistente. Queste variazioni, che non si accompagnano a sintomi di malattia, sono dette polimorfismi. Alcuni polimorfismi sono riconosciuti da sonde adatte, che li localizzano in punti ben definiti del genoma: nello studio di famiglie questa caratteristica indica l'origine della regione del genoma dell'individuo in cui il polimorfismo è localizzato, consentendo, per esempio, di stabilire da quale genitore esso provenga, perché è possibile determinare quali individui abbiano il tipo singolo o il tipo sdoppiato di quel particolare frammento.
Recentemente è stato scoperto un altro tipo di polimorfismo, presente in punti del DNA dove un certo gruppetto di basi - detto ‛microsatellite' o ‛minisatellite', a seconda che le basi siano, rispettivamente, non più di cinque o in numero superiore - è ripetuto molte volte. Ogni micro- o minisatellite identificato è caratterizzato da una sonda che riconosce sequenze circostanti e lo localizza in un punto definito del genoma: i microsatelliti trovano impiego specialmente nella formazione di mappe, come vedremo in seguito, mentre i minisatelliti sono utilizzati soprattutto in medicina legale per caratterizzare il DNA di un individuo o delle sue cellule.
5. Le mappe del DNA
I genomi di tutti gli organismi, specialmente di quelli più evoluti, contengono un notevole numero di geni; la descrizione del genoma deve includere tutti i geni, nonché gli aspetti salienti delle regioni intergeniche. Per arrivare a tale descrizione è necessario avere dei punti di riferimento, onde suddividere il DNA in segmenti di complessità ridotta, di cui si possano descrivere le caratteristiche. L'insieme dei punti di riferimento usati, che sono di vario tipo, costituisce una ‛mappa'. Vengono usate tre differenti mappe: quelle citogenetiche, per lo più a bassa risoluzione, e quelle ad alta risoluzione, genetiche e fisiche.
Nella ‛mappa citogenetica', la prima elaborata, i punti di riferimento necessari erano forniti dal sistema di bande, riconoscibili all'esame microsopico, nei cromosomi politenici delle ghiandole salivari di Drosophila (v. cap. 3, § a; v. genetica: Citogenetica, vol. III, cap. 2). È possibile localizzare un certo gene o una determinata caratteristica in prossimità di una delle bande qualora a varianti del gene corrispondano modificazioni di una certa banda, che sia per esempio raddoppiata, deformata, o mancante.
La costruzione della ‛mappa genetica' iniziò con l'allineamento di geni riconosciuti per gli effetti delle loro alterazioni e per la loro distanza, sfruttando il fenomeno della ricombinazione, cioè lo scambio tra cromosomi omologhi che avviene nella meiosi durante la formazione delle cellule germinali (v. genetica: Citogenetica, vol. III, cap. 4, § b): per esempio, un incrocio tra due organismi, di cui uno abbia due geni modificati su un cromosoma e geni normali su quello omologo, e l'altro geni normali su ogni cromosoma, può dare origine a progenie in cui un gene modificato è presente in entrambi i cromosomi omologhi, per scambio tra i cromosomi durante la meiosi. Poiché la probabilità di scambio aumenta in modo proporzionale alla distanza tra i due geni, la frequenza di ricombinazione è una misura della loro distanza. È stato così introdotto il concetto di linkage (associazione), che stabilisce che i geni non sono linked se hanno una frequenza di ricombinazione uguale al 50%, mentre sono linked se hanno una frequenza minore. Si determinarono così dei linkage groups, che corrispondono ai geni presenti su cromosomi diversi. La formazione di mappe genetiche ricevette un grande impulso dallo sviluppo di marcatori del DNA basati sui polimorfismi.
Le tecnologie del DNA discusse più sopra (v. cap. 4) hanno infine reso possibile la formazione della ‛mappa fisica', costituita da una serie di marcatori presenti nel DNA, di cui si conoscono l'ordine e le distanze reciproche. Queste distanze sono indicate in numero di basi, e perciò non sono identiche a quelle della mappa genetica, che sono indicate in unità di ricombinazione: le due misure differiscono perché la frequenza di ricombinazione in relazione alla distanza fisica varia in punti diversi di un cromosoma, essendo maggiore verso il telomero, ed è diversa nei due sessi, essendo maggiore nelle femmine; l'ordine dei marcatori è comunque lo stesso in tutte le mappe.
6. Mappe citogenetiche
Nelle mappe citogenetiche, per identificare punti sui cromosomi si utilizzano varie tecnologie: la localizzazione di sonde tramite l'ibridazione sui cromosomi metafasici o politenici (in Drosophila); l'ibridazione in cromosomi distesi naturalmente, in cellule a riposo, oppure artificialmente, in vitro; l'identificazione di punti generati da delezioni o traslocazioni di cromosomi. I vari metodi, eccetto quelli basati sull'uso dei cromosomi politenici, vengono impiegati su colture di cellule somatiche.
Le sonde usate in questi studi sono identificate da marcatori radioattivi o, più frequentemente, fluorescenti: è infatti possibile combinare il DNA delle sonde con apteni - quali biotina, digossigenina o dinitrofenolo - a cui viene unito un gruppo fluorescente, come la fluorescina (verde), la rodamina (rosso), o l'AMCA (7-ammino-4-metilcumarina-3-acido acetico, azzurro). Varie combinazioni permettono di riconoscere microscopicamente, con adatta strumentazione, fino a sette sonde diverse nello stesso preparato. Il più delle volte le sonde riconoscono geni, ma alcune di esse riconoscono un intero cromosoma (v. Pinkel e altri, 1988), essendo complementari a una miscela di sequenze geniche di un cromosoma, oppure a sequenze ripetute presenti nei centromeri di certi cromosomi (v. cap. 11). Le sonde possono essere usate sia con cromosomi metafasici, sia con cromosomi interfasici: i primi sono visibili al microscopio, per cui la tecnica permette di determinare la posizione reciproca di geni, oppure di riconoscere scambi tra due cromosomi (traslocazioni); i cromosomi interfasici, invece, non sono visibili microscopicamente, ma, usando sonde multiple, vi si possono determinare le distanze tra i geni. Mentre nel metodo applicato ai cromosomi metafasici la risoluzione è bassa, permettendo di distinguere punti separati da 1 a 100 Mb, coi cromosomi interfasici la risoluzione è molto più alta, permettendo di riconoscere distanze tra 100 kb (migliaia di basi) e 1 Mb. È anche possibile distendere il DNA esponendo i nuclei delle cellule a trattamento con sostanze basiche, oppure dopo estrazione, in modo da raggiungere una risoluzione vicina a 10 kb.
Nei cromosomi politenici di Drosophila le bande vengono adoperate come substrato per ibridazione in situ di sonde di DNA: usando marcatori fluorescenti per individuare le sonde, si ottiene una risoluzione vicina a 20 kb, perciò simile a quella ottenuta con DNA disteso, ma in modo molto più riproducibile.
I punti di rottura dei cromosomi nelle delezioni o nelle traslocazioni sono anche utili per il mappaggio, usando sia i cromosomi politenici di Drosophila, sia cromosomi di cellule in coltura. Sui cromosomi politenici sono stati localizzati numerosi punti di rottura prodotti naturalmente e si è così determinata una mappa colineare con quella delle bande e ad alta risoluzione. In cellule in colture i punti di rottura sono prodotti irradiando le cellule con un'alta dose di raggi X e fondendole poi con cellule normali di un'altra specie, di solito di criceto o altro roditore (v. genetica: Applicazioni della genetica, vol. III, cap. 2, § b): le cellule ibride che ne risultano hanno un nucleo unico contenente i cromosomi di entrambe le cellule, poiché le rotture indotte dai raggi X promuovono lo scambio tra frammenti di cromosomi della cellula irradiata e i cromosomi della cellula normale. Ne risultano linee cellulari, denominate ‛ibridi da radiazione' (v. Cox e altri, 1990), che contengono ciascuna solo un frammento di cromosoma della cellula irradiata, la cui localizzazione nel genoma viene determinata con opportune sonde. Pannelli di colture di questo tipo sono molto utili per localizzare un DNA della stessa specie delle cellule irradiate, ibridandolo al DNA totale estratto dalle varie linee: esso si associa solo con il DNA delle linee ibride che contengono il segmento corrispondente. La risoluzione è relativamente bassa.
7. Mappe genetiche
a) Identificazione dei polimorfismi
Le mappe genetiche sono essenziali per localizzare geni in un genoma complesso, come quello umano, e nell'analisi di famiglie, in quanto permettono di stabilire in modo statisticamente valido l'esistenza di uno stretto linkage tra un gene e un punto del DNA definito da un polimorfismo, dimostrando che essi vengono trasmessi assieme attraverso le generazioni. Questo principio fu usato per la prima volta per localizzare due geni umani responsabili di malattie, quelli dell'emofilia e delle discromatopsie, sul cromosoma X.
I polimorfismi usati inizialmente per costruire mappe genetiche sono noti come RFLP (Restriction Fragment Length Polymorphisms): si tratta di polimorfismi relativi alla lunghezza dei frammenti prodotti da enzimi di restrizione come conseguenza di cambiamenti di qualche base che, in seguito alla scoperta dei microsatelliti, divennero i polimorfismi di scelta (v. Weissenbach e altri, 1992) perché sono molto numerosi e variano molto in individui differenti: si dice perciò che sono molto ‛informativi'.
La scoperta di un gran numero di polimorfismi nel DNA umano fu sin dall'inizio uno degli obiettivi del Progetto Genoma. La definizione dei polimorfismi, cioè la loro localizzazione, ereditarietà e variazione, si è basata in particolare sulla collezione dei DNA di 61 famiglie, raccolta a Parigi dal Centre d'Études du Polymorphisme Humain (CEPH), dove ogni nuovo polimorfismo fu esaminato per determinarne l'informatività. La raccolta dei polimorfismi è stata il risultato di una collaborazione internazionale tra il gruppo Genethon in Francia e il Cooperative Human Linkage Center e l'Università dello Utah negli Stati Uniti: il primo si concentrò su microsatelliti formati da ripetizioni del dinucleotide CA, mentre gli altri due gruppi inclusero nei loro studi microsatelliti di lunghezza variabile da tre a cinque nucleotidi (v. Murray e altri, 1994).
Per identificare i polimorfismi venne preparata una collezione di cloni di DNA umano di lunghezza da 300 a 500 basi, selezionata da una collezione di frammenti generati dall'enzima di restrizione AluI, che riconosce le sequenze ripetute Alu, regolarmente disperse nel genoma (v. cap. 11, § f): una collezione di questo tipo viene chiamata ‛libreria genomica'. I cloni contenenti un microsatellite con almeno 12 ripetizioni vennero identificati per ibridazione con sonde aventi la sequenza complementare al microsatellite; circa l'1% dei cloni risultò positivo. La posizione dei cloni ottenuti venne definita usando dapprima ibridi cellulari contenenti vari cromosomi umani o i loro frammenti; la loro localizzazione rispetto agli altri cloni venne poi determinata usando la collezione di DNA del CEPH.
Per rendere utilizzabili tali polimorfismi, per ognuno di essi vennero costruiti due primers corrispondenti alle due estremità 3′, mediante i quali è possibile, usando la tecnica della PCR, ricostruire il clone contenente quel polimorfismo partendo da un qualsiasi DNA; dalla sua lunghezza si può dedurre il numero delle ripetizioni.
L'insieme dei polimorfismi costituisce la mappa genetica del genoma. Alla fine del 1994 la mappa umana comprendeva circa 6.000 punti, di cui 3.600 rappresentati da microsatelliti, gli altri da polimorfismi definiti da RFLP, da geni e da altre caratteristiche; nel 1996 il numero dei microsatelliti è arrivato a 5.246 (v. Dib e altri, 1996). La mappa dei microsatelliti è di gran lunga la più utile, perché è altamente informativa ed è basata su una tecnica molto semplice, la PCR. Nella mappa genetica, la distanza media tra due punti successivi, di mezzo milione di basi, è già molto utile per procedere alla scoperta di geni, e sarà ridotta ulteriormente. Tuttavia la mappa è irregolare per varie ragioni: in alcune regioni del genoma, specialmente vicino ai telomeri e ai centromeri, i microsatelliti sono ben poco rappresentati; inoltre, del cromosoma Y, caratteristico dei maschi, è rappresentata solo la parte ‛pseudoautosomale', che durante la meiosi va incontro a ricombinazione con la parte omologa del cromosoma X.
Si sono costruite mappe anche di altre specie, la più densa delle quali è quella del genoma del topo, che contiene 7.377 polimorfismi, in maggioranza microsatelliti, con una distanza media tra i punti di 400.000 basi (v. Dietrich e altri, 1996). Il topo è un animale da esperimento di notevole interesse, perché molti suoi geni sono simili a quelli umani e se ne può manipolare il genoma sperimentalmente con l'induzione di mutazioni e con incroci appropriati; però anche nel topo vi sono regioni con pochi microsatelliti. Mappe genetiche di varia densità sono state costruite anche in altri organismi, quali il ratto, il pesce zebra (Danio rerio), la pianta Arabidopsis thaliana, il lievito Saccharomyces cerevisiae. I dati rilevanti delle mappe genetiche, raccolti in banche dati e a disposizione dei ricercatori di tutto il mondo, includono sia i dati primari che le mappe stesse. L'immissione in banche dati è molto importante, perché la quantità di informazione già raccolta in questo campo è enorme ed è necessario che coloro che vogliono usufruire della mappa lo possano fare in modo rapido ed efficiente. Le banche dati contengono anche informazioni su mappe speciali, tra le quali le scaffold maps - costituite da un numero più limitato di microsatelliti molto informativi e distribuiti abbastanza uniformemente nel genoma - che sono impiegate quando si vuole effettuare la localizzazione di geni sull'intero genoma.
b) L'uso delle mappe genetiche
Le mappe genetiche sono indispensabili per localizzare sul genoma un gene identificato o per una sua disfunzione, che può essere causa di malattie (e pertanto osservabile per lo più nella specie umana), oppure per un suo cambiamento, una mutazione che ne altera la funzione in modo riconoscibile (osservabile spesso in animali da esperimento). In entrambi i casi si devono studiare dei pedigrees, cioè delle famiglie comprendenti membri con il gene normale e membri con il gene alterato, i cui DNA sono esaminati per identificare qualche polimorfismo costantemente associato alla presenza del gene alterato. L'associazione, provata con metodi statistici computerizzati che hanno evidenziato come la probabilità di linkage sia almeno mille volte maggiore di quella di non-linkage, indica che il gene ricercato è separato dal polimorfismo da una distanza tale che la probabilità di ricombinazione durante la meiosi è molto piccola. Questa distanza, però, può ancora essere grande dal punto di vista fisico: per esempio, usando i microsatelliti a disposizione nel genoma umano, la distanza può in qualche caso raggiungere uno o due milioni di basi, perché i polimorfismi sono distribuiti nel genoma in modo non uniforme.
L'uso della mappa genetica per scoprire geni è basato sul fatto che i mutamenti che avvengono nei genomi nel corso dell'evoluzione sono dovuti per lo più allo scambio di parti piuttosto che a mutazioni, così che i punti di riferimento vengono mantenuti, ma la loro associazione cambia. Infatti l'uso della mappa è utile solo quando il cambiamento genico studiato è avvenuto molto tempo prima e viene ereditato in modo mendeliano, come è per lo più il caso delle malattie recessive, mentre non consente di scoprire un gene in cui sia avvenuta una mutazione recente, come avviene per molte malattie ereditarie dominanti.
Le mappe genetiche vengono anche impiegate per scoprire i geni soppressori, importanti nello sviluppo del cancro; essendo geni recessivi, l'effetto della loro inattivazione si osserva solo quando la funzione di entrambi gli alleli è perduta. Spesso, per una mutazione trasmessa ereditariamente, in tutte le cellule dell'organismo si perde la funzione di un solo allele, mentre nelle cellule neoplastiche è perduta quella di entrambi. Questo fenomeno, definito ‛perdita di eterozigosità', in qualche caso è rivelato da delezioni riconoscibili citologicamente in certe regioni cromosomiche, che sono eterozigoti nelle cellule normali e omozigoti in quelle tumorali; in altri casi il fenomeno non è dimostrabile citologicamente, ma può essere stabilito con l'uso dei polimorfismi.
8. Mappe fisiche
a) Generalità
Le mappe fisiche sono costituite da una serie di punti di riferimento di cui si conosce l'ordine e la distanza nel genoma, misurata in numero di basi. La mappa fisica è generalmente più dettagliata di quella genetica, contenendo un maggiore numero di punti, che varia a seconda della tecnologia usata per costruirla; la separazione dei punti può variare da qualche centinaio di basi a un milione o più.
I punti di riferimento devono essere ben definiti, di facile uso, distribuiti piuttosto uniformemente su tutto il genoma e sufficientemente vicini l'uno all'altro. I punti di riferimento di maggior uso, chiamati STS (Sequence Tagged Sites; v. Olson e altri, 1989), consistono in sequenze di qualche centinaio di basi, di cui si hanno primers per l'amplificazione tramite PCR. Le STS possono essere identificate in vari modi: per esempio, se si ha una collezione di frammenti di un genoma prodotti da un enzima di restrizione, si sequenziano le estremità di un certo numero di frammenti scelti a caso e quelle che non contengono sequenze ripetute vengono usate come STS. Altre fonti di STS sono le sequenze contenenti microsatelliti usate per la mappa genetica, e così pure sequenze di geni noti. L'informazione concernente le STS viene raccolta in banche dati non come sequenza di ogni STS, ma come sequenze dei due primers che la caratterizzano; queste permettono di ricostruire facilmente l'intera STS partendo da una libreria del genoma in studio. Alla fine del 1995 esisteva già una mappa contenente 15.000 STS, con una distanza media di 200.000 basi (v. Hudson e altri, 1995).
Il problema generale della mappa fisica è come identificare fisicamente una serie di punti su un genoma o una sua parte, per esempio un cromosoma. Per questo scopo si possono seguire indirizzi diversi, essenzialmente divisi in due gruppi: mappe senza cloni e mappe basate su cloni.
b) Tipi di mappe
1. Mappe senza cloni. - Tra queste sono comprese le mappe a bassa risoluzione, già discusse, come la mappa citogenetica, che permette la localizzazione precisa di una sonda su di un cromosoma metafasico. In Drosophila questo metodo ottiene un'alta risoluzione per l'impiego dei cromosomi politenici. Su queste mappe si possono localizzare anche avvenimenti anormali, come delezioni e traslocazioni: entrambe le alterazioni definiscono un punto di rottura, separando la parte del cromosoma conservata da quella mancante, che è stata o perduta (delezione) o spostata su un altro cromosoma (traslocazione). In entrambi i casi il segmento che rimane del cromosoma originario viene definito dalle STS che contiene. Uno dei metodi è appunto la mappatura basata sulle delezioni o sulle traslocazioni: disponendo di una collezione di colture cellulari con un cromosoma troncato, ottenuto o da individui ammalati o da colture ibride, e di una serie di STS di quel cromosoma, si determina quali STS siano presenti in ciascun pezzo di cromosoma (per ibridazione con il DNA estratto dalla coltura oppure per ibridazione in situ con il cromosoma metafasico): più corto è il pezzo che rimane del cromosoma, meno STS vi si localizzano. Con una collezione di colture contenenti pezzi di cromosoma di lunghezza progressivamente maggiore, si determinano contemporaneamente sia l'ordine dei punti di rottura che quello delle STS localizzate.
Il metodo di mappatura per delezioni è stato usato specialmente per la regione non pseudoautosomale del cromosoma Y umano, per due ragioni: in primo luogo, questa parte non è mappabile geneticamente perché, non avendo un partner, non va incontro a ricombinazione durante la meiosi e quindi la mappa fisica è l'unica possibile (mentre la parte pseudoautosomale va incontro a ricombinazione con parti del cromosoma X, a cui essa è omologa); in secondo luogo, le delezioni sono molto frequenti in questa parte del cromosoma, ma, dato che essa contiene pochi geni, non producono alcun disturbo. Nella parte pseudoautosomale del cromosoma Y sono invece frequenti traslocazioni con parti omologhe del cromosoma X, utili a loro volta per la mappatura.
Un altro approccio molto utile per localizzare STS e altre sonde è basato sul metodo dell'elettroforesi a campo pulsante (v. Smith e altri, 1986); questa tecnica permette di separare frammenti di DNA di diversa lunghezza applicati su gel sottile, i quali migrano verso il polo positivo con velocità inversa alla loro lunghezza. Mentre col metodo classico si usa un campo elettrico costante, che permette di risolvere frammenti più corti di 100 kb, applicando un campo pulsante, che periodicamente cambia direzione, si ottiene una risoluzione molto maggiore, fino a 1 Mb, perché con la variazione della direzione del campo le molecole più lunghe tendono ad aggrovigliarsi e rallentano. Per localizzare le sonde, il genoma viene frammentato con parecchi enzimi di restrizione che producono frammenti di lunghezze diverse; dopo che questi sono stati frazionati mediante l'elettroforesi a campo pulsante, le sonde vengono ibridate su un sottile strato di gel e dalla loro distribuzione sui vari frammenti se ne può dedurre l'ordine.
2. Mappe basate su cloni. - Il principio usato in questo approccio consiste nel frammentare il genoma da esaminare con un enzima di restrizione in condizioni (concentrazione dell'enzima, durata della reazione) che permettano il taglio soltanto di una frazione dei bersagli esistenti. In questo modo si forma una collezione di frammenti (una libreria) con sovrapposizioni parziali, in base alle quali è possibile disporre tali frammenti in un ordine unico. Nel costituire la libreria occorre ridurre il più possibile il numero dei frammenti non rappresentati; a tal fine, per ragioni statistiche, il numero totale di basi nella libreria deve essere molto maggiore (da 5 a 10 volte) di quello presente nel genoma in studio. Con una ridondanza di 5 volte, la probabilità di omettere un frammento è dello 0,7%. Ciononostante, la mappa ottenuta è spesso incompleta, con lacune di lunghezza sconosciuta, perché in certe condizioni alcune regioni di DNA non sono clonabili.
Mappe fisiche del genoma umano, basate su cloni, sono già state costruite per parti di cromosomi, o per cromosomi interi, ottenuti da linee di cellule ibride contenenti i segmenti selezionati. Più recentemente il mappaggio è stato diretto all'intero genoma, poiché si è visto che non è vantaggioso limitarsi a parti di esso, frammentando il lavoro in molti pezzi che poi si devono mettere insieme (v. Cohen e altri, 1993). Nella mappa così ottenuta è incluso circa un terzo del genoma.
Per costruire una mappa fisica di cloni è necessario scegliere, oltre alla parte da mappare, parecchi particolari tecnici - l'enzima per generare i frammenti, il tipo di vettore utilizzabile nel clonaggio, la tecnica per riconoscere le sovrapposizioni - che esamineremo brevemente.
La scelta dell'enzima, in quanto responsabile della lunghezza media dei frammenti, è legata principalmente al numero di basi che ne costituiscono il bersaglio. In alcuni casi è anche importante l'effetto della metilazione di basi entro il bersaglio, perché alcuni enzimi, come l'HpaII, con un bersaglio
5′ - - - C C G G - - - 3′
3′ - - - G G C C - - - 5′,
e quelli indicati come rare cutters, per esempio NotI, che ha un bersaglio di otto basi
5′ - - - G C G G C C G C - - - 3′
3′ - - - C G C C G G C G - - - 5′,
non tagliano le basi metilate. Entrambi i bersagli menzionati includono la sequenza CpG, dove avviene la metilazione: se la C del dinucleotide è metilata, l'enzima non taglia il bersaglio. L'importanza di questi bersagli deriva dal fatto che essi sono frequenti specialmente nella regione a monte (5′) di geni nella quale la sequenza CpG è non metilata se i geni sono attivi, mentre tende a essere metilata altrove. Per questa proprietà, tali enzimi sono usati per costruire librerie di frammenti che hanno le loro estremità in prossimità di geni attivi.
Tra i numerosi tipi di vettori usati, i principali sono: plasmidi, anelli di DNA capaci di riprodursi in batteri, che possono contenere frammenti di parecchie migliaia di basi; diversi batteriofagi (virus che crescono in batteri) come il fago lambda che può contenere frammenti di 5-15 kb; i cosmidi, anch'essi derivati dal fago lambda, che possono contenere frammenti di circa 45 kb; il fago P1, che contiene frammenti di 100 kb, e il fago M13, usato specialmente per il sequenziamento, che può contenere piccoli frammenti, da poche centinaia a qualche migliaio di basi; cromosomi artificiali di batteri (BAC), che contengono oltre 300 kb; cromosomi artificiali di lievito (YAC), che contengono fino a più di 1.000 kb. Altri vettori sono in studio, inclusi vettori capaci di moltiplicazione in cellule animali, sotto forma o di cromosomi artificiali, oppure di plasmidi basati su un genoma semplificato del virus di Epstein-Barr.
Nella produzione di un vettore, i plasmidi o i fagi vengono modificati, eliminando tutte le parti che non sono necessarie alla loro moltiplicazione, e nello spazio reso libero viene inserito il frammento da clonare. Degli altri vettori, i BAC sono derivati da un plasmide (il fattore F) che trasferisce il cromosoma batterico da una cellula all'altra durante la coniugazione di questi organismi; gli YAC sono costruiti mettendo assieme gli elementi essenziali di un cromosoma di lievito, cioè i telomeri, il centromero e un sito di inizio della moltiplicazione (ARS, Autonomous Replicating Regions; v. cap. 12), mentre il resto è destinato a ricevere il frammento. Tutti i vettori, inoltre, hanno una serie di bersagli per enzimi di restrizione, opportunamente piazzati per permettere l'inserzione del frammento e, dopo la moltiplicazione, il suo recupero. I plasmidi e i fagi vengono introdotti in batteri adatti nei quali si moltiplicano e da ognuno dei quali se ne possono così ottenere centinaia o migliaia di copie; gli YAC e i BAC si comportano nella cellula ospite esattamente come cromosomi normali, così che in ogni cellula ne è sempre presente uno e il loro numero aumenta come conseguenza dell'aumento del numero di cellule che li ospitano.
3. Strategie. - La scelta dei vettori usati per il mappaggio dipende in primo luogo dalla strategia prescelta, se quella definita strategia ‛dal basso all'alto' (bottom-up), o quella detta ‛dall'alto al basso' (top-down). Inizialmente, avendo a disposizione vettori basati su fagi e cosmidi, che consentono l'inserimento di frammenti piuttosto piccoli, fu impiegata la prima strategia, che permette di produrre un gran numero di cloni, i quali, attraverso le sovrapposizioni, vengono poi organizzati in gruppi continui (contigs). La seconda strategia fu adottata quando furono disponibili i nuovi vettori (il fago P1, i BAC, gli YAC), che permettono di coprire il genoma con un numero relativamente piccolo di cloni, col conseguente vantaggio di ridurre il numero di manipolazioni necessarie: anche i frammenti contenuti in questi vettori sono ordinati in contigs. Per analizzare il genoma in dettaglio, i lunghi frammenti vengono successivamente clonati in cosmidi e in fagi, onde ottenere mappe di maggiore risoluzione.
Entrambe le strategie presentano vantaggi e svantaggi. Il metodo dal basso all'alto è più semplice, perché è più facile costruire le librerie necessarie e perché i cloni contengono un gran numero di copie del frammento incorporato nel vettore. Il metodo dall'alto al basso ha il vantaggio della grande lunghezza dei frammenti e quindi del loro minore numero, che facilita la costruzione rapida di contigs di milioni di basi, però la costruzione delle librerie è più difficile, perché il numero dei frammenti in ciascun clone è molto minore. Inoltre, l'impiego degli YAC pone un problema molto serio: circa il 40% di essi contiene non uno ma due frammenti, oppure frammenti con delezioni o altre irregolarità, per cui sono necessari controlli molto accurati ed estesi dei contigs ottenuti per eliminare quelli erronei. Un buon compromesso sembra costituito dal fago P1 e dai BAC, perché i frammenti che essi contengono sono ragionevolmente lunghi e non vengono alterati.
La determinazione delle sovrapposizioni dei frammenti è basata fondamentalmente sull'identità delle sequenze nelle regioni che si sovrappongono. Generalmente non si determinano direttamente le sequenze complete dei frammenti, ma si impiegano metodi indiretti, quali la dimostrazione dell'identità per ibridazione o l'identificazione delle lunghezze dei frammenti generati da un enzima di restrizione con piccolo bersaglio; il metodo che sta sempre più affermandosi è basato sulle STS, perché frammenti che hanno una o più STS in comune devono necessariamente essere sovrapposti. In tutti i metodi, per determinare l'identità delle sequenze si adottano criteri statistici molto rigidi.
c) La mappa dei cloni linking
La mappa dei cloni linking è una speciale mappa fisica basata sulle cosiddette linking libraries (v. Poutska e Lehrach, 1986). Un metodo per costruirle utilizza un enzima rare cutter, di solito NotI, che taglia per lo più in corrispondenza di sequenze contenenti il dinucleotide CpG, presente a monte della maggioranza dei geni. I frammenti sono molto lunghi, e a ciascuna estremità un filamento risulta sfalsato sull'altro, in modo simmetrico:
5′ G G C C G C - - - - - - G C 3′
3′ C G - - - - - - C G C C G G 5′
Le estremità così tagliate (sticky ends) sono complementari e permettono di unire ciascun filamento in modo da formare un anello, stabilizzando l'unione mediante l'enzima ligasi; gli anelli così formati contengono il bersaglio per l'enzima NotI, ricostruito dall'unione delle due estremità. Gli anelli vengono poi tagliati con un altro enzima con bersaglio di sei basi, per esempio BamHI, in modo da produrre frammenti lineari più piccoli, di cui alcuni contengono il bersaglio NotI. Tutti i nuovi frammenti ottenuti sono nuovamente ridotti ad anelli e quindi esposti all'enzima NotI, che taglia solo quelli contenenti il suo bersaglio, rendendoli nuovamente lineari: questi ultimi frammenti lineari, separati dagli altri, rappresentano i cloni linking, perché ai due lati del bersaglio NotI contengono le estremità di due cloni NotI adiacenti. È perciò facile, servendosi di essi, stabilire l'ordine dei frammenti di una libreria NotI per ibridazione; questo metodo è pressoché esente da errori.
d) L'integrazione delle mappe
L'integrazione delle varie mappe - citologiche, genetiche, fisiche - consente di trarre il massimo vantaggio dal loro impiego, sfruttando le caratteristiche che esse hanno in comune e che sono principalmente di due tipi: punti di rottura di rimaneggiamenti cromosomici (delezioni, traslocazioni) e sonde di DNA.
I punti di rottura permettono un'integrazione ad alta risoluzione nei cromosomi politenici delle ghiandole salivari di Drosophila, in cui se ne sono localizzati circa 18.000. Essi sono riconoscibili come punti di ricombinazione nella mappa genetica e come punti di unione di frammenti di DNA nella mappa fisica. Anche i cromosomi metafasici dei Mammiferi, nonostante la risoluzione notevolmente inferiore, sono molto utili per l'integrazione, provvedendo punti di ancoraggio comuni con le altre mappe. Le sonde del DNA più adatte per integrare le mappe sono le STS (v. Ward e Davies, 1993), specialmente quelle costituite dai microsatelliti della mappa genetica, che si localizzano sui cromosomi con l'ibridazione in situ e sono incluse in determinati frammenti della mappa fisica. L'integrazione è importante perché conferma l'ordine dei punti definiti dalle tre mappe, permettendo anche di correggere possibili errori, e stabilisce i rapporti delle distanze nei tre tipi di mappa, in modo da ricondurle sulla stessa scala.
e) Dimostrazione di uguaglianze o differenze tra genomi
In certe condizioni può essere utile stabilire differenze e uguaglianze tra due genomi senza ricorrere alla laboriosa produzione di mappe fisiche. Esistono per questo scopo due tecnologie (v. Lander, 1993). La prima, nota come GMS (Genomic Mismatch Scanning), consente di scoprire uguaglianze tra i genomi di membri di una stessa famiglia, utili per identificare regioni di origine comune, ed è basata sull'impiego di un enzima batterico in grado di correggere difetti della doppia catena del DNA, in cui due o più basi non si appaiano: dove c'è il difetto, l'enzima taglia la catena appena formata, che riconosce per la presenza di sequenze non ancora metilate (verranno metilate più tardi), mentre le sequenze della vecchia catena sono tutte metilate. Questo principio viene sfruttato preparando due librerie di frammenti di restrizione, una da ciascuno degli individui in esame: nell'una il DNA è completamente metilato, nell'altra è completamente non metilato (ciò si ottiene con opportuni enzimi). Le due librerie vengono denaturate e poi ibridate, col risultato che si ottengono catene doppie di tre tipi: non metilate, completamente metilate e metilate solo in una catena. Quest'ultimo tipo è costituito da doppie catene contenenti una catena di ciascuno dei due individui: esse vengono esposte all'enzima batterico, che taglia le catene in cui l'appaiamento non è corretto; quindi le parti rimanenti rappresentano regioni dei due genomi che sono identiche.
L'altra tecnica, nota come RDA (Representational Difference Analysis), consente di scoprire differenze tra due genomi e viene impiegata, per esempio, per scoprire delezioni; essa è basata sul metodo delle sottrazioni: partendo da due librerie (che chiameremo A e B) contenenti frammenti piuttosto piccoli, si denatura e poi si ibrida una loro miscela nella quale la A sia in notevole eccesso; i frammenti di B che riformano tra di loro una doppia elica sono quelli che non hanno riscontro in A. Il metodo può essere esteso a due librerie di cDNA ottenute da uno stesso organo o tessuto, per scoprire messaggeri mancanti.
9. Alla ricerca dei geni
La ricerca di geni avviene in modi diversi in relazione all'informazione che si ha su di essi. Su questa base i geni possono essere distinti in due gruppi: quelli la cui esistenza è rivelata da conseguenze della loro attività o mancanza di attività e quelli di cui non si ha alcun indizio. Tra i geni di cui si conosce l'esistenza dobbiamo distinguere quelli responsabili di caratteristiche (o malattie) monogeniche e quelli responsabili di caratteristiche complesse, che coinvolgono più di un gene.
a) Caratteristiche monogeniche
I geni responsabili di caratteristiche monogeniche possono essere noti in quanto causa di malattie manifeste, oppure perché se ne conoscono gli effetti o il prodotto, RNA o proteina. I geni responsabili di malattie monogeniche, cioè prodotte dall'alterazione di un solo gene - per esempio le emofilie tipo A o B - si identificano studiando famiglie in cui ci siano membri ammalati e membri sani. Questi studi presuppongono che l'alterazione del gene responsabile della malattia sia avvenuta parecchie generazioni addietro e che il gene alterato venga ereditato in maniera mendeliana. Questa è la situazione normale dei geni responsabili di malattie recessive, che sono la maggioranza delle malattie ereditarie; essi non interferiscono con la riproduzione dei portatori sani - in cui un solo gene è alterato mentre il gene omologo è normale - e vengono trasmessi da una generazione all'altra. Lo stesso si verifica nel caso di malattie dominanti a insorgenza tardiva, come la corea di Huntington. Invece nelle malattie dominanti a insorgenza precoce, con gravi sintomi che impediscono la riproduzione, l'alterazione genica è generalmente di origine recente.
Nelle famiglie si cerca l'associazione costante di qualche polimorfismo con la malattia, dimostrata dal fatto che tutti i membri ammalati hanno una certa forma del polimorfismo, per esempio una certa lunghezza del frammento che lo contiene, mentre quelli sani ne hanno un'altra, in questo caso un'altra lunghezza. L'associazione si osserva se il gene e il polimorfismo sono sufficientemente vicini, in modo da rendere molto piccola la probabilità che siano separati da ricombinazione. Se possibile, si cerca di scoprire l'associazione con due polimorfismi, uno a ciascun lato del gene. L'esistenza di estese mappe genetiche favorisce molto questo compito. Il linkage tra malattia e polimorfismo deve essere statisticamente significativo, e ciò viene accertato con l'aiuto di calcolatori, usando programmi adatti. Questa ricerca è molto più facile in famiglie in cui ci siano matrimoni tra consanguinei, per esempio tra cugini, perché è possibile che un individuo ammalato abbia due regioni cromosomiche identiche, ereditate da un nonno, che includono la parte alterata. Tale indirizzo, però, è possibile solo per piccole popolazioni, specialmente in Africa, Medio Oriente e Giappone, in cui sono frequenti i matrimoni tra consanguinei; esso si è dimostrato utile per scoprire i geni responsabili di un numero limitato di malattie ereditarie.
Dopo aver identificato la localizzazione genetica, occorre individuare quella fisica, ricorrendo alle mappe fisiche. Se è disponibile una serie di frammenti ordinati che coprono la distanza tra i due polimorfismi, si effettua il confronto tra i frammenti appartenenti agli individui sani e quelli appartenenti agli ammalati, non necessariamente della stessa famiglia; se i frammenti non esistono, bisogna procedere al lavoro molto impegnativo di produrli. Se la malattia è dovuta, come avviene abbastanza spesso, a una delezione entro il gene, il confronto può portare all'identificazione del gene stesso, perché il frammento che la contiene è accorciato. Se invece l'alterazione consiste nel cambiamento di una base, la sua scoperta risulta più difficile. A questo scopo è utile identificare RNA messaggeri nelle cellule che mostrano le conseguenze dell'alterazione genica: il messaggero può essere assente, se c'è un'alterazione della regione di controllo del gene, oppure può esser presente ma con una base alterata.
In animali da esperimento, specialmente nei topi, di cui si ha una buona mappa genetica, usando incroci adatti è possibile identificare un gene a funzione nota provocandone, con l'induzione di mutazioni, un cambio di espressione. Se il gene del topo viene individuato e clonato, da esso si può risalire al gene umano, perché il genoma dell'uomo e quello del topo contengono molte omologie, soprattutto nelle regioni codificanti dei geni. I due genomi hanno anche un'altra somiglianza, che può essere di notevole aiuto nella scoperta di geni umani: la ‛sintenia', cioè il mantenimento dell'ordine dei geni per tratti abbastanza estesi, di circa 10 Mb. Entrambe le somiglianze sono conseguenze delle modalità dell'evoluzione, che nella formazione di una nuova specie mescola parti del genoma preesistente, lasciandole largamente inalterate; la conservazione è specialmente marcata nelle regioni codificanti per proteine, in quanto responsabili delle funzioni cellulari che si mantengono pressoché inalterate durante periodi di evoluzione molto lunghi. Per esempio, i geni che controllano il ciclo cellulare sono molto simili nel lievito e nell'uomo, così come nei due organismi è simile il ciclo stesso.
b) Strategie di ricerca delle caratteristiche monogeniche
L'indirizzo appena descritto per scoprire i geni viene definito ‛clonaggio di posizione' (positional cloning), poiché il gene viene scoperto in base alla sua posizione, senza conoscere né la proteina che gli corrisponde, né la sua funzione. Esso viene anche definito ‛genetica inversa', per accentuare la differenza dall'indirizzo precedente, in cui il gene veniva identificato dopo averne isolato la proteina o il messaggero: per esempio, i geni delle globine, le proteine dell'emoglobina, furono identificati dopo la purificazione dei loro prodotti, secondo i metodi di quella che è definita ‛genetica diretta'. Siccome nel caso delle globine i geni venivano scoperti sulla base delle loro funzioni, il metodo seguito per il loro isolamento viene chiamato ‛clonaggio funzionale' (functional cloning).
Mentre il clonaggio di posizione è molto utile per scoprire geni responsabili di malattie, il clonaggio funzionale è utile per identificare geni che codificano per proteine di importanza funzionale nelle cellule, perché queste vengono scoperte appunto per la loro funzione. Tra questi geni si annoverano quelli responsabili della produzione di proteine componenti le catene che trasmettono segnali dalla superficie cellulare ai geni. Una volta identificata una proteina in un certo tipo cellulare, se ne cerca il messaggero nelle stesse cellule e da esso si risale al gene. Questa ricerca è spesso facilitata dal fatto che proteine con funzioni simili contengono parti simili; si può allora andare in cerca dei messaggeri che contengono l'informazione per quelle parti.
Un altro indirizzo è quello del ‛gene candidato'. In malattie nelle quali è deficiente una funzione prodotta da meccanismi biochimici noti, di cui i geni responsabili sono anche noti, è possibile stabilire se uno di essi è alterato. Spesso le caratteristiche della malattia permettono di ipotizzare quale gene abbia le maggiori probabilità di essere alterato; questo diventa allora il gene candidato, di cui si vanno a cercare alterazioni nei malati. Se questo approccio fallisce, si considerano altri geni dello stesso gruppo.
Questo indirizzo ha dato spesso utili risultati, come ad esempio nell'identificare il gene responsabile del diabete non insulino-dipendente (una malattia poligenica) in casi specifici; i geni candidati possibili sono quelli coinvolti nell'accumulo di glucosio nel muscolo, che includono quelli per il recettore dell'insulina, per il trasportatore del glucosio entro le cellule e per enzimi responsabili per la sintesi del glicogeno. In effetti, è stato possibile individuare una mutazione nella sintetasi del glicogeno.
L'indirizzo del gene candidato è utilizzato anche in un altro modo: dopo che un gene per una malattia è stato localizzato in una ristretta regione cromosomica attraverso lo studio dei polimorfismi, si prendono in considerazione geni già localizzati nella stessa regione, ma non precedentemente associati con la malattia, che vengono studiati in dettaglio se le loro caratteristiche suggeriscono una connessione possibile con la malattia. Questo procedimento è stato seguito con successo nel caso dell'identificazione con il gene della fibrillina (una glicoproteina essenziale per la stabilità del tessuto connettivo) del gene responsabile della malattia di Marfan, caratterizzata da sintomi rivelanti una deficienza di fibre di sostegno in molti organi.
c) Caratteristiche genetiche complesse
In molti esseri viventi, specialmente quelli più evoluti, la maggior parte delle caratteristiche genetiche è dovuta all'azione di più di un gene: questo è il caso, per esempio, di malattie come l'ipertensione, il diabete, le cardiopatie. Ciò non sorprende, perché i geni formano una rete complessa di interazioni, influenzandosi l'un l'altro a parecchi livelli; e infatti, anche nel caso delle malattie monogeniche, l'influenza di altri geni si manifesta sotto forma di variazioni, che possono essere notevoli, dei sintomi da un individuo all'altro. Per esempio, nell'anemia falciforme, in cui c'è un'alterazione del gene di una globina β di tipo adulto (v. cap. 11, § d), il decorso clinico varia da caso a caso: alcuni individui muoiono durante l'infanzia, mentre in altri l'alterazione passa inosservata fino all'età avanzata. La differenza è dovuta alla diversa espressione del gene che codifica per la globina di tipo fetale e che è normalmente inattivo dopo la nascita: se esso continua a essere attivo, i sintomi della malattia sono attenuati.
Malattie genetiche complesse possono essere dovute a due condizioni: l'eterogeneità genetica e l'eredità poligenica. Nel caso dell'eterogeneità genetica, una malattia dovuta alla mancanza di una sostanza prodotta da una catena di reazioni enzimatiche può essere causata da deficienza di uno qualunque degli enzimi, come accade, per esempio, nella retinite pigmentosa che può essere dovuta a mutazioni di almeno 14 geni. L'eredità poligenica si verifica in due casi: nel primo molti geni con effetti discreti devono essere simultaneamente alterati per determinare una malattia, come avviene nel diabete insulino-dipendente; il secondo si determina allorché una caratteristica corporea, come la statura, o una malattia, come l'ipertensione, è conseguenza dell'attività di molti geni con effetti quantitativi.
Quando parecchi geni sono coinvolti in maniera pressoché equivalente nel determinare una caratteristica corporea o una malattia, è generalmente impossibile individuare polimorfismi che segreghino assieme a uno di essi. Un approccio più utile, che prevede di cercare i geni rilevanti non in una singola regione cromosomica, ma in tutto il genoma (v. Lander e Schork, 1994), è reso possibile nell'uomo e in alcune altre specie dalle mappe genetiche dettagliate a disposizione. Utilizzando un certo numero di polimorfismi (250-300) - selezionati per alta eterozigosità, distribuzione uniforme e riproducibilità d'uso - in un ampio numero di individui imparentati (un centinaio o più, generalmente fratelli) si determina l'associazione di ogni polimorfismo con la caratteristica in esame, spesso ripetendo l'esame in gruppi etnici diversi, in quanto una caratteristica può essere linked con una certa regione cromosomica in una popolazione e con un'altra regione cromosomica in un'altra popolazione: è così possibile identificare le regioni del genoma contenenti i geni coinvolti nell'espressione di quella caratteristica. L'applicazione di questo metodo allo studio del diabete insulino-dipendente ha consentito di individuare due geni principali - un gene nel complesso di quelli dell'istocompatibilità e il gene dell'insulina - e tre altri geni, ma con associazione meno significativa. Si può anche tentare di dimostrare l'ereditarietà di una certa caratteristica sullo sfondo di un'ereditarietà multifattoriale diffusa, come l'incidenza del cancro della mammella in certe famiglie, che ha condotto alla scoperta dei geni BRCA1 e 2.
Lo studio di caratteristiche complesse è facilitato in alcuni animali, specialmente nel topo (v. Avner, 1994), dato che si dispone per questa specie di una densa mappa genetica, e nel ratto, per il quale si ha una buona mappa sebbene non altrettanto densa. In questi animali si usano incroci adatti per studiare l'ereditarietà di caratteristiche poligeniche e quantitative. Nel campo delle malattie poligeniche è stato possibile mappare nei topi una dozzina di geni che concorrono all'insorgenza del diabete insulino-dipendente, mentre nei ratti si sono mappati geni con ereditarietà quantitativa rilevanti per la genesi dell'ipertensione. I risultati ottenuti in questi animali possono essere estesi all'uomo, sebbene ciò non sia sempre possibile, dato il diverso sfondo genetico delle specie.
La clonazione dei geni di caratteristiche complesse così individuati è molto più difficile di quella dei geni ad azione monogenica, perché la varietà delle manifestazioni rende la localizzazione statisticamente molto meno precisa. Qualche volta tale difficoltà è sormontabile studiando popolazioni isolate in cui l'alterazione di uno dei geni è predominante. L'indirizzo più promettente, ossia l'analisi di geni candidati presenti nelle regioni indiziate del genoma, diventerà certamente più efficace con il progressivo aumento del numero di geni noti: questa è una delle ragioni per cui la scoperta di nuovi geni e la caratterizzazione della loro funzione sono molto importanti.
10. La scoperta di geni sconosciuti
In quasi tutti gli organismi la maggioranza dei geni non può essere rintracciata sulla base di funzioni o di patologie, e i metodi sopra indicati non possono pertanto essere usati. Questi geni vengono individuati attraverso approcci differenti, quali il sequenziamento del DNA, l'isolamento degli RNA messaggeri o quello di regioni ricche in sequenze CpG. In Drosophila e nelle piante si può adottare un'altra strategia, quella dei ‛trasposoni', piccole sequenze autonome inserite nel genoma e capaci di autoriproduzione, che nel corso della moltiplicazione vanno a inserirsi in posizioni nuove, perturbando la funzione dei geni in cui si inseriscono. Introducendo nell'organismo un trasposone opportunamente marcato, si osservano frequentemente dei cambiamenti di una caratteristica dell'ospite, della quale è allora possibile rintracciare il gene responsabile usando come guida il marcatore.
a) Identificazione di geni tramite il sequenziamento
Sequenziare un segmento di DNA significa determinarne l'ordine delle basi. Per fare ciò, il frammento di DNA da sequenziare viene incorporato nel DNA del fago M13 usato come vettore, che, moltiplicandosi nei Batteri, produce particelle virali contenenti il DNA in forma di catena unica. Queste catene singole possono essere trasformate in doppie catene usando l'enzima polimerasi - assieme ai precursori dei quattro nucleotidi, sotto forma di trifosfati - e un primer che si associ all'estremità del DNA del vettore dove si congiunge all'estremità 3′ del frammento da sequenziare. La miscela di questi componenti viene suddivisa in quattro parti uguali, a ciascuna delle quali viene aggiunta una piccola quantità di un desossiribonucleotide, anch'esso in forma di trifosfato. Durante la reazione i nucleotidi complementari a quelli del frammento iniziale vengono connessi alla nuova catena in via di allungamento (la polimerasi è responsabile della specificità); per l'aggiunta di un desossiribonucleotide, il processo non può andare oltre e si arresta l'allungamento della catena, che rimane incompleta. È importante che i desossiribonucleotidi aggiunti alle varie miscele abbiano ognuno una base diversa, in modo che l'interruzione avvenga in punti diversi. Per esempio, nella miscela in cui si aggiunge il desossiribonucleotide con la base A, l'interruzione della catena può avvenire solo in corrispondenza di una delle basi T del frammento da sequenziare. Poiché le quantità sono congegnate in modo tale che in ciascuna nuova catena l'interruzione avvenga in media solo una volta, a caso, in questa miscela si produce una serie di catene incomplete, terminanti ai vari T presenti nel frammento; procedendo allo stesso modo si ottengono nelle altre miscele catene che terminano in C, in A e in G. Le catene vengono marcate con sostanze fluorescenti diverse e separate a seconda della loro lunghezza tramite elettroforesi su gel, con le quattro miscele affiancate; identificando, con un sistema automatico, le miscele contenenti le catene di lunghezza crescente, si determina l'ordine delle basi. Questo principio viene applicato anche alla PCR, in modo da ottenere il sequenziamento nella stessa operazione in cui si produce l'amplificazione di un frammento di DNA.
Il sequenziamento, essendo un'operazione molto lenta, non è un metodo molto efficiente per scoprire i geni, specialmente in un genoma come quello umano in cui circa il 97% del DNA non contiene geni. In effetti, tale metodo è stato impiegato su aree ristrette del genoma umano o di Mammiferi ritenute ricche in geni, oppure su genomi di organismi meno complessi. Tra questi vi sono alcuni batteri e organismi di complessità intermedia, come il lievito Saccharomyces cerevisiae, il nematode Caenorhabditis elegans, la pianta Arabidopsis thaliana. Il sequenziamento del lievito Saccharomyces cerevisiae, portato avanti da un consorzio di 35 laboratori europei, è stato completato, per un totale di circa 14 milioni di basi; sono stati completamente sequenziati anche i genomi di due batteri.
Nell'identificazione di geni tramite sequenziamento, poi, non esiste alcuna caratteristica che riveli direttamente e senza ambiguità i geni nella sequenza. Per la soluzione di questo problema sono disponibili due metodi approssimativi. È anzitutto possibile procedere all'identificazione delle cosiddette ORF (Open Reading Frames), cioè sequenze di basi capaci di codificare per proteine senza essere interrotte da segnali di arresto della traduzione. Queste sequenze, soprattutto le più lunghe, sono frequentemente, ma non necessariamente, presenti entro geni. Esistono poi programmi che sfruttano determinate correlazioni tra le parti delle sequenze corrispondenti alle zone codificanti dei geni, alle loro regioni di controllo e ai segnali di splicing. Questo metodo, benché abbia solo valore statistico e non fornisca risultati certi - per l'esistenza di somiglianze, ma non di uguaglianze, tra le sequenze corrispondenti di geni diversi - è comunque valido, perché consente diagnosi corrette nell'85% dei casi.
Un metodo per identificare geni leggermente diverso è basato sul fenomeno dello splicing: si inserisce un DNA sconosciuto in un introne di un gene noto contenuto in un apposito vettore; se il DNA contiene un esone (frammento codificante di un gene, affiancato da introni), si ottengono due splicing eccezionali tra i due siti di splicing del vettore e quelli dell'esone. Come risultato, l'esone sconosciuto viene trattenuto nel vettore e se ne può determinare la sequenza. Questo metodo è noto come exon amplification (v. Buckler e altri, 1991).
Per determinare la funzione di un nuovo gene - dopo che sia stato identificato, clonato e sequenziato - non esiste un metodo standardizzato, ma si può procedere in modi diversi: si identificano i tipi cellulari in cui il gene è attivo, dimostrandovi il messaggero del gene; si deduce la sequenza di amminoacidi della proteina corrispondente al gene dalla sequenza delle basi, usando il codice genetico. Lo studio della sequenza può rivelare qualche caratteristica della proteina: se si tratta di una proteina di membrana oppure di una proteina solubile, se ha caratteristiche funzionali note - per esempio la capacità di legarsi al DNA o di svolgere un ruolo biochimico - oppure se ha caratteristiche di proteina regolatrice. Conoscendo la sequenza di amminoacidi si possono sintetizzare peptidi che vengono poi iniettati nei topi onde ottenerne degli anticorpi utili per localizzare la proteina in determinate parti della cellula. Si può iniettare il gene clonato, connesso a una regione di controllo adatta, in un ovocito di topo fecondato, per ottenere animali transgenici che esprimono il gene in determinati organi o tessuti; oppure, sempre nei topi, si può seguire la procedura opposta, cioè eliminare il gene corrispondente, nei casi in cui sia stato identificato (cosiddetti topi knock out). Gli interventi sui topi possono dare importanti informazioni sulla funzione del gene; occorre tuttavia tenere presente che, relativamente ai diversi genomi, un gene umano può avere un effetto leggermente diverso nel topo e il gene corrispondente del topo può avere una funzione un poco diversa rispetto a quello umano.
b) Identificazione di geni tramite i messaggeri
I messaggeri corrispondono alla parte codificante del gene e rappresentano perciò ottimi strumenti per la sua identificazione. La validità del loro impiego presenta però alcune limitazioni: anzitutto, non c'è cellula in cui siano presenti i messaggeri corrispondenti a tutti i geni, per cui se ne deve estendere la ricerca a molti tipi cellulari; inoltre, un certo numero di messaggeri è presente in cellule difficilmente disponibili per l'osservazione, specialmente nell'uomo, quali sono ad esempio quelle presenti durante lo sviluppo embrionale. Nonostante ciò, la caratterizzazione dei messaggeri come metodo per identificare i geni ha recentemente avuto un grande impulso, essendo un approccio molto più diretto, più semplice ed economico, seppure meno completo, che non il sequenziamento di tutto il genoma. Usando librerie di RNA messaggero, ottenute da cellule abbastanza accessibili, si potranno certamente identificare i messaggeri corrispondenti almeno alla metà di tutti i geni.
Per definire i messaggeri l'approccio è simile a quello usato per i frammenti di DNA. Sequenze brevi, di 200-300 basi, situate all'estremità 3′ dei geni, vengono isolate attraverso la trascrizione inversa dei messaggeri: poiché questi terminano in una sequenza poli-A, cioè una catena di adenine, vi si attacca un primer poli-T e da qui si copia il messaggero, usando come enzima la trascrittasi (o transcriptasi) inversa, la quale costruisce prima una catena di DNA complementare all'RNA, poi rimpiazza l'RNA con DNA, formando infine una regolare molecola di DNA, nota come cDNA (cioè DNA complementare). Qualche centinaio di basi di ciascuno di questi DNA viene sequenziato e il risultato, che caratterizza il messaggero e perciò il gene, viene immesso in banche dati come EST (Expressed Sequence Tag). Le EST generalmente contengono parti del messaggero che non codificano per proteine, ma permettono di isolare l'intero messaggero da una libreria e di localizzare e isolare il gene corrispondente da una libreria di frammenti di DNA (v. Adams e altri, 1993). Sono state già isolate e identificate circa 350.000 EST.
c) Identificazione di geni tramite le isole CpG
Con il nome ‛isole CpG' si indicano regioni del genoma della lunghezza di 1-2 kb caratterizzate da abbondanza di bersagli per enzimi di restrizione contenenti il dinucleotide CpG. Esse vennero identificate perché l'enzima HpaII, che riconosce il bersaglio
5′ - - - C C G G - - - 3′
3′ - - - G G C C - - - 5′
vi produce frammenti corti, di qualche centinaio di basi, dimostrando un'alta frequenza di bersagli, mentre i frammenti prodotti in altre regioni sono molto più lunghi: per questa ragione, vennero inizialmente chiamate ‛isole HTF' (HpaII Tiny Fragments). La differenza tra le regioni dei due tipi è dovuta allo stato di metilazione delle basi C centrali dei bersagli, che è assente nelle isole ma quasi costante altrove. Le isole CpG sono generalmente presenti nelle vicinanze delle regioni 5′ dei geni, dove esistono sovente anche bersagli per enzimi rare cutters, quale NotI, anch'essi suscettibili di metilazione ma non metilati.
Per isolare i geni associati alle isole si raccolgono frammenti prodotti da rare cutters, selezionando quelli che sono tagliati anche dall'enzima HpaII, e che perciò terminano con isole; un'alta proporzione di questi frammenti contiene l'estremità di un gene. Di questi geni, circa il 70% è attivo in tutte le cellule dell'organismo (i cosiddetti housekeeping genes); gli altri sono specifici di certi tessuti e tipi cellulari. I geni senza isole CpG appartengono di solito alla seconda categoria.
Le ragioni della mancanza di metilazione e dell'abbondanza dei dinucleotidi CpG nella regione di controllo dei geni non sono chiare, mentre sembra evidente che la metilazione dei dinucleotidi sopprime la funzione del gene.
11. L'organizzazione del genoma
Come risultato delle ricerche sui genomi di varie specie, è sempre più evidente che il genoma non è fatto soltanto di geni, ma che, da un punto di vista sia strutturale che funzionale, è un'entità complessa, di cui i geni sono soltanto una parte. Prenderemo ora in considerazione vari aspetti della sua organizzazione.
a) L'organizzazione dei cromosomi
Come risulta dallo studio dell'organizzazione dei cromosomi, sia metafasici che politenici, i geni e le sequenze non codificanti non sono distribuiti a caso nel genoma.
Nei cromosomi metafasici dei Mammiferi si riconoscono, con opportuni metodi di colorazione, bande trasversali di tre tipi principali: G, R (che include il sottotipo T) e Q. Queste bande sono prodotte dal modo complesso in cui il DNA si ripiega durante la condensazione dei cromosomi, formando un gran numero di anse in cui esso è perpendicolare all'asse del cromosoma; l'ordine delle anse nel cromosoma corrisponde all'ordine delle loro sequenze nel DNA. Il cromosoma è quindi un DNA estremamente accorciato, ma in modo isomorfico, per cui le sue bande trasversali corrispondono a regioni distinte del DNA; se ne deduce che le caratteristiche fisiche e chimiche del DNA (associato a proteine) variano regionalmente lungo la sua lunghezza.
La distribuzione regionale rivelata dalle bande si accorda con la distribuzione regionale rivelata dallo studio delle sequenze. Una correlazione molto chiara è dimostrabile tra le regioni ricche di basi C e G, che possono essere isolate dal resto del DNA per la loro maggiore densità (isocore pesanti; v. Bernardi, 1989) e sono concentrate nelle bande R, specialmente il sottotipo T (v. Saccone e altri, 1993). Le isole CpG sono concentrate in queste bande (v. Craig e Bickmore, 1994) e i messaggeri isolati dalle cellule si ibridano preferenzialmente col DNA delle stesse bande: perciò i geni sono localizzati soprattutto nelle isocore pesanti e nelle bande R (specialmente T), che sono disperse nei cromosomi, ma maggiormente concentrate in prossimità dei telomeri. Queste bande hanno altre caratteristiche distintive: sono formate da eucromatina (v. cap. 11, § g) e il loro DNA va incontro a replicazione nella prima parte della fase S del ciclo.
b) L'organizzazione delle sequenze del DNA
Le sequenze del DNA possono essere suddivise in due tipi: sequenze uniche, o codificanti, che determinano la struttura di molecole di RNA o proteine, e sequenze non codificanti. Queste ultime esistono sia tra un gene e l'altro (intergeniche), sia entro i geni (intrageniche). Molte delle sequenze intergeniche sono ‛sequenze ripetute', mentre quelle intrageniche sono gli ‛introni'. Le sequenze non codificanti di entrambi i tipi, molto limitate nei Procarioti, sono molto abbondanti negli Eucarioti, nei quali sono presenti in numero estremamente variabile da una specie all'altra; ciò provoca enormi discrepanze nelle grandezza totale del genoma, di cui queste sequenze costituiscono la parte predominante. Per esempio, tra gli eucarioti unicellulari, il genoma del lievito Saccharomyces cerevisiae è di 9 × 106 basi, mentre quello dell'ameba Amoeba dubia è di 7 × 1011 basi, cioè 80.000 volte più grande; e, tra gli organismi più complessi, il genoma dell'uomo è di 3 × 109 basi, mentre quello di certe salamandre è di 8 × 1010, più di venti volte maggiore.
Il grande eccesso di sequenze ripetute in certe specie è in parte dovuto al fatto che quelle più comuni sono parassitiche e tendono a invadere il genoma; così, negli organismi superiori, gli introni - pressoché assenti nei Procarioti e il cui potere invasivo è dimostrabile sperimentalmente in alcuni semplici Eucarioti - sono molto probabilmente il risultato di DNA invadenti. Anche le sequenze ripetute del DNA intergenico sono in grado di aumentare di numero, in punti diversi del genoma.
La generalizzazione di questi dati, che ha portato a definire il DNA non codificante selfish (‛egoista'; v. Orgel e Crick, 1980), non è corretta in senso assoluto, perché certe parti di questo DNA hanno funzioni importanti: esso contiene le regioni regolatrici dei geni, i punti dove inizia la replicazione del DNA, i punti dove avviene la ricombinazione, le sequenze dei centromeri, essenziali per la segregazione dei cromosomi alla mitosi e per il loro appaiamento alla meiosi, quelle dei telomeri, che sono fondamentali per l'integrità dei cromosomi, e altre ancora. Di molte di queste proprietà del DNA si sa ancora poco.
c) Le sequenze codificanti; le regioni di controllo
L'organizzazione dei geni include pure il loro controllo, che avviene attraverso speciali regioni, le quali possono essere specifiche di un singolo gene, oppure possono controllare più geni. Nei Batteri c'è una regolazione coordinata di gruppi di geni che hanno funzioni collegate, per esempio tre geni per il metabolismo del galattosio, o sei geni per il metabolismo del triptofano (v. Lewin, 1990): un gruppo di geni così organizzato, definito ‛operone', ha all'estremità 5′ una regione di controllo contenente il ‛promotore', che determina quando l'intero operone deve essere trascritto, e un ‛operatore', a qualche distanza, che rispondendo a sostanze stimolatrici o inibitrici, in presenza di proteine regolatrici, controlla il promotore. Il messaggero che ne deriva contiene il trascritto di tutti i geni dell'operone (‛messaggero policistronico'), sul quale vengono poi prodotte separatamente le proteine corrispondenti ai vari geni.
Negli Eucarioti, invece, con l'eccezione di organismi unicellulari quali i tripanosomi, i geni vengono regolati e trascritti indipendentemente l'uno dall'altro, generando ‛messaggeri monocistronici'. Tra i Metazoi un'eccezione si osserva nel nematode C. elegans, in cui una parte dei geni, organizzati come quelli dei Procarioti in operoni, vengono trascritti in RNA policistronici, dai quali poi derivano i messaggeri dei singoli geni per un processo di splicing (v. Spieth e altri, 1993).
Nella maggioranza degli Eucarioti il controllo dei geni tende a essere più complesso che non nei Procarioti: esiste un promotore, corrispondente a quello dei Procarioti, e un sistema di controllo corrispondente all'operatore, chiamato enhancer perché nella maggior parte dei casi stimola la trascrizione del gene; questa, in alcuni casi, è arrestata da un ‛silenziatore'. L'enhancer è molto complesso, comprendendo cinque o sei segmenti separati su cui agiscono parecchie proteine diverse. Quando un operatore è attivato dall'interazione con proteine regolatrici, si verifica un cambiamento nell'organizzazione della cromatina, che crea dei ‛siti di ipersensibilità a DN-asi' o a certi enzimi di restrizione: l'interazione con le proteine, infatti, deforma il DNA e altera la struttura della cromatina (v. sotto, § g), cosicché certe regioni del DNA, prima coperte, diventano scoperte e accessibili all'enzima. La distorsione del DNA, poi, permette l'inserzione del complesso trascrizionale tra le due catene.
Organizzazioni di controllo che includono parecchi geni esistono anche nei Mammiferi. Un esempio si osserva nel gruppo di geni delle β-globine in cui l'LCR (Locus Control Region) aumenta l'espressione dei singoli geni. Il gruppo include cinque geni, che diventano attivi in diversi periodi di sviluppo (v. Hanscombe e altri, 1991): il gene ε è attivo nel periodo embrionale precoce, quello γ (di cui esistono due copie) durante la maggior parte della vita fetale; il gene β e quello δ sono attivi durante tutta la vita postnatale. L'ordine in cui diventano attivi corrisponde al loro ordine nel cromosoma; l'LCR è situato in posizione 5′ rispetto al gruppo, dalla parte dei geni γ, a una distanza di 50 kb, e agisce su tutti i geni nello stesso tempo, con un effetto che diminuisce con la distanza (v. Tuan e altri, 1985). Come l'LCR agisca non è chiaro, ma il suo funzionamento suggerisce la trasmissione di segnali lungo il DNA, o come modificazioni strutturali o come movimento di molecole.
d) Gruppi di geni
I geni della β-globina rappresentano un esempio di raggruppamento di geni con funzioni simili per uno scopo funzionale. Un altro esempio di raggruppamento dello stesso tipo, di grande interesse, è quello dei geni HOX dei Mammiferi, che hanno importanti ruoli nello sviluppo dell'embrione, dei quali esistono geni corrispondenti in tutti i Vertebrati (v. McGinnis e Krumlauf, 1992). Nell'uomo sono noti 38 geni HOX, organizzati in quattro gruppi, da HOXA a HOXD, localizzati su quattro cromosomi diversi e con effetti su parti diverse del corpo (v. Krumlauf, 1994); in ciascun gruppo i geni sono trascritti nella stessa direzione, seguendo un programma molto preciso che ne determina l'attività in certe parti dell'embrione e a tempi definiti. Spazialmente, essi vengono attivati l'uno dopo l'altro in direzione da 5′ a 3′, esprimendosi in regioni dell'embrione da posteriore ad anteriore; temporalmente, la successione è da 3′ a 5′. Se si causa l'inattivazione di un gene del gruppo, anche i geni a monte di esso (cioè in direzione 5′) divengono inattivi, mentre quelli a valle continuano a operare normalmente. Evidentemente c'è una precisa organizzazione dell'attività dei geni, probabilmente basata su cambiamenti locali della regione genomica che li contiene, che potrebbero essere simili a quelli implicati nell'azione dell'LCR, ma dei quali si ignora la natura. Anche in altre regioni del genoma sembra esserci una regolazione di tipo simile, come è suggerito dall'esistenza di gruppi di geni adiacenti che vengono trascritti tutti nella stessa direzione.
e) Le sequenze non codificanti; le sequenze ripetute
Sequenze ripetute di varia lunghezza, in vario numero, senza chiara funzione, sono presenti nei genomi di tutti gli Eucarioti e costituiscono la maggior parte di quello dei Primati, compreso l'uomo. Le più frequenti sono le sequenze del gruppo SINE (Short Interspersed Elements): tra queste le principali sono le sequenze Alu (così chiamate perché contengono un bersaglio per l'enzima di restrizione AluI, che portò alla loro scoperta; v. Kornberg, 1974), formate dall'associazione di due sequenze pressoché uguali di 130 basi, derivate da un gene per un RNA (7SL RNA) necessario per dirigere le proteine in formazione verso il reticolo endoplasmatico. Il genoma umano contiene circa un milione di sequenze Alu, suddivise in parecchie famiglie, localizzate a una distanza media di 5 kb l'una dall'altra; perciò la maggioranza dei cloni, anche abbastanza piccoli, di una libreria contiene una sequenza Alu, così che è possibile impiegarle in alcune tecniche di mappatura e sequenziamento del genoma (v. Nelson e altri, 1989).
Le sequenze Alu hanno il carattere di ‛retrotrasposoni', cioè sono capaci di riprodursi in modo autonomo attraverso un intermediario di RNA, che poi genera per trascrizione inversa una copia di DNA capace di inserirsi in nuovi punti del genoma. Una grande invasione del genoma umano da parte di queste sequenze sembra essere avvenuta circa 30 milioni di anni fa (v. Britten, 1994); il processo continua, ma su piccola scala, perché solo poche master copies sono capaci di riprodursi. Se l'inserzione avviene in un gene, questo può venirne inattivato: è il caso, per esempio, del gene NF1 in una forma di neurofibromatosi.
Anche alcune sequenze ripetute del tipo SINE presenti nei Roditori, lunghe da 85 a 105 basi, derivate dal gene per un tRNA, sembrano comportarsi come retrotrasposoni. Nel genoma dei Mammiferi è contenuto anche un altro tipo di sequenze ripetute, il gruppo LINE (Long Interspersed Elements), anch'esse retrotrasposoni della lunghezza di circa 6.000 basi, presenti in 100.000 copie nel genoma, di cui costituiscono il 15-30% (v. Fanning e Singer, 1987). Esse hanno struttura simile a quella dei Retrovirus, con cui sembrano connesse nell'evoluzione, e come i Retrovirus contengono il gene per la trascrittasi inversa che ne permette la moltiplicazione e lo spostamento; molte delle sequenze così prodotte sono però incomplete e incapaci di moltiplicarsi. Tuttavia, la continua realizzazione di nuove inserzioni causa occasionalmente l'inattivazione di geni: per esempio, un caso di emofilia A ebbe origine in questo modo.
f) Centromeri e telomeri
Una particolare struttura dei cromosomi degli Eucarioti, alla quale si attaccano i microtubuli per distribuire i prodotti della divisione alle cellule figlie durante la meiosi o la mitosi, è il ‛cinetocoro', costituito dal DNA centromerico con proteine associate. La costituzione di questo DNA, essenziale anche per il processo di appaiamento dei cromosomi durante la meiosi, varia molto da una specie all'altra: nei Mammiferi è formato da sequenze ripetute, specialmente le sequenze ‛satelliti alfoidi' (v. Choo e altri, 1991), il cui costituente principale è un'unità di 171 basi, organizzata in unità di ordine superiore di lunghezza variabile da 250 kb a 1 Mb, diverse da un cromosoma all'altro; esse sono essenziali per il funzionamento del centromero. In aggiunta vi sono molte altre sequenze ripetute in paia (chiamate ‛DNA satellite') di lunghezza variabile da 5 a 410 basi.
I telomeri costituiscono le estremità dei cromosomi (v. Blackburn, 1991). In quasi tutti gli Eucarioti (Drosophila è un'eccezione) essi terminano con una serie di ripetizioni di un gruppo di 5-8 basi, all'estremità della catena del DNA che termina in posizione 3′ (v. Choo e altri, 1991). La loro funzione è molteplice: con le proteine associate, proteggono l'estremità della catena dall'attacco da parte di esonucleasi e permettono la conservazione delle sequenze terminali durante la duplicazione del DNA. Ciò è necessario perché, mentre la catena che termina in 5′ può essere duplicata interamente, non può esserlo quella che termina in 3′; questa è invece duplicata dai ‛frammenti di Okazaki', che crescono dall'estremità verso il centro: infatti, se si provoca la rottura di un cromosoma in una cellula, la presenza di estremità senza telomero causa l'arresto del ciclo cellulare e quindi l'instabilità del cromosoma, che viene perduto. I telomeri possono avere anche altre funzioni, come è suggerito dalla loro complicata struttura a cui partecipano proteine di parecchi tipi: pare, fra l'altro, che, ripiegandosi su se stessi, i telomeri formino delle strutture a quattro catene (note come ‛quartetti G'), stabilizzate da legami tra le molte basi G del DNA telomerico. Forse per queste ragioni in molte specie i telomeri tendono a raggrupparsi alla superficie interna della membrana nucleare.
I telomeri vennero inizialmente scoperti in un'alga unicellulare (Tetrahymena), in cui sono costituiti da ripetizioni della sequenza 5′-GGGTTG-3′, per la lunghezza di alcune migliaia di basi. Quelli umani hanno quasi la stessa sequenza: 5′-GGGATT-3′. Le sequenze elementari sono sintetizzate da un enzima, la telomerasi, che le aggiunge ai telomeri preesistenti. L'enzima ha come parte integrante un pezzo di RNA che contiene la sequenza complementare, e produce la sequenza telomerica di DNA per trascrizione inversa. In Drosophila non esistono telomeri di questo tipo: le estremità dei cromosomi sono protette da retrotrasposoni che vengono di tanto in tanto aggiunti all'estremità dei cromosomi (v. Blackburn, 1994)
Il ruolo tanto importante della trascrizione inversa nella stabilità dei cromosomi come nella propagazione delle sequenze ripetute lascia ipotizzare che probabilmente la protezione dei cromosomi divenne necessaria subito dopo la comparsa del DNA per sostituire l'RNA nella costituzione dei genomi, quando i precursori delle sequenze ripetute esistenti oggi rappresentavano un importante meccanismo evolutivo: l'importanza che la trascrizione inversa doveva avere in quel periodo di transizione nei fenomeni biologici fa pensare che le sequenze ripetute siano state essenziali nell'evoluzione dei genomi.
Durante la moltiplicazione delle normali cellule somatiche dell'uomo e di altre specie, nelle quali non è presente la telomerasi, i telomeri tendono ad accorciarsi progressivamente a ogni divisione cellulare; è possibile che il loro accorciamento eccessivo, o addirittura la loro scomparsa, sia la causa della vita limitata caratteristica delle cellule non neoplastiche in coltura. Invece le cellule neoplastiche, nelle quali è presente una telomerasi attiva, hanno vita illimitata.
g) La cromatina
Nelle cellule sia dei Procarioti che degli Eucarioti il DNA del genoma è associato a proteine, con cui forma una struttura mista. Negli Eucarioti questa, nota come cromatina, esiste in due forme diverse, l'eucromatina e l'eterocromatina, che sono normalmente presenti in parti diverse del genoma (v. John e Miklos, 1988). L'eucromatina è una struttura periodica formata da ‛nucleosomi', cioè gruppi proteici in forma di ottamero costituiti da quattro tipi di istoni, H2A, H2B, H3 e H4, ciascuno in due copie, attorno a cui è avvolta un'ansa di DNA contenente dieci basi (v. Kornberg, 1974); un altro istone, H1, è situato nel punto di unione di due nucleosomi. La struttura della cromatina dipende dallo stato funzionale del DNA, se trascritto o no: in geni che sono continuamente trascritti (come quelli per l'RNA ribosomiale) il DNA è essenzialmente nudo, mentre in quelli inattivi è completamente avvolto in ottameri. Infatti l'eucromatina è una struttura dinamica: quando un gene da inattivo diventa attivo, ed è trascritto, la polimerasi che effettua la trascrizione sposta gli ottameri uno per uno, man mano che procede lungo il DNA (v. Lewin, 1994). Dopo la fine della trascrizione i nucleosomi rimangono irregolari per qualche tempo, ma entro una decina di minuti si riassestano. Nei geni attivi avviene spesso una modificazione degli istoni, l'acetilazione, specialmente in corrispondenza delle isole CpG che sono nel promotore del gene, mentre un'altra modificazione che può avvenire nel DNA delle isole, la metilazione della base C, tende a inattivare il gene. Anche le proteine che si legano all'enhancer del gene associandosi sia agli ottameri che al DNA modificano la struttura della cromatina. In tutti questi casi gli spostamenti dei nucleosomi rispetto al DNA richiedono energia, che è fornita da ATP.
L'eterocromatina è una forma speciale di cromatina, più compatta e con alto contenuto di sequenze ripetute, che si replica tardi nella fase S del ciclo ed è localizzata in certe parti del genoma; nei cromosomi politenici di Drosophila è scarsamente rappresentata, da 64 a 1.000 volte meno dell'eucromatina. Vi sono due forme di eterocromatina: la α, che contiene DNA costituito quasi esclusivamente da sequenze ripetute ed è priva di geni, e la β, che contiene meno ripetizioni e qualche gene. L'eterocromatina contiene regioni di grande importanza biologica, come i centromeri, e riflette lo stato funzionale del genoma, come si osserva nel cromosoma X inattivo delle femmine di Mammiferi, che è formato da eterocromatina ed è contratto (corpo di Barr).
Lo stato della cromatina ha un'influenza importante sui geni, perché quelli normalmente presenti nell'eterocromatina β perdono attività se vengono trasferiti all'eucromatina e, viceversa, quelli attivi nell'eucromatina sono inattivi nell'eterocromatina. La presenza di eterocromatina influenza anche l'attività di geni situati nell'eucromatina adiacente, causandone l'inattivazione, un fenomeno noto come ‛effetto di posizione' (v. Spoffard, 1976) che può propagarsi anche a notevole distanza, probabilmente perché la struttura dell'eterocromatina si estende all'eucromatina; spesso tale propagazione è arrestata da un'altra struttura della cromatina, nota come ‛isolatore'. Strutture simili sono anche capaci di bloccare la comunicazione tra segmenti del DNA: per esempio, un isolatore intercalato tra un enhancer e un promotore blocca l'azione dell'enhancer. Non si conosce la composizione delle strutture coinvolte in questi fenomeni.
La formazione di eterocromatina può essere indotta in regioni normalmente eucromatiche dalla presenza di sequenze contenenti molte ripetizioni - incluse quelle di triplette che sono causa di malattie ereditarie nell'uomo e quelle di trasposoni o transgeni prodotte sperimentalmente - probabilmente per l'appaiarsi di segmenti ripetuti del DNA, che impedisce la formazione della struttura normale, causandone una anomala. È probabile che questo sia anche il meccanismo normale di formazione dell'eterocromatina, che ha sempre un alto contenuto di sequenze ripetute.
12. La replicazione del genoma
La replicazione del singolo cromosoma di batteri e di virus contenenti DNA inizia in un punto fisso, detto ‛origine'. Nel batterio Escherichia coli l'origine è formata da una sequenza di 245 basi, che è conservata nelle specie vicine; a essa si lega un complesso di proteine per iniziare la replicazione, che di lì procede in entrambe le direzioni, per terminare in un punto ben definito, collegato alla membrana cellulare. Alla fine della replicazione quella parte della membrana comincia a crescere, portando allo sdoppiamento della cellula e alla formazione di due nuove cellule, ognuna delle quali contiene un cromosoma intero.
Anche nel lievito la replicazione dei cromosomi inizia in origini che vengono identificate perché, se inserite in un plasmide, lo rendono capace di duplicazione entro cellule di lievito. Queste origini, chiamate ARS (Autonomous Replicating Sequences), sono necessarie per il funzionamento dei vettori YAC (v. cap. 8, § b); esse contengono circa 300 basi, che includono una sequenza di undici basi molto simile in diverse specie di lievito e perciò probabilmente essenziale. Ogni cromosoma contiene parecchie origini, da cui la replicazione procede in entrambe le direzioni, per terminare dove incontra l'onda di replicazione proveniente da un'altra ARS.
I cromosomi dei Mammiferi contengono molte origini, il cui numero è stimato in circa 40.000 in tutto il genoma. La loro esistenza viene riconosciuta marcando il DNA per pochi minuti con timidina radioattiva e poi facendo un'autoradiografia di DNA disteso: si osservano molti punti radioattivi, ciascuno dei quali corrisponde a un tratto di DNA in duplicazione. Con opportune tecniche si è stabilito che anche in queste specie la duplicazione procede da ogni origine in entrambe le direzioni; essa probabilmente termina come nel lievito.
Non è stato ancora possibile isolare origini di duplicazione da cellule di Mammiferi; non è nemmeno chiaro se vi siano origini fisse o se la replicazione possa iniziare in molti punti di certe regioni, forse sotto l'influenza della struttura locale della cromatina. In favore dell'esistenza di regioni di origine preferenziali sta un'osservazione sul gruppo di geni della globina β, in cui normalmente si osserva una duplicazione divergente a partire da una regione tra i geni δ e β. In una variante, presente nell'emoglobina alterata ‛Lepore', in cui una delezione causa la fusione dei due geni, la duplicazione procede in una direzione sola: presumibilmente, l'origine è nella parte deleta e, quando essa viene perduta, l'origine adiacente controlla la duplicazione della regione, ma quest'osservazione non spiega come sia costituita l'origine. Sono state localizzate altre due origini, una in un cromosoma umano, l'altra in Drosophila.
13. I genomi di mitocondri e cloroplasti
Nei Mammiferi e in molti altri organismi il genoma mitocondriale è simile a quello dei Batteri, da cui i mitocondri derivano: è una molecola circolare di grandezza variabile, da 16 kb nell'uomo, a 80 kb nei lieviti; nelle piante si osservano grandi variazioni, inclusa la presenza di molecole lineari. Il genoma mitocondriale umano è replicato da due origini distinte, una per ciascuna catena del DNA; le due catene sono anche trascritte separatamente, con l'intervento di due promotori diversi. Questo genoma, molto compatto, quasi completamente privo di sequenze intergeniche, contiene 37 geni, di cui 2 per RNA ribosomiale, 22 per tRNA e 13 per proteine: queste ultime sono tutte componenti del processo che produce energia, cioè la fosforilazione ossidativa. I tRNA sono disseminati con sorprendente regolarità e rappresentano i punti dove termina la sintesi di proteine individuali sul trascritto policistronico. Nel lievito l'organizzazione del genoma è più simile a quella del genoma nucleare, con introni, sequenze ripetute e trascrizione da molti promotori.
Nell'uomo il genoma mitocondriale è ereditato esclusivamente dalla madre: è frequente sede di mutazioni, parecchie delle quali sono responsabili di malattie ereditarie di origine materna, che generalmente interessano organi che consumano molta energia, quali il cuore, i muscoli, il cervello. Esso è anche abbastanza polimorfico, specialmente in una regione non codificante, chiamata ‛ansa D' (D loop), situata all'origine di replicazione di una delle catene del DNA. Per questa ragione, e per la sua ereditarietà uniparentale, la sequenza dell'ansa D è usata per definire la composizione e l'origine di popolazioni umane.
Il genoma dei cloroplasti è circolare, generalmente molto più grande di quello dei mitocondri (120-180 kb), con spiccate variazioni da una specie all'altra; contiene più geni (alcuni contenenti introni) che non quello mitocondriale, di cui circa 100 per proteine, in maggioranza componenti del sistema fotosintetico, e 35 per RNA, in parte ribosomiale, in parte tRNA.
BIBLIOGRAFIA
Adams, M. D., Kerlavage, A. R., Fields, C., Craig Ventner, J., 3400 new expressed sequence tags identify diversity of transcripts in human brain, in ‟Nature genetics", 1993, IV, pp. 256-267.
Avner, P., Quantity and quality: polygenic analysis in the mouse, in ‟Nature genetics", 1994, VII, pp. 3-4.
Bernardi, G., The isochore organization of the human genome, in ‟Annual review of genetics", 1989, XXIII, pp. 637-661.
Bishop, J. M., The molecular genetics of cancer, in ‟Science", 1987, CCXXXV, pp. 305-311.
Blackburn, E. H., Structure and function of telomeres, in ‟Nature", 1991, CCCL, pp 569-573.
Blackburn, E. H., Telomeres: no end in sight, in ‟Cell", 1994, LXXVII, pp. 621-623.
Britten, R., Evidence that most human Alu sequences were inserted in a process that ceased about 30 million years ago, in ‟Proceedings of the National Academy of Sciences", 1994, LXXXXI, pp. 6148-6150.
Buckler, A. J., Chang, D. D., Graw, S. L., Brook, J. D., Haber, D. A., Sharp, P. A., Housman, D. E., Exon amplification: a strategy to isolate mammalian genes based on RNA splicing, in ‟Proceedings of the National Academy of Sciences", 1991, LXXXVIII, pp. 4005-4009.
Choo, K. H., Vissel, B., Nagy, A., Earle, E., Kalitsis, P., A survey of the genomic distribution of alpha satellite DNA on all the human chromosomes, and derivation of a new consensus sequence, in ‟Nucleic acids research", 1991, XIX, pp. 1179-1182.
Cohen, D., Chumakov, I., Weissenbach, J., A first-generation physical map of the human genome, in ‟Nature", 1993, CCCLXVI, pp. 698-701.
Collins, F., Galas, D., US genome program, in ‟Science", 1993, CCLXII, pp. 43-46.
Cox, D. R., Burmeister, M., Price, E. R., Kim, S., Myers, R. M., Radiation hybrid mapping: a somatic cell genetic method for constructing high resolution maps of mammalian chromosomes, in ‟Science", 1990, CCL, pp. 245-250.
Craig, J. M., Bickmore, W. A., The distribution of CpG islands in mammalian chromosomes, in ‟Nature genetics" 1994, VII, pp. 376-382.
Dib, C. e altri, A comprehensive genetic map of the human genome based on 5,264 microsatellites, in ‟Nature", 1996, CCCLXXX, pp. 152-154.
Dietrich, W. F. e altri, A comprehensive genetic map of the mouse genome, in ‟Nature", 1996, CCCLXXX, pp. 149-152.
Dulbecco, R., A turning point in cancer research: sequencing the human genome, in ‟Science", 1986, CCXXXI, pp. 1055-1056.
Dulbecco, R., The Italian Genome Project, in ‟Genomics", 1990, VII, pp. 294-297.
Fanning, T. G., Singer, M. F., LINE-1: a mammalian transposable element, in ‟Biochimica et biophysica acta", 1987, DCCCCX, pp. 203-212.
Fields, C., Adams, M. D., White, O., Craig Ventner, J., How many genes in the human genome?, in ‟Nature genetics", 1994, II, pp. 345-346.
Haluska, F. G., Croce, C. M., Molecular mechanisms of chromosome translocation in human B- and T-cell neoplasia, in ‟Annals of the New York Academy of Sciences", 1987, DXI, pp. 196-206.
Hanscombe, O., Whyatt, D., Fraser, P., Yannoutsos, N., Greaves, D., Dillon, N., Groveld, F., Importance of globin gene order for correct developmental expression, in ‟Genes and development", 1991, V, pp. 1337-1394.
Hudson, T. J. e altri, An STS-based map of the human genome, in ‟Science", 1995, CCLXX, pp. 1945-1954.
John, B., Miklos, G. L. B., The eukaryote genome in development and evolution, Boston 1988.
Knudson, A. G. Jr., Genetics of human cancer, in ‟Annual review of genetics", 1986, XX, pp. 231-251.
Korenberg, J. R., Rykowski, M. C., Human genome organization: Alu, lines, and the molecular structure of metaphase chromosome bands, in ‟Cell", 1988, LIII, pp. 391-400.
Kornberg, R. D., Chromatin structure: a repeating unit of histones and DNA, in ‟Science", 1974, CLXXXIV, pp. 868-871.
Krumlauf, R., HOX genes in vertebrate development, in ‟Cell", 1994, LXXVIII, pp. 191-201.
Lander, E. S., Finding similarities and differences among genomes, in ‟Nature genetics", 1993, IV, pp. 5-6.
Lander, E. S., Schork, N. J., Genetic dissection of complex traits, in ‟Science", 1994, CCLXV, pp. 2037-2047.
Lewin, B., Genes IV, Oxford 1990.
Lewin, B., Chromatin and gene expression: constant questions, but changing answers, in ‟Cell", 1994, LXXIX, pp. 397-406.
McGinnis, W., Krumlauf, R., Homeobox genes and axial patterning, in ‟Cell", 1992, LXVIII, pp. 283-302.
Mullis, K. B., Faloona, F. A., Specific synthesis of DNA in vitro via a polymerase-catalyzed chain reaction, in ‟Methods in enzymology", 1987, CLV, pp. 335-350.
Murray, J. C. e altri (Cooperative Human Linkage Center, CHLC), A comprehensive human linkage map with centimorgan density, in ‟Science", 1994, CCLXV, pp. 2049-2054.
Nelson, D. L., Ledbetter, S. A., Corbo, L., Victoria, M. F., Ramirez-Solia, R., Webster, T. D., Ledbetter, D. H., Caskey, C. T., Alu polymerase chain reaction: method for rapid isolation of human-specific sequences from complex DNA sources, in ‟Proceedings of the National Academy of Sciences", 1989, LXXXVI, pp. 6686-6690.
Olson, M., Hood, L., Cantor, C., Botstein, D., A common language for physical mapping of the human genome, in ‟Science", 1989, CCXXXXV, pp. 1434-1435.
Orgel, L. E., Crick, F. H. C., Selfish DNA: the ultimate parasite, in ‟Nature", 1980, CCLXXXIV, pp. 604-607.
Pinkel, D., Landagent, J., Collins, C., Fuscoe, J., Segraves, R., Lucas, J., Gray, J., Fluorescence in situ hybridization of human chromosome-specific libraries. Detection of trisomy 21 and translocations of chromosome 4, in ‟Proceedings of the National Academy of Sciences", 1988, LXXXV, pp. 9138-9142.
Poutska, A., Lehrach, H., Jumping libraries and linking libraries. The next generation of molecular tools in mammalian genetics, in ‟Trends in genetics" 1986, II, pp. 174-179.
Saccone, S., De Sario, A., Wiegant, J., Raap, A. K., Della Valle, G., Bernardi, G., Correlations between isochores and chromosomal bands in the human genome, in ‟Proceedings of the National Academy of Sciences", 1993, LXXXX, pp. 11929-11933.
Smith, C. L., Warburton, P. E., Gaal, A., Cantor, C. R., Analysis of genome organization and rearrangements by pulsed field gradient electrophoresis, in ‟Genetic engineering", 1986, VIII, pp. 45-70.
Spieth, J., Brooke, G., Kuersten, S., Lea, K., Blumenthal, T., Operons in C. elegans; polycistronic mRNA precursors are processed by trans-splicing of SL2 to downstream coding regions, in ‟Cell", 1993, LXXIII, pp. 521- 532.
Spoffard, J. B., Positive-effect variegation in Drosophila, in The genetics and biology of Drosophila (a cura di M. Ashburner e E. Novitski), London 1976, pp. 955-1019.
Tuan, D., Solomon, W., Li, Q., London, I. M., The ‟beta-like-globin" gene domain in human erythroid cells, in ‟Proceedings of the National Academy of Sciences", 1985, LXXXII, pp. 6384-6388.
Ward, T., Davies, K. E., The leading role of STSs in genome mapping, in ‟Human molecular genetics", 1993, II, pp. 1097-1098.
Weissenbach, J., Gyapay, G., Dib, C., Vignal, A., Morissette, J., Millasseau, P., Vaysseix, G., Lathrop, M., A second-generation linkage map of the human genome, in ‟Nature", 1992, CCCLIX, pp. 794-801.