Gene
Gene viene dal tedesco Gen, termine coniato, nel 1909, dal botanico e genetista danese W.L. Johannsen, che lo trasse dal tema greco di γένεσις, "origine, generazione". Le definizioni di gene che sono state via via formulate, da quando è nata la genetica fino alla sua fase attuale, sono molto diverse tra loro e riflettono le conoscenze di ciascuna epoca su questa entità biologica. Per definire il gene se ne dovrebbero elencare, sia pure in forma molto succinta, le principali proprietà anatomiche e funzionali, descrivendo come è fatto e che cosa fa, più precisamente, che cosa è in grado di fare, poiché nella maggior parte dei casi i geni non fanno ciò che sarebbero in grado di fare. Conviene quindi trattare il problema della definizione in due sezioni distinte, quella relativa alla fase premolecolare della genetica e quella del periodo molecolare, ovvero l'attuale. Per entrambi i periodi è necessario precisare che la definizione riguarda in realtà non un'entità singola, bensì un'intera categoria di entità classificate assieme per il fatto di avere un certo numero di proprietà anatomofunzionali in comune. Sarebbe quindi più preciso parlare di geni piuttosto che di gene, così come correttamente si dice gli enzimi e le proteine.
La genetica moderna, la cui nascita si data all'inizio del Novecento con la riscoperta delle leggi di G. Mendel (v. biologia), per circa sessant'anni ha proceduto con due approcci, quello formale e quello citogenetico, che hanno costituito le basi della genetica successiva, denominata molecolare; tali basi si sono rivelate molto solide e non sono mai state contraddette dalle scoperte successive. L'approccio formale ha portato, attraverso lo studio delle modalità di trasmissione, all'identificazione di entità responsabili di caratteri fenotipici, cioè di caratteri ereditari mutabili, la cui variabilità era apprezzabile al livello a cui si effettuava l'osservazione. Per molti di questi caratteri i rapporti tra le frequenze dei fenotipi alternativi (che dovevano essere almeno due) sono risultati tali da poter essere spiegati solamente postulando che il carattere in questione dipendesse da un singolo fattore (caratteri unifattoriali), in seguito chiamato gene (caratteri unigenici). La natura e il modo di funzionare del gene restavano, tuttavia, completamente ignoti (basti pensare che l'opinione più diffusa a quell'epoca era che i geni fossero proteine). È evidente che questo approccio si prestava a identificare solo alcuni geni, cioè solo quelli che esistevano in almeno due forme alternative, gli alleli, in grado di dare origine a fenotipi distinguibili con il metodo di osservazione adottato. Per es., il gene del sistema di gruppo sanguigno AB0 è stato scoperto perché esiste in tre forme alleliche, cui corrispondono quattro fenotipi, lo 0, l'A, il B e l'AB, che sono risultati distinguibili con tecniche sierologiche. In moltissimi casi, uno dei due alleli di un gene (lo chiameremo X) era rappresentato da una sua versione non funzionante o silente (x). Il gene veniva identificato, dunque, attraverso la scoperta di due fenotipi alternativi, uno associato alla presenza della sua funzione, che quindi corrispondeva ai due genotipi con almeno un suo allele funzionante (XX o Xx), e l'altro, privo della funzione X, corrispondente al genotipo xx. Dato che il gene in questione era stato scoperto identificando non la sua funzione ma un fenotipo anomalo alternativo a quello normale, causato dall'assenza di questa funzione, i geni individuati in questo modo sono stati indicati con il nome del fenotipo anomalo associato all'assenza della funzione del gene. Si parlava, per es., del gene della idiozia fenilpiruvica e di quello della talassemia major (invece che, rispettivamente, di gene della fenilidrossilasi e di gene della globina β), proprio come si era costretti a fare con le vitamine quando non se ne conosceva il significato biologico (per es., la vitamina B₁ si chiamava vitamina anti-beriberica invece di precocarbossilasi). In altre parole, il nome di questi geni non indicava la loro funzione, che restava sconosciuta, bensì la conseguenza più appariscente della mancanza di questa funzione. L'approccio formale ha raggiunto un livello di risoluzione molto elevato, che ha permesso, in alcuni casi, di ottenere informazioni sul numero di geni responsabili della comparsa di un determinato fenotipo con due test per alcuni aspetti simili tra loro: il test di allelismo e il test cis-trans. Lo studio eseguito con il test di allelismo di certi fenotipi anomali ha portato a scoprire che, in molti casi, un dato fenotipo può dipendere da più di un gene. Il test cis-trans consente, invece, di esplorare le eventuali relazioni funzionali tra siti diversi di un genoma, a patto che esso sia diploide almeno nella parte presa in esame e che si disponga di almeno due alleli per ognuno dei siti oggetto di studi.
a) Il test di allelismo. Se la comparsa di un certo fenotipo normale X richiede il funzionamento di n (supponiamo 3) geni diversi A, B e C, l'omozigosi per un allele silente per uno qualsiasi di questi tre geni (aa o bb o cc) comporta la comparsa di un fenotipo anormale non-X. Poiché questo fenotipo è lo stesso per tutti e tre i tipi di omozigoti, se si scoprono due individui non-X non è possibile dall'esame del fenotipo sapere se la loro anomalia genetica riguarda lo stesso gene oppure geni diversi; ciò equivale a dire che lo scoprire individui diversi, ma tutti non-X, non dice se il fenotipo X dipende da uno solo o da più geni. Ma se, invece di limitarsi a constatare l'esistenza del fenotipo non-X in due individui, si prende in esame la progenie nata dal loro incrocio, è possibile chiarire se essi sono omozigoti per un allele silente dello stesso gene, oppure per un allele silente di due geni diversi: infatti, se la loro progenie è tutta fenotipicamente non-X, vuol dire che i due genitori sono omozigoti per un allele silente dello stesso gene (questo risultato sarebbe compatibile con l'ipotesi che il carattere X in esame dipenda da un solo gene); se invece la loro progenie è tutta fenotipicamente X, si deve concludere che i due soggetti non-X in esame sono omozigoti per alleli silenti di geni diversi (per es. uno è aa l'altro è cc), vale a dire che il carattere X dipende da almeno due geni.
b) Il test cis-trans. Questo test, pur essendo esclusivamente formale, ha un potere di risoluzione molto elevato, i cui risultati sono stati tutti confermati in seguito a livello molecolare. Esso è applicabile solo a entità duplici, requisito soddisfatto per definizione negli organismi diploidi, e, in realtà, più che definire un'unità funzionale, permette di accertare se due siti variabili fanno parte della stessa unità funzionale oppure non ne fanno parte. Un paragone non realistico, che ha però il vantaggio di prendere in considerazione elementi familiari a tutti, può essere utile a illustrare la base teorica di questo metodo. Si immagini di non sapere nulla sulle relazioni anatomiche e funzionali tra le varie parti del corpo e di prendere in esame, come entità anatomiche presenti normalmente in coppia, una a destra e una a sinistra, i due grossi bronchi, i due ureteri, i due polmoni e i due reni, allo scopo di accertare se e quali di queste entità anatomiche facciano parte della stessa unità funzionale. Se entrambi gli elementi di una coppia non funzionano (per es. entrambi i grossi bronchi sono ostruiti) ne risulta la morte, proprio come si verifica per gli alleli letali recessivi, cioè alleli silenti di un gene non duplicato che esplica una funzione indispensabile (l'assenza della funzione di un gene associata all'omozigosi per un suo allele silente non è letale se la funzione mancante non è indispensabile o se esiste anche un altro gene che effettua la stessa funzione).
Uno dei modi più efficienti per accertare se due di queste coppie di elementi fanno parte della stessa unità funzionale consisterebbe allora nel confrontare due individui, entrambi con un elemento funzionante e uno non funzionante di ciascuna delle due coppie, ma che differiscano l'uno dall'altro per il modo in cui sono assortiti i quattro elementi in esame: in uno i due elementi funzionanti (uno della prima coppia e l'altro della seconda) sono in cis, cioè dalla stessa parte, nell'altro, invece, i due elementi funzionanti sono in trans, cioè uno da una parte e il secondo dall'altra, per cui né la parte destra né quella sinistra del corpo è normale per entrambi gli elementi. Tenendo conto di ciò che sappiamo sull'anatomia e la fisiologia delle quattro coppie di entità in esame, è evidente quali sarebbero i risultati di questi confronti: per le coppie bronchi-ureteri, bronchi-reni, ureteri-polmoni e polmoni-reni i due individui sarebbero uguali (entrambi relativamente sani), cioè l'assortimento dei due elementi funzionanti e dei due non funzionanti risulterebbe irrilevante: per es., se un individuo ha un uretere e un grosso bronco ostruiti e l'altro uretere e l'altro grosso bronco entrambi pervi, è irrilevante se i due elementi funzionanti siano in cis o in trans. Per le coppie bronchi-polmoni e ureteri-reni i due individui risulterebbero invece molto diversi: quello con i due elementi sani dalla stessa parte sarebbe relativamente sano, mentre l'altro morirebbe perché nessuna delle sue due unità funzionali, quella della respirazione nella coppia bronchi-polmoni e quella della escrezione nel caso della coppia ureteri-reni, esplicherebbe la sua funzione. Se ne dedurrebbe allora, e a ragione, che i bronchi e i polmoni fanno parte della stessa unità funzionale e lo stesso si evincerebbe per gli ureteri e i reni; viceversa, si arriverebbe alla conclusione che, per es., i bronchi e gli ureteri fanno parte di unità funzionali differenti. L'insieme di questi risultati può essere spiegato sulla base del principio secondo il quale se una certa funzione indispensabile alla vita dell'organismo, come la respirazione e l'escrezione, è normalmente svolta da due unità funzionali, la vita è possibile soltanto se almeno una di esse funziona e questo, a sua volta, richiede che funzionino tutte le sue parti: se una di esse non funziona, non è di alcun aiuto l'eventuale suo buon funzionamento nell'altra unità funzionale (per es., la respirazione non sarebbe possibile se ci fossero da una parte un bronco ostruito e un polmone normale e dall'altra parte un bronco normale e un polmone non espandibile).
Il test cis-trans della genetica formale si basa esattamente sullo stesso principio: basta sostituire destra e sinistra con genoma paterno e materno (o viceversa). Occorre allora, per sapere se due elementi genetici A e B facciano o meno parte della stessa unità genetica, confrontare il fenotipo di un soggetto A¹B¹/A²B² con quello di un soggetto A¹B²/A²B¹ che, come è evidente, hanno gli stessi alleli e differiscono solo per il modo in cui sono assortiti (rispettivamente in cis o in trans). Se i due individui hanno lo stesso fenotipo, si conclude che A e B fanno parte di unità funzionali diverse, se invece i loro fenotipi sono differenti, si conclude che A e B fanno parte della stessa unità funzionale. Le unità funzionali, cioè i cistroni, che si possono studiare in questo modo, sono sequenze codificanti oppure operoni. Sono sequenze codificanti se il fenotipo che si prende in esame nel test è una struttura proteica, sono operoni se il fenotipo in esame è invece la regolazione dell'espressione genica. Cistroni corrispondenti a sequenze codificanti sono definiti determinando fenotipi proteici qualitativi associati a mutazioni missense, quelle, cioè, che convertono un codone che codifica un certo aminoacido in uno codificante un aminoacido diverso. Esempi classici riguardano mutazioni missense dei due geni della globina α e del gene della globina β (il genoma umano normale aploide comprende due geni α e un gene β). Pur avendo entrambi effetti sulla stessa molecola proteica, l'Hb (α₂ β₂), questo test metterebbe in grado di accertare se due mutazioni qualsiasi, ciascuna delle quali modifica la struttura dell'emoglobina, riguardano lo stesso cistrone strutturale, cioè la stessa sequenza codificante (entrambi nello stesso gene α o entrambi nel gene β), oppure sono situate in geni diversi. Un esempio classico di cistrone regolativo è l'operone del lattosio nel batterio Escherichia coli, che molto schematicamente è costituito da un operatore e da tre geni strutturali: z, y e a. Se il fenotipo che si prende in esame è la struttura di una di queste catene polipeptidiche, ciascuno dei tre cistroni qualitativi, o codificanti, si comporta come un cistrone diverso dagli altri due. Se però, invece di guardare il fenotipo qualitativo, si esamina quello regolativo, cioè la dipendenza dell'espressione di ciascuno di questi tre cistroni qualitativi dalla presenza o meno del lattosio nel mezzo di coltura, si vede che tutti e tre sono nello stesso cistrone dell'operatore. In altre parole, sebbene le mutazioni missense di z risultino situate in un cistrone diverso da quello in cui si trovano quelle di y e di a, le mutazioni di tutti e tre questi cistroni risultano far parte della medesima unità funzionale nella quale si trova l'operatore. La contraddizione è dunque solo apparente: z, y e a sono cistroni qualitativi diversi che fanno parte dello stesso cistrone regolativo.
Un esempio ben noto di alleli di siti diversi che, allo stato eterozigote, sono sostanzialmente innocui riguarda la talassemia e la falcemia (più precisamente la β talassemia e l'allele βS nell'uomo). Sebbene tanto il talassemico eterozigote che l'eterozigote βA/βS siano individui sani, in entrambi i casi il doppio eterozigote in cui l'allele β talassemico sia in trans rispetto al βS (cioè uno derivato da un genitore e l'altro dall'altro genitore) è affetto da una grave malattia, l'anemia microdrepanocitica, e ciò dimostra che queste mutazioni riguardano la stessa unità funzionale, che ora sappiamo essere il gene della globina β. Il limite più grave della genetica formale (detta così perché gli elementi oggetto della sua analisi sono unità puramente formali e si prescinde completamente dalla loro natura materiale e dal loro modo di funzionare) è che essa è in grado di individuare un gene solo attraverso l'analisi della trasmissione di almeno due suoi fenotipi alternativi, cioè solo se il gene è variabile e questa sua variabilità è nota e suscettibile di essere studiata. Tale limite è stato in parte superato nella prima fase del periodo molecolare della genetica, nel sottoperiodo che potremmo chiamare proteico, durante il quale le proprietà dei geni erano inferibili da quelle delle catene polipeptidiche da loro codificate, per cui un gene veniva scoperto identificando il suo prodotto proteico anche se non variabile. Il limite è stato superato del tutto nel sottoperiodo successivo, quello attuale, detto nucleico, in cui è possibile scoprire e studiare una regione del genoma indipendentemente non solo dalla sua eventuale variabilità, ma anche dalla sua eventuale espressione, dato che si è in grado di guardare direttamente il DNA di cui una regione è costituita; è diventato così possibile anche lo studio delle regioni intergeniche del genoma.
Nonostante i suoi gravissimi limiti, la genetica formale era arrivata a individuare in modo rigoroso centinaia di geni in Drosophila melanogaster (il moscerino del vino e della frutta) e molte decine nell'uomo. Non solo: combinando queste informazioni formali con quelle derivate dalla citogenetica, si era giunti anche alla dimostrazione inoppugnabile che le unità formali, dette geni, sono situate nei cromosomi. Nel caso particolarmente favorevole di Drosophila melanogaster - il cavallo di battaglia della genetica degli anni Trenta e uno dei cavalli di battaglia di quella della fine del 20° secolo - era stato possibile individuare la sede esatta di moltissimi geni nei rispettivi cromosomi, stimare con accuratezza la frequenza con la quale essi ricombinano con altri geni dello stesso cromosoma e constatare che le mappe formali ottenute con questo procedimento sono colineari con quelle fisiche ottenute con metodi citogenetici (sui cromosomi giganti delle ghiandole salivari di Drosophila melanogaster). Le distanze relative tra i vari marcatori nelle due mappe, formale e citogenetica, in molti casi non sono direttamente proporzionali tra loro: se l'ordine di tre marcatori in una mappa è ABC, è sempre vero che ABC si presentano nello stesso ordine anche nell'altra (colinearità), ma accade spesso che la distanza tra B e C nella mappa citogenetica sia, per es., il doppio della distanza tra A e B, mentre nella mappa formale queste due distanze risultano uguali.
Un gene veniva quindi concepito come un'unità anatomofunzionale situata in un punto ben preciso e costante di un determinato cromosoma e responsabile della comparsa o dell'assenza di un determinato fenotipo, ma la natura, le dimensioni e il modo di funzionare di esso restavano del tutto ignoti. L'implicazione diretta - che ora, con la saggezza del poi, ci appare oltremodo naïf - di questa rappresentazione del gene era che un cromosoma non è altro che una collana di geni separabili l'uno dall'altro per ricombinazione; ciascun gene, però, risultava indivisibile, in quanto i crossing over, cioè gli scambi di parti tra cromatidi di cromosomi omologhi, paterni e materni, durante l'appaiamento meiotico, avrebbero sempre dato luogo a ricombinazioni di un numero intero di geni. Il gene veniva dunque a essere considerato una sorta di 'atomo' di materiale genetico; tuttavia, come gli atomi della chimica si sono dimostrati ben lontani dall'essere indivisibili, se studiati con i metodi della fisica atomica, e le sottounità individuate da quest'ultima sono state a loro volta suddivise in entità ancora più piccole con i metodi della fisica nucleare, allo stesso modo i geni della genetica formale sono risultati divisibili, quando si è cominciato a esaminarli con un altro approccio, ovvero quello molecolare. In verità, nel caso del gene la prova che esso, contrariamente a quanto si era ritenuto per decenni, è in realtà divisibile per ricombinazione era stata già data dalla genetica formale, anche se solo nel suo ultimo periodo. Si scoprirono, infatti, in Drosophila, in Aspergillus nidulans (una muffa) e in alcuni batteriofagi, i cosiddetti pseudoalleli, cioè forme alternative dello stesso gene (accertato con il test di complementazione o con il test cis-trans) che, sia pure molto raramente, ricombinavano tra loro. Evidentemente queste mutazioni, pur essendo situate nel medesimo gene, non occupavano la stessa identica posizione nel cromosoma, e ciò equivale a dire che il gene non è un punto, bensì un segmento del cromosoma, costituito dal succedersi lineare di elementi separabili: il gene è quindi un'unità di funzione, ma non un'unità di ricombinazione né di mutazione.
I risultati fondamentali della genetica molecolare del 20° secolo - negli anni Quaranta la scoperta che il materiale genetico è il DNA, negli anni Cinquanta che il DNA è costituito da due eliche complementari, ciascuna consistente di una sequenza di desossiribonucleotidi, e negli anni Sessanta che ogni tipo di catena polipeptidica di n residui aminoacidici presente in un organismo è codificato da una sequenza di DNA che viene trascritta in una sequenza di RNA di uguale lunghezza, detta RNA messaggero (mRNA) - hanno portato al concetto di gene strutturale, cioè a capire finalmente qual è il comune denominatore di tutti i geni: i geni strutturali sono sequenze trascrivibili. La maggior parte degli RNA prodotti con la loro trascrizione viene anche tradotta dando origine a una catena polipeptidica (il prodotto ultimo di questi geni), mentre altri RNA, gli RNA ribosomali (rRNA) e gli RNA transfer (tRNA) svolgono la propria funzione come tali. In altre parole, sebbene le funzioni dei vari geni, e quindi anche i fenotipi associati al loro funzionamento o non funzionamento, varino moltissimo da un gene all'altro, i primi due eventi della loro espressione sono gli stessi per tutti e consistono nella trascrizione e nella maturazione del trascritto; anzi, per i geni strutturali delle catene polipeptidiche restano in comune pure due classi di eventi successivi alla trascrizione e alla maturazione, cioè l'esportazione nel citoplasma dell'mRNA e la sua traduzione. Quella appena proposta è senza dubbio la definizione più semplice e ovvia di geni strutturali. Se si riflette però sul dato di fatto incontestabile che per ciascun tipo di catena polipeptidica sintetizzata in un organismo (oppure sintetizzabile in determinate circostanze) il genoma di quello stesso organismo non si limita semplicemente a determinarne la sequenza aminoacidica, ma ne controlla altresì se, quando, dove e in che quantità questa catena polipeptidica viene sintetizzata, e che molte delle sequenze di DNA coinvolte nelle 'istruzioni per l'uso' della sequenza codificante sono a essa adiacenti, diventa immediatamente evidente che sarebbe possibile proporre ulteriori definizioni di gene strutturale, altrettanto, o ancora più utili e sensate (in determinati contesti) di quella ora avanzata. Una rassegna delle possibili definizioni di gene strutturale deve, quindi, essere basata sul suo modo di funzionare e, in particolare, sulle relazioni anatomofunzionali intercorrenti tra la sua sezione trascrivibile e le sezioni non trascrivibili che, oltre a essere adiacenti a essa, ne regolano l'espressione.
Le proprietà peculiari di ogni tipo di catena polipeptidica - cioè il cosa viene sintetizzato, in altre parole la sua sequenza aminoacidica; il se, il quando, in che quantità e il dove, cioè in quali cellule, si verifica la sintesi - sono tutte sotto un controllo genetico più o meno stretto. Nell'illustrare la determinazione genetica di queste proprietà conviene tenere separato il cosa viene sintetizzato, da cui dipende, tra l'altro, anche il dove la catena polipeptidica andrà a localizzarsi, da tutte le altre proprietà. Infatti, mentre la sequenza codificante del gene strutturale determina la sequenza aminoacidica della catena polipeptidica corrispondente senza l'intervento di ulteriori elementi specifici, la determinazione genetica delle altre proprietà risulta invece dall'interazione tra due categorie di elementi specifici, quelli cis-dominanti e quelli diffusibili (v. oltre).
a) La determinazione genetica del che cosa viene sintetizzato. Le catene polipeptidiche sono sequenze di residui aminoacidici, i quali sono legati l'uno all'altro per mezzo di un legame covalente (‒CO‒NH‒), denominato legame peptidico. La sequenza aminoacidica di una catena polipeptidica viene chiamata struttura primaria e da essa dipendono anche le altre sue strutture (v. proteine).
La sequenza codificante dell'mRNA, che specifica la sequenza aminoacidica di una catena polipeptidica di n residui aminoacidici, è una sequenza continua di 3n ribonucleotidi, che costituisce la sua sezione centrale interposta tra due sequenze non codificanti, cioè destinate a non essere tradotte. La sequenza codificante degli mRNA che, come si è appena detto, è continua, deriva però, per la grande maggioranza dei geni eucariotici, da sequenze (esoni) separate l'una dall'altra da sequenze intercalari (introni): sia gli esoni sia gli introni vengono trascritti e insieme costituiscono il cosiddetto trascritto primario. La continuità della sequenza codificante dell'mRNA è il risultato di un processo detto splicing, che avviene durante la maturazione del pre-mRNA a mRNA e consiste nell'eliminazione delle sequenze introniche dal trascritto primario, seguita dalla saldatura dei vari esoni. L'mRNA maturo attraversa quindi la membrana nucleare e arriva al citoplasma, dove potrà essere tradotto (v. acidi nucleici: Sintesi proteica).
b) La determinazione genetica del se, del quando, del quanto e del dove si verifica la sintesi di una catena polipeptidica. Gli elementi specificamente responsabili della determinazione genetica della sintesi proteica possono essere suddivisi in due classi ben distinte, quella degli elementi cis-dominanti (o cis-acting elements) e quella degli elementi diffusibili. Gli elementi cis-dominanti sono sequenze adiacenti alla sequenza codificante, anzi talora addirittura intercalate tra le sequenze che nel loro insieme costituiscono quella codificante (cioè situate negli introni), e ne influenzano l'espressione esclusivamente in modo cis-dominante. Sono classificabili in questa categoria il promoter, gli enhancers, gli attenuators, i silencers (v. oltre) e le sequenze responsabili della tessuto-specificità e del momento ontogenetico di espressione, tutte sequenze corresponsabili del se, quanto, dove e quando il gene a cui sono associate è trascritto. D'altra parte, dato che queste sequenze sono presenti nei genomi di tutte le cellule e in tutte le fasi della loro esistenza e, malgrado ciò, le cellule dell'organismo differiscono fra loro proprio in quanto esprimono geni diversi, è evidente che non possono, da sole, essere la causa di queste variazioni. È qui che intervengono i fattori di trascrizione, che, come già si è detto, sono proteine diffusibili prodotte da geni diversi da quelli di cui modulano la trascrizione attraverso il legame con le loro sequenze regolatrici ad azione cis-dominante.
Ciascuna di queste sequenze cis-dominanti esercita un'influenza sull'espressione del gene, o dei geni, a cui è associata in cis. Se esso si esprime oppure non si esprime dipende dal fatto che questa sequenza cis-dominante sia o meno combinata con il fattore o i fattori di trascrizione di cui costituisce il bersaglio. Essa si comporta cioè come una 'cinghia di trasmissione' del comando veicolato dai fattori di trascrizione. Sono questi, non le sequenze cis-dominanti, che possono variare da una cellula all'altra e, a seconda delle circostanze, in momenti diversi della vita di una singola cellula; sono, quindi, anche i responsabili delle variazioni differenziative tra le varie cellule. Appare evidente che, trattandosi di fattori diffusibili, essi agiscono indifferentemente sulle due copie del gene da essi controllato, presenti nelle varie cellule diploidi; per questa ragione, mentre è perfettamente corretto definire cis-dominanti sequenze come il promoter e gli enhancers, il termine trans-acting factor, comunemente usato per indicare i fattori diffusibili di controllo dell'espressione genica, come i fattori di trascrizione, è del tutto improprio: a differenza dei cis-acting elements (sequenze cis-dominanti) che agiscono soltanto in cis, i fattori diffusibili sono attivi sia in cis sia in trans (anzi, nei procarioti, per alcuni geni, agiscono preferenzialmente in cis).
Se con 'gene strutturale di una catena polipeptidica' si vuole intendere la parte di genoma che ne specifica la sequenza aminoacidica, il gene strutturale può essere definito come la sequenza di DNA, il cui trascritto, una volta maturato, costituisce la sequenza codificante dell'mRNA corrispondente. Tale sequenza è unica, cioè continua, nelle cellule procariotiche, i cui geni, normalmente, non hanno introni, mentre è, in genere, discontinua nei genomi eucariotici. Il gene strutturale, inteso in questa accezione minima, potrebbe essere chiamato codificone.
È vero che a questa si potrebbero preferire definizioni diverse che includano nel gene strutturale di una catena polipeptidica, oltre al codificone, anche altre sezioni che controllano ulteriori aspetti della sua espressione (per es., quando e/o quanto e/o dove esso si esprime). Non sussiste alcun dubbio, tuttavia, che qualunque definizione di gene strutturale si voglia adottare essa comprenderà necessariamente il codificone, in quanto esso ne costituisce sicuramente il nocciolo duro, la parte irrinunciabile e caratterizzante. Le varie possibili ulteriori definizioni potranno, cioè, differire tra loro, ma solamente per le eventuali sequenze aggiuntive (in ogni caso cis-acting) che si decida di associare a quella fondamentale, che è appunto la sequenza codificante. La presenza, nel genoma di una cellula, di una sequenza codificante una determinata catena polipeptidica non implica necessariamente che in quella cellula si verifichi la sintesi di quella catena polipeptidica (anzi le cellule di organismi molto differenziati esprimono solo una frazione molto modesta dei loro geni). Questa sequenza, inoltre, non è responsabile neppure di quante copie di quella catena polipeptidica vengono sintetizzate, ma soltanto della loro struttura primaria. È infatti indispensabile non solo che essa venga trascritta e tradotta, ma che venga trascritta con essa una sequenza molto più estesa, comprendente tutti gli esoni e tutti gli introni. Tenendo conto di questa necessità, il termine appropriato per denominare il gene strutturale così definito sarebbe trascrittone, in quanto esso verrebbe a identificarsi con la sequenza di DNA che fa da stampo a un trascritto primario.
Anche il trascrittone, tuttavia, sebbene costituisca un'entità molto espansa rispetto al codificone, può essere ulteriormente dilatato in una definizione che comprenda addirittura sequenze non trascritte, da cui dipenda però in modo cis-dominante la sua trascrizione. Alcune di queste sequenze, come il cosiddetto promotore (promoter), sono state ben individuate e caratterizzate per molti geni. I promotori, costituiti di regola da brevi sequenze discontinue situate a monte dell'inizio della trascrizione, possono essere 'forti' o 'deboli': le sequenze che sono situate a valle del promotore nella stessa doppia elica di DNA, se trascritte, danno origine a molte copie di RNA nel caso dei promotori forti, oppure a poche copie nel caso dei promotori deboli. Altre sequenze, denominate enhancers, attenuators e silencers, che possono essere situate un po' dappertutto, cioè anche all'interno del trascrittone, entro un ambito di poche decine di kpb (1kpb = 1000 paia di basi), rispettivamente stimolano, attenuano oppure impediscono la trascrizione dei trascrittoni corrispondenti. Analogamente a quanto si è visto per i promotori, queste sequenze influenzano l'espressione soltanto delle sequenze in cis. Per gli organismi complessi e differenziati, però, ciò non è ancora tutto: sebbene tutte le cellule di un organismo abbiano i medesimi geni, anzi i medesimi genomi, e questi restino gli stessi in tutti i periodi dello sviluppo (con l'eccezione dei geni IG delle immunoglobuline e dei geni TCR dei T-cell receptors), avviene che le cellule di tessuti diversi sintetizzino catene polipeptidiche diverse, vale a dire che l'espressione di molti geni è tessuto-specifica.
Anche nell'ambito di un singolo tipo di cellule, in periodi diversi dello sviluppo, si esprimono talora geni diversi, seppure molto simili (per es., negli eritroblasti del feto si produce soprattutto emoglobina (Hb) fetale, mentre in quelli degli individui da 6-12 mesi dopo la nascita in poi quasi esclusivamente Hb adulta). Si tratta dei due tipi fondamentali della differenziazione, quella tessuto-specifica e quella ontogenesi-specifica. Anche per questi controlli è valido il solito principio già visto per la regolazione - adattativa invece che differenziativa - della trascrizione dei geni nei procarioti: alcune sequenze bersaglio vengono riconosciute in modo specifico da fattori di controllo diffusibili prodotti da geni diversi (nel caso degli eucarioti superiori, frequentemente addirittura in cellule diverse); queste sequenze trasmettono poi i segnali, che vengono inviati loro dai fattori di controllo, in modo cis-dominante alle sequenze codificanti adiacenti, modulandone in vario modo la trascrizione. Anche queste sequenze, coinvolte nella tessuto-specificità ed, eventualmente, nella ontogenesi-specificità di espressione dei geni da esse controllati, possono essere considerate parte del gene, se con questo termine si vuole intendere non semplicemente la sequenza codificante, bensì l'insieme di tutte le sequenze che ne controllano in modo cis-dominante gli altri aspetti dell'espressione. È la relazione di cis-dominanza l'aspetto veramente fondamentale, che costituisce la differenza tra le sequenze che possono essere considerate come parte integrante del gene di una catena polipeptidica e quelle che, al contrario, pur essendo rilevanti per il controllo della sua espressione, certamente non fanno parte di esso. In conclusione, possono risultare convenienti, a seconda dei diversi contesti e delle diverse necessità, definizioni molto differenti di gene strutturale di una catena polipeptidica: queste vanno dalla più limitativa possibile che lo identifica con il suo codificone, fino ad arrivare alla più estesa possibile, secondo la quale il gene strutturale di una catena polipeptidica è l'insieme di tutte le sequenze che ne determinano, o più precisamente contribuiscono a determinare (dal momento che esse stesse sono, a loro volta, sotto il controllo di fattori di trascrizione diffusibili) in modo cis-dominante non soltanto la struttura primaria, ma anche dove, quando e in che quantità essa viene prodotta.
Qualora venga utilizzata la definizione più estesa, è necessario tenere presente che, mentre le sequenze che nel loro insieme costituiscono il codificone di una catena polipeptidica sono esclusive di quella catena polipeptidica (cioè codificano soltanto quella catena polipeptidica), le sequenze che regolano in modo cis-dominante la trascrizione di un certo trascrittone in molte evenienze influenzano, sempre in modo cis-dominante, la trascrizione anche di altri trascrittoni. Un esempio è costituito dalla LCR (Locus control region) dei clusters (ovvero l'insieme di geni molto vicini fra loro) dei geni globinici, la quale controlla la tessuto-specificità di espressione di tutti i geni del cluster.
Il genoma di una cellula costituisce il patrimonio genetico della cellula stessa. Esso può consistere di un'unica molecola (una doppia elica di DNA), cioè di un unico cromosoma, oppure di un certo numero di cromosomi diversi fra loro, ciascuno formato da una sequenza di qualche decina di megabasi (1 megabase = 1.000.000 di paia di basi). I geni sono tratti di DNA, continui oppure discontinui, a seconda dei vari casi, di un dato cromosoma, ognuno funzionante da stampo per la (eventuale) sintesi di molecole di RNA di un certo tipo specifico. Quasi tutti questi RNA sono a loro volta destinati a essere tradotti in una catena polipeptidica. Ogni cromosoma è costituito da un certo numero di geni, ma non solamente da essi perché, specialmente negli eucarioti, tra un gene e l'altro sono interposte sequenze più o meno lunghe, il cui significato funzionale (ammesso che tutte ne abbiano uno) sembra che riguardi le modalità di trasmissione del DNA (per es., duplicazione e correzione dei suoi eventuali errori, ricombinazione genetica ecc.), invece che la sua espressione. Un confronto istruttivo può essere quello tra un'enciclopedia, i suoi volumi e le sue voci da una parte, e un genoma, i cromosomi e i geni dall'altra. Il genoma aploide (cioè con una sola serie di cromosomi) di una cellula è paragonabile a un'enciclopedia costituita da una serie di volumi, ognuno dei quali corrisponde a un cromosoma. Per es., un genoma umano aploide, formato da circa 100.000 geni distribuiti in 23 cromosomi, è paragonabile a un'enciclopedia di circa centomila voci distribuite in 23 volumi (il fatto che le cellule somatiche siano di regola diploidi, cioè contengano un genoma composto di due genomi aploidi, è irrilevante per comprendere il concetto del quale si sta discutendo). Un cromosoma consiste di una serie di geni (sequenze di desossiribonucleotidi), così come un volume consiste di una serie di voci (sequenze di lettere). Però, mentre un volume di un'enciclopedia è costituito solo dalle sue voci, un cromosoma non è costituito solo da geni, ma anche da sequenze deputate alla trasmissione di copie di sé stesso, interposte qua e là tra i geni e forse anche all'interno di alcuni di essi, come se ogni volume di un'enciclopedia contenesse, frammiste alle sue voci, lunghe istruzioni sul come riprodurre copie di quel volume, sul come rilegarle e così via. Un'altra cospicua differenza tra un cromosoma e un volume di un'enciclopedia è che in quest'ultimo le voci sono disposte secondo un ordine che, non solo conosciamo, ma di cui conosciamo anche la logica. Diversa è la situazione per il cromosoma, perché quello che ci è dato sapere in questo momento è tutt'al più l'ordine in cui sono disposti i suoi geni al suo interno, ma non la logica di quest'ordine. Anzi, per essere più precisi, non siamo nemmeno del tutto certi che esista una logica: mentre è facile immaginare che cosa accadrebbe ai fini dell'utilizzabilità di un volume di una enciclopedia se l'ordine delle sue voci venisse sovvertito, non siamo in grado di immaginare se accadrebbe qualcosa qualora le posizioni dei vari geni venissero cambiate, non solo nell'ambito dei singoli cromosomi, ma perfino tra cromosomi diversi.
Un gene standard è ‒ come si è detto precedentemente ‒ una sequenza di desossiribonucleotidi facente parte di una molecola di DNA enormemente più lunga, che costituisce il cromosoma in cui quel gene è situato. Ognuno dei circa 100.000 geni del genoma umano, se si esprime, lo fa con una serie di eventi che sono sostanzialmente gli stessi per tutti i geni: la trascrizione, la maturazione del trascritto a mRNA e la sua traduzione. Questo insieme di eventi, che costituisce ciò che si chiama espressione dei geni strutturali delle catene polipeptidiche, rappresenta quindi il comune denominatore anatomofunzionale di tutti i geni strutturali. Dalla traduzione in poi, ossia dal momento in cui le varie catene polipeptidiche sono state ultimate come sequenze di residui aminoacidici, ciascuna di esse segue invece il proprio specifico destino.
Tuttavia, anche tra i geni che obbediscono a questo schema, e sono la grande maggioranza, esistono notevolissime differenze sul piano quantitativo, riguardo al numero e alle dimensioni dei loro esoni e introni e, quindi, alla lunghezza complessiva: ci sono geni costituiti da un solo esone (cioè senza introni), geni con pochi esoni (come nel caso dei geni globinici che comprendono 3 esoni e 1 codificone per un totale di circa 140 residui aminoacidici), geni con decine di esoni, come nel caso del CFTR (Cystic fibrosis trans-membrane regulator) formato da 27 esoni e 1 codificone per circa 1500 residui aminoacidici, fino al gene della distrofina con i suoi 70 esoni e 1 codificone per un totale di circa 30.000 residui aminoacidici. Esistono, inoltre, esoni e introni di poche paia di basi ed esoni, ma soprattutto introni, di diverse migliaia di paia di basi: tutte queste variazioni riguardano in molti casi esoni e introni di uno stesso gene. La lunghezza complessiva risulta, quindi, notevolmente variabile, con geni lunghi soltanto poche centinaia di coppie di basi (pb), altri (molto più numerosi) di varie migliaia di pb, fino al gene della distrofina che con le sue 2,4 megabasi può essere definito gigante. Un aspetto di grandissimo interesse della suddivisione dei trascrittoni in esoni e introni è che, normalmente, nei geni in cui il codificone è costituito da più di un esone, e si tratta della maggioranza dei geni, ognuno di questi esoni codifica per un dominio della catena polipeptidica, cioè per una regione dell'intera molecola con individualità anatomofunzionale propria. Per es., se la catena polipeptidica è un recettore di membrana, spesso un esone codifica per la sua sezione extracellulare, il successivo per il suo segmento idrofobico trans-membrana e quello ancora successivo per la sua parte citoplasmatica. In altri termini, i geni strutturali hanno in genere una struttura modulare in cui ogni modulo è un esone che codifica per una parte deputata a una certa funzione tra quelle svolte dalla molecola proteica nel suo insieme. In molti casi, inoltre, è dato osservare che uno dei moduli di un gene (o esone) presenta un'omologia significativa con un modulo di un altro gene che svolge una funzione simile nella catena polipeptidica codificata da quell'altro gene, come se alcuni geni si fossero formati combinando assieme un certo numero di moduli, ciascuno dei quali sia in grado di impartire una o più caratteristiche funzionali alla molecola della quale fa parte. Gli introni che separano questi moduli-esoni marcherebbero i punti in cui essi sarebbero stati inclusi per trasposizione nella sequenza globale del gene. Questa è la forma ridotta ai minimi termini dell'ipotesi evoluzionistica della formazione dei geni per exon-shuffling (dal verbo inglese to shuffle, "mescolare").
Un evento che si può verificare nell'espressione di alcuni geni strutturali delle catene polipeptidiche è il cosiddetto splicing alternativo. Come indica il suo nome, esso consiste nel fatto che il processo di splicing cui vanno incontro le molecole di pre-mRNA di alcuni geni può svolgersi in più di un modo: da alcune molecole di pre-mRNA vengono rimosse determinate sequenze introniche, mentre da altre vengono rimosse sequenze diverse. Per es., una certa sequenza si comporta da esone in determinate circostanze, mentre altre molecole di pre-mRNA dello stesso tipo perdono quella sequenza insieme ai due introni tra i quali è compresa (exon skipping). Ne consegue che molecole uguali di pre-mRNA possono dare origine a mRNA diversi e, quindi, a catene polipeptidiche diverse.
Si possono immaginare varie classificazioni dei geni strutturali delle catene polipeptidiche, ciascuna basata su un certo criterio e utile in un determinato contesto. Si può parlare, per es., di geni lunghi o lunghissimi (rispettivamente il gene CFTR e quello della distrofina) e di geni corti o cortissimi (rispettivamente i due geni per la α globina e quello dell'insulina); di geni del cromosoma X e di geni autosomici; di geni di recettori, di proteine strutturali, di enzimi o di immunoglobuline; di geni adibiti a funzioni indispensabili e di geni che codificano per una catena polipeptidica, la cui eventuale assenza non comporta conseguenze svantaggiose per l'organismo (rispettivamente i geni degli enzimi della glicolisi e quello del sistema di gruppo sanguigno AB0). Nei procarioti si può inoltre parlare di geni costitutivi, cioè di quei geni che vengono espressi in tutte le circostanze ambientali, e di geni adattativi, che codificano un enzima e lo producono come risposta adattativa a una particolare circostanza ambientale che ne rende la presenza indispensabile, o almeno utile, per la cellula. Esempi di geni adattativi sono i geni inducibili, quelli cioè che producono l'enzima corrispondente solo in presenza del suo substrato, e i geni repressibili, che producono un enzima adibito alla sintesi di una sostanza indispensabile (come per es. un aminoacido) e che sono repressi se questa sostanza è disponibile.
La classificazione più interessante, però, è forse quella che suddivide i geni in due gruppi: differenziativi e house-keeping. La differenziazione consiste, in sostanza, nel fatto che, sebbene le cellule somatiche di un organismo abbiano lo stesso genoma, esse sono suddivisibili in sottoinsiemi diversissimi tra loro, sia morfologicamente sia dal punto di vista funzionale, che costituiscono i vari tipi cellulari di un organismo complesso, come, per es., un eucariote superiore: ogni tipo cellulare ha un ruolo ben preciso nell'organismo, ruolo che è diverso da quello delle cellule degli altri tipi. Questo si verifica perché i geni che si esprimono nelle varie cellule cambiano da un tipo di cellula all'altro: per es., nelle cellule epatiche si produce sieroalbumina ma non emoglobina, mentre negli eritroblasti accade il contrario. La differenziazione è una forma di specializzazione che può essere paragonata, per certi aspetti, a quella delle società umane: ogni tipo di cellula è specializzato a svolgere una o più funzioni per l'intero organismo - l'equivalente di una società umana - e usufruisce dei servizi svolti dalle cellule di altri tessuti e organi. Però, come avviene nelle società umane, in cui, malgrado l'alto grado di specializzazione e quindi di suddivisione specialistica dei compiti, ogni singolo individuo è, di regola, in grado di provvedere da solo all'andamento della propria abitazione (cioè all'house-keeping), così tutte le cellule dell'organismo provvedono ciascuna per proprio conto, indipendentemente dalla loro specializzazione, a certe esigenze fondamentali (che sono le stesse per tutte), come, per es., l'eventuale duplicazione e riparazione del DNA, la sintesi proteica, la glicolisi e la fosforilazione ossidativa. In conclusione, in ognuna delle cellule dell'organismo si esprimono due categorie di geni, quelli differenziativi, che variano da un tipo cellulare all'altro e sono responsabili della sua particolare morfologia e funzione, e quelli house-keeping che sono sostanzialmente gli stessi in tutti i tipi di cellule. Questi ultimi mettono la cellula in grado di svolgere per proprio conto le funzioni di autoconservazione ed, eventualmente, di moltiplicazione, e di eseguire le parti non specifiche dei suoi processi specialistici specifici: per es., la produzione di una proteina differenziativa comporta naturalmente la traduzione (processo del tutto aspecifico in quanto comune a tutte le cellule) dell'mRNA che è stato prodotto dal gene differenziativo corrispondente.
Fino agli anni Ottanta del 20° secolo il solo modo di scoprire un gene strutturale di una catena polipeptidica era quello di risalire da un fenotipo al gene che ne era responsabile. Nel periodo premolecolare questo fenotipo doveva presentare una variabilità monofattoriale, mentre nel periodo molecolare, e più esattamente nella sua fase iniziale detta proteica, bastava che consistesse in una catena polipeptidica anche se non variabile. Una volta individuata una certa catena polipeptidica, era possibile risalire al gene strutturale che la codificava, più precisamente al suo codificone, inferendone alcune proprietà sulla base delle conoscenze certe sulle relazioni esistenti tra la sequenza codificante di un gene e la struttura primaria della catena polipeptidica da esso codificata. Per es., se essa consisteva di 150 residui aminoacidici, se ne deduceva che il suo codificone era lungo 450 paia di basi; inoltre, se si era arrivati a determinare la sequenza aminoacidica della catena polipeptidica, si potevano inferire circa i due terzi della sequenza del codificone, in quanto 17 dei 20 aminoacidi sono codificati da codoni identici per i primi due nucleotidi, vale a dire l'eventuale degenerazione riguarda solo il terzo nucleotide (v. codice genetico). In una fase più avanzata delle ricerche, il gene strutturale era isolato dal genoma e ne veniva successivamente individuata la sequenza sfruttando queste informazioni (sia pure parziali) sulla sua struttura, dedotte appunto dalla sequenza aminoacidica della catena polipeptidica. Si utilizzava come sonda molecolare una miscela di oligonucleotidi, costituita da tutti quelli capaci di codificare per un certo segmento della catena polipeptidica in esame, per cui sicuramente uno di essi era complementare al cDNA che si stava cercando di isolare. Come si vede, il punto di partenza di tutti questi procedimenti tradizionali è stato sempre la catena polipeptidica e il punto di arrivo il suo gene strutturale, a cui si giungeva risalendo a ritroso la catena di eventi che dal suo codificone portano alla catena polipeptidica. Più recentemente, invece, si è arrivati non solo a individuare, ma anche a conoscere, la sequenza aminoacidica di catene polipeptidiche di cui si ignorava l'esistenza procedendo dal gene che le produce fino al suo prodotto, cioè nello stesso senso in cui fluisce effettivamente l'informazione nella sintesi proteica. Dato che per decenni l'iter conoscitivo della genetica ha proceduto a ritroso, si è dato spesso a questo tipo di approccio il nome di reverse genetics, che ha evidentemente una giustificazione storica, ma che certo è opposto alla logica.
Dagli anni Ottanta del Novecento, infatti, è in corso il sequenziamento di tratti sempre più lunghi di genomi con l'intento di arrivare a determinarne l'intera sequenza. Una fase iniziale di questo tipo di ricerche è quella in cui sono stati sequenziati genomi interi molto brevi come, per es., quello dei mitocondri di Saccharomyces cerevisiae. Il progetto di determinare, invece, la sequenza del suo intero genoma, lungo circa 12 megabasi, è stato ultimato nel 1996, mentre l'analogo progetto per il genoma dell'uomo (circa 3 miliardi di paia di basi, cioè circa 250 volte più lungo di quello del lievito) è tuttora in corso. In molti casi ancora non si conosce quasi nulla dei geni eventualmente compresi nei tratti sequenziati; per tale motivo è molto importante mettere a punto criteri adatti a individuarli, o almeno a sospettarne l'esistenza. Si ipotizza che una sequenza comprenda un gene strutturale, qualora vi si individui un ORF (Open reading frame), ovvero una sequenza che, dopo avervi introdotto eventuali ipotetiche interruzioni (introni), codificherebbe in uno dei tre registri possibili (v. codice genetico), a partire da un inizio ipotetico (che deve essere un AUG, il codone della metionina, con cui, normalmente, cominciano le sequenze codificanti), una catena polipeptidica di lunghezza ragionevole. In molti casi l'ORF è stato individuato in una regione che era stata amplificata (ovvero clonata mediante un vettore opportuno, oppure enzimaticamente tramite PCR, Polymerase chain reaction) perché era stato localizzato, specificamente nella posizione da essa occupata nel cromosoma, un gene specifico. Questa tecnica prende il nome di positional cloning, in quanto comporta il clonaggio appunto di una certa posizione di un cromosoma.
Di molti geni strutturali esistono nel genoma una o più copie, molto simili al gene funzionante, le quali, però, non producono la catena polipeptidica corrispondente, in quanto una o più delle differenze rispetto al gene funzionante ne rendono impossibile l'espressione a livello di trascrizione e/o di maturazione e/o di traduzione: queste sequenze sono denominate pseudogeni. Nel genoma umano sono state identificate alcune decine di queste sequenze, ma ancora non è noto quante ne esistano in totale. Ogni pseudogene è un derivato più o meno diretto del gene strutturale corrispondente ed è possibile che abbia una rilevanza evolutiva come riserva di variabilità per i geni da cui deriva. I meccanismi che hanno dato origine agli pseudogeni devono evidentemente aver avuto luogo nella linea germinale, poiché altrimenti si sarebbe formato un clone di cellule somatiche con lo pseudogene, al posto di un insieme di individui (che, di regola, sono tutti gli individui della specie). Se si tiene conto dei meccanismi di formazione, gli pseudogeni possono essere suddivisi in due categorie ben distinte: 1) gli pseudogeni originatisi in un cluster di due o più geni strutturali duplicati (e quindi molto simili, se non addirittura identici) funzionanti, in seguito a inattivazione di una o più di queste copie inizialmente funzionanti disposte in sequenze testa-coda; 2) i cosiddetti processed pseudogenes, che sono gli pseudogeni formatisi attraverso l'integrazione, in un punto qualsiasi del genoma della cellula, di un DNA complementare (o cDNA) prodotto per trascrizione inversa di un mRNA, cioè di un mRNA derivato da un pre-mRNA maturato (processed). È evidente che è molto facile assegnare uno pseudogene a una di queste due classi: uno pseudogene appartiene alla prima classe se è disposto in sequenze testa-coda con il gene strutturale, è simile a esso anche per le sezioni non esoniche (cioè per gli introni e per le regioni fiancheggianti non trascritte) e non presenta una coda di poli-A-poli-T (v. acidi nucleici); appartiene, invece, alla seconda classe se, oltre a non essere situato nelle immediate vicinanze del gene strutturale corrispondente, mostra chiaramente di essere derivato da un mRNA, cioè non presenta sequenze introniche, né sequenze fiancheggianti e possiede una coda di poli-A-poli-T. Vale la pena notare che, mentre in linea di principio qualunque gene potrebbe essere accompagnato da uno o più pseudogeni della prima classe, pseudogeni della seconda classe possono esistere solo per i geni house-keeping, perché un processed pseudogene può formarsi solo in una cellula che esprime il gene corrispondente e le cellule germinali esprimono in sostanza solo geni house-keeping.
Come si è detto, il motivo per cui cellule somatiche differenti dello stesso organismo, che possiedono tutte gli stessi geni, presentano fenotipi tanto diversi è la conseguenza del fatto che le varie cellule operano opzioni differenziate su quali geni esprimere e quali geni far tacere. Questo è sempre vero con l'eccezione dei geni IG e TCR, rispettivamente i geni delle immunoglobuline e dei T-cell receptors: i diversi cloni di linfociti B producono immunoglobuline differenti; i diversi cloni di linfociti T producono recettori differenti perché hanno rispettivamente geni IG e geni TCR diversi. Questa diversità - genetica invece che semplicemente di espressione genica - tra cellule somatiche dello stesso organismo, che riguarda unicamente questi geni e si verifica solo nei linfociti, è alla base dell'estrema ampiezza del repertorio delle risposte immunitarie: essa si genera nel corso della maturazione di queste cellule attraverso meccanismi sofisticati di ricombinazione del DNA delle regioni genetiche che codificano per questo tipo di proteine (v. immunità). Si conoscono anche altre eccezioni riguardo al modo di funzionare e di essere trasmessi dei geni strutturali delle proteine, per es. la trascrizione di entrambi i filamenti di certe sequenze di DNA in alcuni batteriofagi, nonché la cosiddetta antigenic variation in alcuni batteri e protozoi patogeni.
Una delle distinzioni più interessanti nell'ambito dei caratteri è quella basata sul livello, più o meno lontano dal genotipo, della loro espressione fenotipica. Con questo criterio di classificazione si individuano due classi ben distinte di caratteri fenotipici: quelli proteici e quelli postproteici.
a) I caratteri proteici. Essi comprendono per ogni molecola proteica, oltre alla sua struttura primaria, secondaria, terziaria ed, eventualmente, quaternaria, tutti quei caratteri che da essa dipendono più o meno direttamente (come le costanti cinetiche se la proteina è un enzima; la stabilità; le costanti fisico-chimiche ecc.), nonché caratteristiche quantitative, ontogenetiche e di tessuto-specificità di espressione del suo o dei suoi geni strutturali. Normalmente, per ogni catena polipeptidica tutte queste proprietà dipendono in larga misura soltanto da un gene (inteso nella sua accezione più ampia) e dalle modalità della sua espressione, sostanzialmente uguali per tutte le catene polipeptidiche e ormai quasi perfettamente note. In conclusione, si può affermare che i caratteri proteici sono caratteri unifattoriali, anzi più precisamente unigenici, ovvero a eredità molto semplice e quindi nota a livello formale, la cui espressione è solitamente ben compresa a livello molecolare.
b) I caratteri postproteici. Dal livello proteico in poi, l'espressione fenotipica di ogni proteina ha una storia propria e di regola molto complessa: propria perché risulta da interazioni con altre componenti molecolari e/o sopramolecolari della cellula e dell'organismo, in cui tanto il tipo di interazioni che gli elementi con i quali esse si realizzano variano moltissimo da una proteina all'altra; molto complessa perché gli elementi e le interazioni coinvolti nell'espressione fenotipica dei caratteri postproteici sono molto numerosi e vari, e ciò equivale a dire che questi caratteri hanno una determinazione polifattoriale, ossia dipendente da molti fattori sia genetici (caratteri poligenici) sia ambientali. E questa complessità e inestricabilità della rete di interazioni responsabili del fenotipo finale (che, oltre tutto, in genere varia nel corso della vita dell'organismo, a differenza di quanto accade per le sequenze aminoacidiche) sono, come è ovvio, tanto maggiori quanto più il fenotipo è lontano dall'espressione primaria dei geni strutturali. Si può quindi concludere che, pur essendo in grado quasi sempre di spiegare in modo molto soddisfacente i fenotipi dipendenti da un singolo gene, si è in sostanza del tutto incapaci di comprendere il determinismo dei caratteri poligenici. Sfortunatamente, i caratteri di cui interesserebbe maggiormente spiegare il determinismo, in quanto sono i più rilevanti per la durata e la qualità della vita (longevità, robustezza, stato di salute e, verosimilmente, molti caratteri psichici), sono quasi senza eccezione i più poligenici di tutti. Si tratta, cioè, quasi sempre di caratteri che invece di essere distribuiti in classi discrete, come accade per definizione per i caratteri unigenici, presentano una distribuzione continua (di regola gaussiana) quale espressione della distribuzione casuale di un numero non piccolo di fattori (genotipi e situazioni ambientali), ciascuno dei quali esercita una modesta influenza sul fenotipo finale: il fenotipo di ognuno degli individui della distribuzione è frutto dell'interazione tra un genotipo complesso, costituito da una costellazione di alleli a loci diversi, e una situazione ambientale composita.
Di grandissimo interesse teorico, malgrado la loro rarità, sono i pochissimi soggetti che presentano un fenotipo estremo, i quali si collocano cioè completamente al di fuori della distribuzione normale. Ve ne possono essere di due specie, i minus e i plus varianti, per es.: i soggetti con un fenotipo letale in contrapposizione a quelli estremamente longevi; gli idioti in contrapposizione ai geni; i ciechi in contrapposizione ai soggetti con una vista eccezionalmente buona. Le basi genetiche di queste due classi di fenotipi estremi opposti hanno quasi sempre gradi di complessità molto differenti fra loro. I minus varianti estremi corrispondono generalmente a un genotipo per un singolo gene o a una singola causa ambientale (per es., l'idiozia fenilpiruvica corrisponde all'omozigosi per un allele silente del gene della fenilidrossilasi e, rispettivamente, all'inedia, cioè all'assenza di sollecitazioni durante il primo periodo della vita), che fungono quindi da causa sufficiente, da sola, a provocare il fenotipo estremo. Quando il fenotipo estremo possiede una base genetica, il carattere che lo determina, invece che poligenico, è unigenico, ovvero ereditabile in forma discreta e capace di segregare i fenotipi alternativi (uno normale e uno estremo), evento, questo, che, nella grande maggioranza dei casi, può essere ben spiegato anche a livello molecolare. I plus varianti estremi, invece, hanno quasi sempre una base genetica complessa: il loro genotipo eccezionale non riguarda un solo gene, ma un'intera costellazione genica, evidentemente non trasmissibile in modo unifattoriale, alla quale viene eventualmente ad aggiungersi anche un'influenza ambientale particolarmente favorevole. È difficile non pensare a casi come quello di Mozart, cui il padre, Leopold, verosimilmente ha trasmesso una serie molto speciale di alleli e certamente ha impartito un insegnamento musicale eccezionale. Gli unici fenotipi estremi su base poligenica, e ciò nonostante trasmissibili in blocco dai genitori ai figli, sono quelli in cui i genitori sono entrambi omozigoti per l'allele 'giusto' in tutti i geni coinvolti nel fenotipo. Questo è probabilmente il caso della pigmentazione scura dei gruppi umani di Africa, India e Australia, ma anche in questi casi un'eventuale F2 (seconda generazione filiale) di un incrocio con un individuo poco pigmentato non dà origine a una segregazione di tipo mendeliano, bensì a un continuum fenotipico. C'è da chiedersi come mai i fenotipi estremi, se sono estremi in senso minus, hanno una base unigenica, mentre se lo sono in senso plus sono poligenici. La risposta è molto semplice: tutti i caratteri complessi e rilevanti per la durata e la qualità della vita richiedono il corretto funzionamento di un gran numero di geni.
In altre parole, ciascuno di questi caratteri è drasticamente compromesso in senso negativo, se anche uno solo dei numerosi geni da cui dipende non funziona correttamente. Questa evenienza può verificarsi, sebbene sia rara, perché gli alleli nettamente sfavorevoli sono rari. Sono rari, ma esistono, per cui, sia pur di rado, si incontrano fratrie con più di un soggetto con una malattia genetica rara. Non esistono invece, salvo in casi assolutamente eccezionali, alleli che conferiscano da soli un grande vantaggio fenotipico. La situazione è paragonabile a quella di un'automobile: è perfettamente possibile che un difetto riguardante anche una sola delle sue parti essenziali ne riduca drasticamente le prestazioni; è invece impossibile che un miglioramento di una di queste parti possa causare da solo un raddoppiamento della sua velocità massima. L'eccezionalità di un fenotipo estremo plus variante, quindi, non potendo essere dovuto a un allele eccezionale particolarmente favorevole, deve necessariamente consistere in un'eccezionale combinazione genotipica poligenica costituita da un insieme di alleli, talora non rari, ma che è molto improbabile si trovino tutti assieme. Anche se ciò accadesse, essi non sarebbero comunque trasmissibili in blocco, motivo per cui questi fenotipi risultano non trasmissibili, o difficilmente trasmissibili, da una generazione all'altra e non si trovano in più membri di una fratria, sebbene abbiano, nei soggetti eccezionali in cui si presentano, una base genetica molto forte (è ben noto infatti che non sono mai esistiti un Newton con un figlio del suo livello, né una fratria con più di un Dante Alighieri o di un Leonardo da Vinci). Un'implicazione importante di questo stato di cose è che la componente genetica di un fenotipo complesso non è presente in modo uniforme lungo tutto lo spettro della distribuzione di quel fenotipo: per la quasi totalità della popolazione, cioè quella compresa nella distribuzione normale, gioca un ruolo predominante l'interazione tra genotipo e ambiente, entrambi complessi; i rari soggetti con fenotipo estremo, invece, sono tali perché su di loro ha agito un genotipo eccezionale e/o un ambiente eccezionale. Se si tratta di minus varianti il genotipo eccezionale riguarda un singolo gene, mentre nel caso dei plus varianti il genotipo eccezionale riguarda una costellazione genica eccezionale. In conclusione, di regola l'ereditarietà dei caratteri fenotipici complessi può essere interpretata in termini genetici soltanto per i minus varianti estremi. In base alle conoscenze attuali fanno eccezione a questa regola unicamente i plus varianti estremi, nei quali il vantaggio fenotipico di grado estremo non è incondizionato, cioè operante in qualsiasi circostanza ambientale, bensì un vantaggio adattativo nei riguardi di uno specifico fattore ambientale avverso. I casi più noti riguardano gli alleli che conferiscono resistenza alla malaria come l'allele fy, che allo stato omozigote conferisce una resistenza assoluta al Plasmodium vivax, e l'allele βS, che allo stato eterozigote protegge dalle forme più gravi di malaria da Plasmodium falciparum.
L. Decarli et al., Genetica generale e umana, Padova, Piccin-Nuova libraria, 1997.
B. Lewin, Genes VI, Oxford-New York, Oxford University Press, 1997 (in it. v. Il gene IV, Bologna, Zanichelli, 19972).
G. Montalenti, Introduzione alla genetica, Torino, UTET, 19792.