SCIENZE OMICHE
- Genomica.Trascrittomica. Proteomica. Metabolomica. Dal profiling all’interpretazione biologica. Bibliografia
Si definiscono scienze omiche quelle discipline che utilizzano tecnologie di analisi che consentono la produzione di informazioni (dati), in numero molto elevato e nello stesso intervallo di tempo, utili per la descrizione e l’interpretazione del sistema biologico studiato. A titolo di esempio la genomica, termine che è stato introdotto alla fine degli anni Ottanta del 20° sec., rappresenta la disciplina che utilizza tecnologie per studiare il genoma, cioè il sistema geni. Dal punto di vista etimologico, il termine genoma risale a Hans Winkler (Verbreitung und Ursache der Parthenogenesis im Pflanzen- und Tierreiche, 1920) che creò la fusione tra il termine gene e il suffisso -oma, suffisso che secondo Joshua Lederberg e Alexa T. McCray (2001) farebbe riferimento al sanscrito OM a indicare completezza e pienezza. Il termine genoma, quindi, rappresenta l’insieme dei geni di un individuo e la genomica la disciplina che studia e misura il sistema geni. Il sequenziamento completo del genoma di Haemophilus influenzae nel 1995 (Fleischmann, Adams, White 1995) ha segnato una profonda transizione nella storia delle scienze biologiche.
Il sequenziamento completo del DNA (DeoxyriboNucleic Acid) è stato in breve seguito da uno sviluppo di tecnologie di indagine innovative che, grazie al contemporaneo miglioramento dei supporti informatici, permettessero misurazioni di un elevato numero di specie molecolari esistenti all’interno della cellula, con lo scopo di comprendere il funzionamento di un sistema biologico. Infatti, si è rapidamente compreso che la conoscenza della sequenza genica del DNA di un organismo non è sufficiente da sola per comprendere l’effettivo funzionamento di un organismo vivente: la conoscenza della sequenza dei geni può fornire solo un’interpretazione caratterizzata da una probabilità di come possa funzionare ed evolversi il sistema, in quanto non tiene conto degli effetti dell’interazione con l’ambiente circostante sugli altri elementi della macchina vivente e sul suo complesso. Su questa base, si è arrivati a cambiare la precedente visione gerarchica del funzionamento di un sistema vivente, descritta come flusso unidirezionale tra un gene, un trascritto, una proteina, un metabolita, in una visione basata su un flusso interattivo tra i diversi livelli sistema (sistema geni, trascritti, proteine e metaboliti) e l’ambiente esterno.
Analogamente al genoma, sono stati quindi definiti i sistemi in termini di trascrittoma, l’insieme degli RNA (RiboNucleic Acid) messaggeri, di proteoma, l’insieme delle proteine, e di metaboloma, l’insieme di tutti i metaboliti presenti all’interno di una cellula, tessuto, organo, organismo. La necessità di ottenere dati quantitativi sui singoli componenti dei diversi insiemi, trascritti, proteine, metaboliti, ha portato da una parte allo sviluppo di tecnologie analitiche sempre più avanzate che permettessero misure contemporanee di un numero sempre più elevato di componenti biomolecolari, dall’altra all’esigenza di nuove discipline analitiche (data-mining) che permettano di interpretare e riassumere l’enorme quantità di dati osservazionali e identificare le relazioni, latenti nel campo dei dati, portando alla formulazione di nuove ipotesi di funzionamento del sistema.
Le s. o. come genomica, trascrittomica, proteomica e metabolomica costituiscono le sorgenti di dati per una nuova disciplina chiamata biologia di sistema (system biology, v.) che ha lo scopo di creare i modelli per l’integrazione dei dati e fornire modelli predittivi per la valutazione del funzionamento complesso del sistema vivente.
Genomica. – È la disciplina omica che studia le sequenze dell’intero genoma e le informazioni contenute al suo interno. È anche la s. o. più matura. A partire dal 1995, sono stati completati diverse centinaia di progetti di sequenziamento del genoma di specie rappresentative dei tre regni della vita. Le sequenze geniche sono disponibili in banche dati, facilitando molti studi di genomica comparativa con lo scopo di identificare geni ed elementi regolatori (Kellis, Patterson, Endrizzi et al. 2003), comprendere la specializzazione e ridefinire la nostra idea dell’evoluzione dell’albero della vita (Delsuc, Brinkmann, Philippe 2005). Inoltre, mediante approcci computazionali, compito della genomica è anche quello di individuare siti di legame di fattori di trascrizione nelle sequenze genomiche (Tompa, Li, Bailey et al. 2005). Nel campo della genetica umana, la genomica ha permesso di identificare gruppi di geni che hanno una relazione con lo sviluppo di patologie umane. La presenza di questi gruppi di geni in un individuo può costituire un indicatore potenziale di rischio per l’insorgenza di quella data patologia.
Trascrittomica. – La trascrittomica fornisce informazioni relative alla presenza e all’abbondanza relativa di trascritti RNA, e da qui alla dinamica dell’espressione genica. Le principali tecnologie sperimentali usate per la trascrittomica si basano su tecniche micro-array e analisi seriale dell’espressione genica (SAGE, Serial Analysis of Gene Expression). Quet’ultima tecnica si basa sull’analisi di sequenze di frammenti di cDNA derivato dalla trascrizione inversa di RNA cellulare o tissutale. L’analisi permette di valutare il livello di espressione genica. La trascrittomica è stata applicata allo studio di molti sistemi modello e anche per studiare geni che sono espressi in cellule staminali. In campo medico, la trascrittomica è stata utilizzata per classificare sottotipi di cancro come pure per monitorare la risposta trascrizionale della cellula ospite a patogeni (Rhodes, Chinnaiyan 2005). In linea di principio, la trascrittomica ha la potenzialità di contribuire allo sviluppo dell’individuazione di nuovi biomarcatori utili per la predizione dell’evoluzione di uno stato patologico e della sua risposta alla terapia. Tuttavia, al fine di ottenere validi biomarcatori diagnostici o prognostici, è necessario tener conto che l’analisi dei trascritti può non essere sufficiente da sola, in quanto l’espressione genica potrebbe essere controllata a livello post-trascrizionale.
Proteomica. – Scopo della proteomica non è soltanto identificare e quantificare i livelli cellulari di ogni proteina che è stata codificata dal genoma, ma anche studiare le modifiche post-traslazionali, le interazioni substrato-proteina, proteina-proteina, acido nucleico-proteina; la localizzazione subcellulare. L’identificazione delle proteine avviene in maniera seriale: il metodo prevede una separazione delle proteine usando cromatografia, gel elettroforetico dimensionale (dove la separazione si effettua sulla base della carica e della dimensione) oppure attraverso gel monodimensionali (che separano per la dimensione); successivamente si procede con la digestione delle proteine, generalmente mediante tripsina, e poi si procede con una ‘corsa’ attraverso lo spettrometro di massa. Lo spettro di massa identifica la dimensione di ogni peptide che si è formato dalla digestione, e dal confronto dei peptidi con quelli contenuti in banche dati è possibile risalire alle proteine di partenza utilizzando modelli e algoritmi (Kuster, Schirle, Mallick et al. 2005). La proteomica è la disciplina omica che più si presta nell’identificazione di nuovi biomarcatori diagnostici e prognostici nella clinica medica.
Metabolomica. – È la disciplina omica che ha lo scopo di fornire una misura quantitativa dei metaboliti a basso peso molecolare presenti in una cellula, tessuto, organo o in un organismo. La metabolomica è anche definita come la misura dinamica della risposta multiparametrica di un organismo vivente a una perturbazione fisiopatologica o variazione genica (Nicholson, Lindon 2008).
Le tecnologie analitiche che sono maggiormente utilizzate impiegano tecniche separative cromatografiche liquide o gassose e rilevazione mediante spettrometro di massa (rispettivamente LC/MS, Liquid Chromatography/Mass Spectrometry, o GC/MS, Gas Chromatography/Mass Spectrometry) oppure la spettroscopia di risonanza magnetica nucleare ad alta risoluzione. I dati ottenuti mediante le piattaforme tecnologiche analitiche sono oggetto di applicazioni di modelli statistici multivariati che permettono la riduzione del numero delle variabili misurate in variabili complesse per la classificazione e una più integrata interpretazione metabolica. Con la metabolomica si ottiene un profilo metabolico che rappresenta lo stato attuale metabolico dell’organismo nel contesto ambientale. Infatti, il metaboloma, cioè l’insieme dei metaboliti presenti nel sistema studiato, rispetto al trascrittoma e al proteoma, risulta essere il più sensibile alle variazioni dell’ambiente. Di conseguenza il profilo metabolico ottenuto da fluidi biologici umani o animali (come urina, plasma, saliva, feci) o da estratti cellulari microbici, vegetali o animali, rappresenta il fenotipo metabolico risultante dalla funzione del genoma nel contesto ambientale.
Per tale motivo, la metabolomica è applicata in diversi campi scientifici. Per fare alcuni esempi: dalla definizione della qualità degli alimenti alla classificazione di specie vegetali e microbiche, dalla valutazione di problematiche legate alla nutrizione alla valutazione degli effetti farmaco-logici, dall’identificazione di biomarcatori di patologie all’individuazione di ‘soggetti responder’ e non a una terapia farmacologica.
Dal profiling all’interpretazione biologica. – Come anticipato nelle precedenti sezioni, dal punto di vista sperimentale, tutte le s. o. si servono di una o più piattaforme diprofiling per caratterizzare il sistema biologico in esame, dal punto di vista della natura e della concentrazione delle specie presenti. In questo contesto, a seconda dell’obiettivo finale e dello stato delle conoscenze sul sistema, si può procedere secondo due approcci, ovvero in maniera targeted (mirata) o untargeted (non mirata). Nel primo caso, che generalmente è portato avanti quando si conoscano almeno alcune delle specie che potenzialmente hanno un ruolo chiave per lo sviluppo di alcune funzionalità o processi biologici, o se ne sospetti comunque a priori la possibile importanza, le determinazioni sperimentali sono incentrate esclusivamente nella ricerca e nella quantificazione di queste sostanze. Al contrario, nell’approccio untargeted, si sfrutta la possibilità di operare un profiling quanto più possibile completo del bioma di interesse attraverso tecniche strumentali high throughput e, per valutare il ruolo e l’importanza delle diverse specie, si ricorre all’impiego di elaborazioni statistiche, soprattutto di natura multivariata, affiancate all’uso di opportuni disegni sperimentali (sia osservazionali sia intervenzionali). Rispetto all’approccio targeted, quello untargeted assume un punto di vista più olistico e fornisce risultati correlati al complesso del metabolismo cellulare. Appare quindi chiaro come, per l’interpretazione dei segnali misurati dalle diverse s. o. e per la conseguente identificazione di biomarcatori, queste discipline non possano prescindere dall’interfacciarsi con l’analisi statistica multivariata e, in particolare, con la chemiometria (v.).
I dati prodotti nell’ambito delle s. o. possono differire tra loro per struttura e complessità. Nei casi più semplici, un data set omico può contenere i profili sperimentali misurati su un certo numero di soggetti in particolari condizioni sperimentali: questa situazione genera una matrice X(I×J), corrispondente a J variabili misurate su I soggetti. Se tutti i soggetti sono stati analizzati nelle stesse condizioni sperimentali, allora (idealmente) possono essere considerati come appartenenti alla stessa popolazione statistica di individui che si comportano secondo le condizioni stabilite. In questo caso, l’analisi delle componenti principali (PCA, Principal Component Analysis) è lo strumento d’elezione per identificare andamenti o similarità all’interno dei dati e per interpretare i risultati sperimentali raccolti. D’altro canto, come già segnalato in precedenza, molto spesso le condizioni operative sono definite secondo un opportuno disegno sperimentale, al fine di studiare, per es., l’evoluzione di una patologia, la risposta a un trattamento farmacologico o nutrizionale, o le differenze tra gruppi di individui. In tutti questi casi, un approccio che tenga in considerazione la strutturazione dei dati stessi, per es. attraverso l’impiego di metodi cosiddetti multiset, risulta più adeguato a fornire un’interpretazione accurata dei risultati ottenuti. Si consideri il caso di uno studio d’intervento nutrizionale, nel quale a diversi pazienti siano somministrati diversi trattamenti e si raccolgano campioni di fluidi biologici a diversi intervalli di tempo. L’uso di un metodo come la PCA per l’elaborazione dei dati corrispondenti, in cui ciascun profilo sperimentale risulti dal contributo di diverse fonti di variabilità, sarebbe subottimale, in quanto l’effetto dei diversi fattori in gioco risulterebbe mischiato e confuso nel modello. Di contro, la possibilità di isolare e identificare il contributo dei diversi fattori in gioco sui segnali misurati, al fine di poter quindi interpretarne l’effetto sistemico, è fornita dall’impiego di strategie che utilizzino in maniera appropriata l’informazione sul disegno sperimentale adottato per definire l’analisi dei dati. Queste strategie si servono dell’arsenale dei metodi multiset, il più utilizzato dei quali in ambito omico è senza dubbio il metodo ASCA (Analysis of variance-Simultaneous Component Analysis; Jansen, Hoefsloot, van der Greef et al. 2005). ASCA è una tecnica di analisi dei dati multivariati che accoppia una partizione della matrice dei dati in sottomatrici, corrispondenti agli effetti dei diversi fattori investigati e delle loro interazioni, con l’analisi esplorativa di ciascuna delle sottomatrici ottenute, attraverso la PCA. Per es., se si considerasse lo studio intervenzionale descritto in precedenza, ASCA opererebbe identificando i contributi alla matrice X dei diversi termini in gioco, secondo l’equazione:
X=Xoffset+Xtempo+Xtrattamento+Xtempo×trattamento+Xres [1]
dove Xoffset rappresenta un contributo (costante) di offset, dato dal profilo medio misurato su tutti gli individui, Xtempo e Xtrattamento sono le matrici che raccolgono i contributi al segnale ascrivibili, rispettivamente, all’effetto dell’evoluzione temporale e dei diversi trattamenti, Xtempo×trattamento rappresenta l’interazione tempo/trattamento, ovvero come l’evoluzione temporale dei diversi individui risulti modulata dal trattamento somministrato loro, e Xres è la matrice dei residui, ovvero della variabilità interindividuale non spiegata dal modello. Dall’analisi PCA effettuata su ciascuna di queste matrici degli effetti, è possibile ottenere informazioni su quali siano le porzioni del segnale e, quindi, le proteine, i metaboliti, i trascritti o i geni, che presentino le maggiori variazioni in funzione dei fattori studiati e delle loro interazioni. Lo schema generale, esemplificato nell’equazione [1], implica che ogni individuo sia sottoposto esclusivamente a uno dei trattamenti: in altre parole, il fattore ‘individuo’ è nidificato nei fattori ‘tempo’ e ‘trattamento’, che sono tra loro incrociati. Nel caso in cui, invece, ciascun individuo si sottoponga a tutti i trattamenti, ovvero in cui siano i fattori ‘trattamento’ (e ‘tempo’) a essere nidificati nel fattore ‘individuo’, la particolare configurazione multiset prende il nome di multilivello e permette di analizzare separatamente le fonti di variabilità interindividuale e l’effetto dei fattori controllati sui segnali intraindividuali.
Da un punto di vista statistico, tutti i metodi elencati finora appartengono alla famiglia delle tecniche di analisi esplorativa dei dati, ovvero forniscono una caratterizzazione delle variazioni e delle evoluzioni dei profili metabolici/proteici/di espressione genica che però mancano di qualsiasi capacità predittiva. Quest’ultima caratteristica, ovvero la possibilità di sviluppare modelli predittivi che permettano di differenziare tra individui appartenenti a gruppi diversi (per es., controlli e trattati, oppure sani e malati), è al centro di quella parte interpretativa delle s. o. che ha come obiettivo l’identificazione di biomarcatori, ovvero di quegli indicatori biologici, genetici o biochimici che possono essere messi in relazione con l’insorgenza o lo sviluppo di una patologia. Infatti, affinché possa avere un’utilità clinica, a un biomarcatore è richiesto di possedere un’elevata capacità prognostica e predittiva e, pertanto, la sua ricerca può essere affrontata soprattutto (se non esclusivamente) attraverso l’impiego di metodologie statistiche di natura predittiva. In quest’ambito, un ruolo chiave è giocato dai metodi di classificazione, ovvero da quei metodi il cui obiettivo sia la formulazione di modelli che permettano di fare previsioni di natura qualitativa sui campioni in esame (sano, malato, trattato sono, infatti, tutti esempi di proprietà qualitative utilizzate per descrivere gli individui). Rispetto a un modello esplorativo, la formulazione di un modello predittivo richiede di avere a disposizione un numero sufficiente di campioni per ciascuno dei gruppi da caratterizzare, se si voglia sperare di ottenere predizioni affidabili. Dal punto di vista chemiometrico, l’elevato numero di variabili – generalmente correlate – normalmente misurate in un esperi-mento omico fa sì che i metodi più comunemente utilizzati per la formulazione di modelli di classificazione volti all’identificazione di biomarcatori (multivariati) siano l’analisi discriminante in componenti principali (PCDA, Principal Component Discriminant Analysis) e l’analisi discriminante attraverso l’algoritmo di minimi quadrati parziali (PLS-DA,Partial Least Squares-Discriminant Analysis) (v. chemiometria). Inoltre, quando si abbiano a disposizione dati provenienti da più piattaforme, da più compartimenti biologici o anche se si vogliano integrare i profili strumentali con le informazioni cliniche, è possibile combinare le informazioni racchiuse nelle diverse matrici di dati attraverso protocolli di data fusion o metodi multiblocco.
Qualsiasi sia l’approccio modellistico scelto per la formulazione delle ipotesi biologiche, chimiche e cliniche, un aspetto di fondamentale importanza, ai fini dell’affidabilità dei modelli stessi e delle conclusioni tratte a partire da essi, è quello della validazione, ovvero della verifica della validità e della generalizzabilità dei risultati ottenuti. Dalla verifica della significatività degli effetti osservati a quella della differenziazione tra due categorie di individui e dei biomarkers associati a essa, la validazione fornisce una stima dell’affidabilità delle predizioni e delle ipotesi formulate e un valido antidoto contro la sovrainterpretazione dei modelli.
Bibliografia: R.D. Fleischmann, M.D. Adams, O. White et al., Whole-genome random sequencing and assembly of Haemophilus influenzae Rd., «Science», 1995, 269, pp. 496-512; M. Kellis, N. Patterson, M. Endrizzi et al., Sequencing and comparison of yeast species to identify genes and regulatory elements, «Nature», 2003, 423, pp. 241-54; F. Delsuc, H. Brinkmann, H. Philippe, Phylogenomics and the reconstruction of the tree of life, «Nature reviews. Genetics», 2005, 6, pp. 361-75; J.J. Jansen, H.C.J. Hoefsloot, J. van der Greef et al., ASCA: analysis of multivariate data obtained from an experimental design, «Journal of chemometrics», 2005, 19, pp. 469-81; B. Kuster, M. Schirle, P. Mallick et al., Scoring proteomes with proteotypic peptide probes, «Nature reviews. Molecular cell biology», 2005, 6, pp. 577-83; D.R. Rhodes, A.M. Chinnaiyan, Integrative analysis of the cancer transcriptome, «Nature genetics», 2005, 37, S31-S37; M. Tompa, N. Li, T.L. Bailey et al., Assessing computational tools for the discovery of transcription factor binding sites, «Nature biotechnology», 2005, 23, pp. 137-44; J.K. Nicholson, J.C. Lindon, Systems biology: metabonomics, «Nature», 2008, 455, pp. 1054-56. Si veda inoltre: J. Lederberg, A.T. McCray, ’Ome sweet ’omics. A genealogical treasury of words, «The scientist», 2001, http://www.the-scientist.com/?articles.view/articleNo/13313/title/-Ome-Sweet-Omics--A-Genealogical-Treasury-of-Words/.