Complessità biologica: modelli matematici
La complessità della struttura e del comportamento sembra una caratteristica intrinseca degli esseri viventi. Per loro stessa natura, questi sistemi devono essere aperti agli scambi con l’ambiente in cui si trovano, dal quale traggono nutrimento per le proprie funzioni vitali e nel quale rilasciano gli scarti prodotti in tale processo, allo scopo di mantenere le loro funzioni vitali. Quindi, per conservare un equilibrio stazionario, che necessita di un’appropriata quantità di energia o di informazione strutturata, quasi tutti gli elementi del mondo vivente si oppongono al cambiamento verso lo stato di massima entropia (ossia, sostanzialmente, di massimo disordine), stabilito per i sistemi isolati dal secondo principio della termodinamica. L’associazione con l’ambiente e quella fra le proprie diverse componenti conferiscono alla dinamica dei sistemi biologici almeno due caratteristiche, tecnicamente utilizzate come indicatori di complessità: un alto grado d’imprevedibilità e la non linearità degli effetti rispetto alle cause. Con l’espressione non linearità viene comunemente intesa l’irriducibilità del comportamento di un dato sistema alla somma dei comportamenti delle sue parti.
Nell’affrontare la formalizzazione matematica dei fenomeni biologici s’incontra una difficoltà fondamentale, espressa chiaramente dallo statunitense premio Nobel per la fisiologia o medicina (2001) Leland H. Hartwell: «I sistemi biologici sono molto diversi dai sistemi chimici e fisici solitamente analizzati con gli strumenti della meccanica statistica o della fluidodinamica […]. Infatti i sistemi fisici sono spesso composti da entità semplici, mentre in biologia ognuno dei componenti è esso stesso spesso un dispositivo microscopico, capace di trasformare energia e di lavorare lontano dall’equilibrio […]. Nonostante i sistemi viventi ovviamente rispettino i principi della fisica e della chimica, la nozione di funzione e finalità differenzia la biologia dalle altre scienze naturali» (L.H. Hartwell, J.J. Hopfield, S. Leibler, A.W. Murray, From molecular to modular cell biology, «Nature», 1999, 402, 6761 Suppl., p. c49).
Modelli matematici e biomedicina
Con la decodifica del genoma umano e l’inizio dell’era postgenomica, medici e biologi si sono trovati ad avere a disposizione una quantità enorme di dati da comprendere e da mettere in ordine e, pertanto, a far fronte alla necessità di rendere interdisciplinare la loro ricerca, coinvolgendo esperti di estrazioni diverse (dalla fisica all’ingegneria, dalla matematica all’informatica). Ciò ha rappresentato lo spunto per rispondere a un’esigenza di tipo evoluzionistico tipica del campo biomedico. Infatti il medico, avendo a disposizione una fotografia scattata in un istante dell’evoluzione o, nei casi più fortunati, una serie di fotografie scattate durante un periodo di osservazione, ha tipicamente due esigenze: capire come si è arrivati alla situazione attuale, che dal punto di vista matematico costituisce un problema inverso; prevedere gli sviluppi futuri, il che sempre dal punto di vista matematico si formalizza come un problema diretto. Inoltre, avendo un buon modello a disposizione, diventa possibile ottimizzare il tipo d’intervento, ovvero risolvere un problema di ottimizzazione e controllo.
Da qui l’esigenza di sviluppare modelli matematici che consentano simulazioni della situazione reale. Si tenga presente che il mondo biomedico non è nuovo al concetto di modello, anche se fino a oggi questo è stato inteso soprattutto come sinonimo di materiale in vitro o di cavie. Infatti la prassi medica sperimentale porta dall’esperienza clinica a quella di laboratorio per poi tornare all’esperienza clinica, sviluppandosi per passi di astrazione e semplificazione, allo scopo di comprendere i singoli aspetti che contribuiscono ai complessi fenomeni naturali. Questo approccio è molto simile a quello della modellizzazione matematica.
La profonda complessità che caratterizza gli organismi viventi e le innumerevoli relazioni esistenti tra le loro diverse componenti rendono impossibile descrivere un dato sistema vivente nella sua completezza e richiedono di mettere in evidenza sottofenomeni specifici, con l’introduzione di modelli drasticamente semplificati rispetto alla realtà. Si pensi, per es., al grado di semplificazione operato considerando un topo come modello dell’organismo umano. Quello richiesto dalla formalizzazione matematica è un grado ancora più spinto, potendo questa operare soltanto con poche variabili significative.
In particolare, l’osservazione di un certo fenomeno sul paziente suggerisce ai ricercatori lo sviluppo di test in vivo (per es., su cavie o embrioni di pollo) o in vitro (che risultano più maneggevoli, riproducibili e relativamente inoffensivi). A questo punto, si possono generare modelli matematici a partire sia dall’osservazione fenomenologica diretta, sia dal modello biologico. Le simulazioni che ne derivano sono spesso chiamate dai biologi modelli in silico.
L’acquisizione di questa conoscenza è quindi valutata attraverso fasi sperimentali caratterizzate da una crescente complessità, per essere eventualmente applicata alla pratica clinica. Tale processo presenta un problema etico, perché parte da esperimenti su piccoli mammiferi, passa per i grandi mammiferi e infine si concentra su pazienti veri e propri. Si tratta di un problema che oggi tende a essere mitigato dai moderni strumenti informatici e dalla modellizzazione matematica, i quali permettono di rappresentare virtualmente il fenomeno di interesse e facilitano la comprensione e l’ottimizzazione degli esperimenti, identificando in anticipo le vie più promettenti.
Applicazione del metodo multiscala
Nell’applicazione della modellizzazione matematica alle scienze della vita, lo studio dipende dalla lente di ingrandimento, reale o ideale, utilizzata dal biologo nel descrivere i fenomeni di interesse. In particolare, quanto avviene a una certa scala è fortemente legato alle altre scale. Risulta quindi impossibile descrivere l’intero fenomeno senza considerare quello che succede a una scala più piccola o a una più grande. Questo ha portato all’adozione di metodi matematici che sono detti multiscala e al tentativo di collegare i modelli matematici che descrivono separatamente le diverse scale, fornendo come input a un modello l’output di un altro che opera su una scala diversa.
Anche quando si cerca di descrivere ciò che accade ai livelli subcellulare, cellulare o tissutale, si capisce spesso che i vari livelli sono logicamente e funzionalmente interconnessi. È infatti noto, per es., che il comportamento di una cellula dipende dalle interazioni che essa ha con l’ambiente esterno e dalle reazioni chimiche che avvengono al suo interno. I due aspetti sono fortemente collegati da fenomeni di retroazione che attivano vie di traduzione, le quali legano il segnale proveniente dall’esterno con l’informazione genetica e l’espressione genica.
Per es., un’alterazione di tipo genetico può determinare la sovraespressione o sottoespressione (presenza di una quantità maggiore oppure minore di molecole rispetto alla norma) di una particolare proteina. Ogni proteina è coinvolta in diverse reazioni enzimatiche che innescano altre reazioni con un susseguirsi di interazioni, di formazione e rottura di complessi alle quali viene dato il nome di cascate proteiche. In questo modo un’alterazione genica influenza l’output della cascata proteica e quindi il comportamento della singola cellula e dell’intero tessuto. Per es., una cellula può diventare insensibile ai segnali di inibizione della crescita trasmessi al suo interno quando essa aderisce ad altre cellule, perché nella cascata proteica che segnala al nucleo la raggiunta confluenza delle cellule si altera qualcosa. La conseguenza è che le cellule continuano a duplicarsi in maniera incontrollata dando luogo a tumori.
Lo studio delle interazioni biologiche tra i livelli genetico, cellulare e tissutale ha reso evidente il bisogno di affrontare la complessità dei fenomeni che governano il comportamento di tutti i tessuti biologici, considerando e collegando tutti i livelli, dal subcellulare al macroscopico (fig. 1).
Entrando più in dettaglio, si può identificare una scala molecolare, che si riferisce alla struttura delle proteine, alla loro affinità, al contenuto del genoma e all’espressione genica; una scala subcellulare in riferimento ai fenomeni che hanno luogo all’interno della cellula o alla sua membrana, per es. trasduzione del segnale chimico e attivazione di cascate proteiche, espressione di recettori e molecole transmembrana; una scala cellulare, riferita al comportamento della singola cellula, per es. duplicazione, moto, adesione, intravasazione ed extravasazione dal sistema linfatico e vascolare; una scala intercellulare che si riferisce alle interazioni tra le cellule dello stesso tipo o di tipo diverso, cioè interazioni proliferative o distruttive, stimolanti o inibenti, aggregazioni e distacchi; una scala sopracellulare, relativa ai fenomeni di grandi insiemi di molecole e cellule, per es. diffusione e trasporto di nutrienti e fattori chimici, risposta meccanica, interazione tra tessuti diversi.
Supponendo anche di essere solamente interessati alla descrizione di fenomeni macroscopici, quali la dinamica del cuore, la fisiologia dei polmoni, la crescita dei tumori, il flusso del sangue, è importante tener conto del fatto che in un dato ambiente le cellule interagiscono con altre cellule, dello stesso tipo o di tipo diverso, e con altre strutture, quali la matrice extracellulare, i fluidi e le sostanze chimiche che si diffondono in essi.
Il risultato finale dell’interazione è deciso a livello subcellulare, per es. con l’espressione di particolari proteine e l’attivazione di cascate proteiche che risultano governate dalle caratteristiche genetiche della cellula e dalla particolare espressione genica. Il comportamento macroscopico dipende pertanto da eventi microscopici; questi ultimi, a loro volta, possono dipendere da fenomeni che conviene descrivere dal punto di vista macroscopico, come, per es., la diffusione di molecole, lo stato tensionale.
Anche focalizzandosi su un preciso fenomeno d’interesse, il modello matematico che può tornare di pratica utilità non è mai univocamente definito. Ogni modello matematico ha i suoi vantaggi e i suoi svantaggi, perché non può che rappresentare una parte dell’oggetto reale. Per es., problemi di crescita tissutale possono essere affrontati con modelli propri della meccanica dei continui o con modelli discreti basati su un numero finito di individui (denominati individual based). I primi tendono a descrivere la crescita macroscopica, i secondi il comportamento dell’insieme di cellule che forma il tessuto in crescita.
In prima approssimazione si può dire che i modelli macroscopici atti a descrivere i fenomeni che avvengono alla scala tissutale si scrivono tipicamente come sistemi di equazioni alle derivate parziali; i modelli microscopici atti a descrivere i fenomeni che avvengono alla scala cellulare si sviluppano di solito nell’ambito delle teorie cinetiche o di modelli individual based, automi cellulari, cammini aleatori o particellari; i modelli microscopici atti a descrivere i fenomeni che avvengono alla scala subcellulare consistono tipicamente di sistemi di equazioni alle derivate ordinarie, oppure di automi cellulari e reti neurali e fanno uso di metodi statistici per ricavare informazioni controllabili sperimentalmente.
Ben sapendo che il comportamento dei sistemi biologici dipende da quanto avviene ad altre scale, si stanno sviluppando anche modelli annidati, che legano in maniera verticale modelli operanti su scale diverse: per es., reti booleane in automi cellulari o modelli individual based già menzionati, moduli di comportamento cellulare e subcellulare che determinano i coefficienti dei modelli macroscopici. Il fine ultimo è quello di legare modelli di tipo diverso per trasferire informazioni tra scale spaziali differenti. Infatti, generalmente un dato modello opera a una scala particolare e si presenta la necessità di inglobare, per quanto possibile, informazioni provenienti dalle altre scale d’interesse. Si sta cercando di sviluppare anche modelli ibridi che leghino in maniera orizzontale tipologie di modellizzazione diverse operanti sulla stessa scala, come modelli continui e modelli individual based. Questo permette di sfruttare i vantaggi che offrono le due modalità: andare alla scala della singola cellula soltanto dove e quando è necessario, utilizzando le tecniche computazionali più convenienti al livello di dettaglio necessario.
In seguito, verranno analizzati alcuni argomenti specifici per consentire di comprendere meglio il quadro sin qui delineato.
Comprensione della struttura del genoma
Secondo il paradigma correntemente accettato tutte le funzioni vitali di un essere vivente sono codificate dal suo patrimonio genetico. Il fatto che lo stesso codice genetico possa dare luogo a fenotipi diversi viene attribuito a cause e vincoli esterni al genoma. Dietro a questo paradigma si nasconde quindi una sorta di pseudodeterminismo secondo il quale ciò che determina le caratteristiche salienti di un essere vivente è il codice genetico ereditato dai suoi progenitori. La sequenziazione del genoma umano sembra accreditare questa ipotesi, anche se non mancano alcune tessere difficili da incastrare nel puzzle che ci presenta la natura. Per es., è ormai nota la profonda similitudine tra il patrimonio genetico dell’uomo e quello del topo, che però non si può dire siano molto simili, né sulla scala evolutiva né su quella metabolica. Questo porta proprio alla conclusione che c’è molto altro da considerare e molto di più da capire oltre al genoma per rendere conto delle differenze fenotipiche. Per es., recenti ricerche puntano alla comprensione del ruolo svolto dalla varietà di interazioni fra numeri modesti di geni e alleli, piuttosto che all’azione di massa di un grande numero degli stessi.
Si devono individuare i problemi e le domande alle quali poter dare risposte. Per questo, anche nel caso della comprensione della struttura del genoma, si è partiti affrontando le domande più semplici, come la relazione tra questa struttura e la sua funzione. Come argomenteremo i risultati sono tutt’altro che insoddisfacenti, anche se l’enorme difficoltà del problema che si presenta emerge prepotentemente già a questo livello.
Come ormai sappiamo, l’acido desossiribonucleico (DNA, DeoxyriboNucleic Acid) è composto da una sequenza di basi di quattro tipi diversi (fig. 2): adenina (A), timina (T), citosina (C) e guanina (G). Queste sono organizzate in una struttura a doppio filamento complementare (A-T, C-G) che assume una struttura elicoidale. Negli eucarioti soltanto una percentuale molto piccola della sequenza del DNA (circa il 9%) contiene l’informazione genetica strutturata in esoni. Nel caso del genoma umano questa percentuale scende a quasi il 3% su un totale di circa 6×109 coppie di basi, organizzate su 46 cromosomi. Quello dell’Amoeba dubia invece ne ha 6×1011 e la cipolla ne ha 2×1010. L’assemblaggio di questi esoni attraverso una procedura piuttosto complessa (intervento della polimerasi e dei fattori di trascrizione ecc.) produce un filamento di RNA (RiboNucleic Acid) messaggero che viene trascritto da apposite macchine cellulari (ribosomi) in sequenze peptidiche (enzimi e proteine), le quali a loro volta presiedono alle funzioni del metabolismo e della regolazione cellulare (la polimerasi stessa e i fattori di trascrizione sono proteine, così come i cromosomi attorno a cui si avvolgono i filamenti di DNA). È un mondo in cui si muove una miriade di agenti diversi che interagiscono e sono sottoposti a robusti meccanismi di controllo.
Quasi più del 90% del DNA degli eucarioti non contiene geni ed è fatto di introni, sequenze di ‘start’ e di ‘stop’ e poco altro. A differenza degli esoni, che ci appaiono come sequenze più o meno casuali di simboli, gli introni mostrano alcune regolarità apparenti nella loro struttura. In ogni caso, si può pensare di analizzare il DNA come una sequenza simbolica di un alfabeto a 4 lettere (ATCG) e ci si può chiedere quale sia il contenuto di informazione proprio di tale sequenza. Quest’analisi ha consentito di mettere in luce almeno il fatto che nella componente codificante (esoni) vi è una suddivisione fondamentale nel DNA in triplette. In particolare, è l’analisi di Jean-Baptiste-Joseph Fourier a evidenziare le strutture di periodo 3 nelle sequenze simboliche del DNA, a prima vista del tutto caotiche. Peraltro sappiamo che a questo corrisponde un fattore funzionale ben preciso. Infatti le basi amminoacidiche vengono lette a triplette per individuare uno dei 20 peptidi con i quali si assembla una proteina. Pur non rappresentando alcunché di inatteso questo risultato ci conferma che il metodo di analisi simbolica riesce a individuare almeno un aspetto rilevante della struttura del DNA. Nulla ci impedisce di considerare la sequenza completa e applicare il medesimo tipo di analisi. In questo caso, però, il contenuto d’informazione presente nella sequenza risulta organizzato in modo non molto dissimile da quello di un qualsiasi testo letterario. Il che equivale a dire che il metodo introdotto per quantificare l’informazione contenuta nel DNA è sostanzialmente inadeguato. Senza una chiave di lettura basata sulla conoscenza delle proprietà funzionali delle sue varie parti, sembra improbabile poter caratterizzare il DNA in termini puramente simbolico-formali. Per es., pare assai più rilevante mettere in relazione la struttura periodica di alcuni introni (del tipo ATATATA...) con la caratteristica di essere più flessibili (e quindi favorire possibilmente l’ancoraggio dei fattori di trascrizione), piuttosto che limitarsi ad attribuire la loro rilevanza al solo fatto di essere periodici. Si evidenziano nuovamente i limiti di un’analisi formale delle strutture complesse, che ha dovuto rinunciare alla ricerca del loro significato per renderle in qualche modo quantificabili.
Vediamo brevemente come si può quantificare la complessità o informazione di un messaggio scritto in qualche alfabeto di N lettere, α={1, 2,..., N}, dove abbiamo sostituito per semplicità i simboli delle diverse lettere con dei numeri. Ciò renderà possibile quantificare la complessità della sequenza simbolica rappresentante il DNA, vista come un messaggio scritto con l’alfabeto composto dalle quattro lettere {A, T, G, C}.
Con i simboli di α si possono scrivere parole, cioè delle sequenze simboliche. Diciamo P0,m={σ0σ1σ2...σm} una parola di lunghezza m, dove i simboli σi sono presi da α. Se m è molto grande o la sequenza di simboli non ha limiti, si può immaginare che rappresenti un insieme di parole, ovvero un libro scritto con l’alfabeto α. L’informazione contenuta nel libro può essere quantificata in vari modi. Per es., come misura dell’informazione contenuta in una successione infinita di simboli si può prendere il numero di parole diverse di data lunghezza m in essa contenute. Si possono allora definire semplici le sequenze in cui una data parola è ripetuta all’infinito perché, in sostanza, il loro messaggio è di una sola parola, P0,m={ij…k} (m simboli ripetuti indefinitamente). Se si hanno sequenze simboliche più complicate, contenenti una varietà di parole differenti, estendendo questo concetto di semplice, l’informazione può essere misurata attraverso le frequenze con cui le diverse parole sono ripetute. Per es., date le frequenze μ(1),…, μ(N) delle parole costituite da un solo simbolo, una misura dell’informazione che si può dare è l’entropia, definita dal numero
η = − ΣNi=Iμ(i)log μ(i)
(avendo posto 0×log0=0).
Questa quantità è nulla nel caso di massima semplicità, cioè di sequenza ottenuta da un solo simbolo i, perché allora μ(i)=1 e μ(j)=0 per i≠j, mentre è massima e uguale a logN quando tutti i simboli vengono utilizzati con uguale frequenza. Una diversa misura dell’informazione contenuta in una sequenza σ viene ottenuta separando le sue parole lunghe rare da quelle che non lo sono. Ciò viene fatto scegliendo un numero ε>0 e suddividendo le parole di data lunghezza m in due classi Fεm e Dεm, di cui la prima contiene solo le parole la cui frequenza μ(P) si somma a un numero inferiore a ε, cioè, in simboli
Σμ(P)<ε
(con P∈F∊m), e la seconda contiene tutte le altre parole. Fra tutte le possibili scelte di Fεm si prende poi quella che rende minimo il numero Nm,ε di parole in Dεm e si calcola il limite
s(σ)=lim ε →0limm→∞ -1m log Nm,ε
Ammesso che tutte queste quantità esistano, il numero s(σ) può essere definito informazione o complessità di σ, in quanto le parole contenute in σ possono essere riscritte, salvo che nei casi rari, con un alfabeto di N~ simboli (con N~s(σ)N. Ciò equivale a dire che, a parte casi rari, si possono riscrivere le parole di lunghezza m nello stesso alfabeto a N simboli, ma accorciandole fino a una lunghezza che non scenda sotto m~, con m~ dato dalla relazione s(σ)m=m~ log N. Pertanto s(σ) quantifica l’informazione contenuta in σ al netto delle ridondanze.
Queste definizioni di complessità hanno un valore in ambito tecnico, ma non possono essere interpretate secondo il senso comune del termine né possono esprimere il significato di un messaggio, avendo un carattere meramente quantitativo e per nulla semantico. Di questo ci si rende conto facilmente, considerando che la massima informazione viene attribuita alle sequenze simboliche casuali infinite. La ragione sta nel fatto che tali sequenze hanno spazio per qualsiasi sottosequenza, quindi anche per una codifica della Divina commedia o di qualunque altro testo. Tali testi sensati, però, si trovano nascosti nell’infinità della sequenza e, non sapendo dove cercarli, restano inaccessibili. Le sequenze casuali infinite appaiono dunque al tempo stesso insensate e dotate della massima informazione. L’apparente paradosso sta nell’uso che si è fatto dei termini informazione e complessità, mescolando le loro accezioni tecniche a quelle del linguaggio comune.
Studi sulla proteomica
Le proteine sono sequenze polipeptidiche formate da 20 tipi di basi diverse. Le dimensioni tipiche delle sequenze peptidiche che si trovano in natura vanno dalle decine alle migliaia di basi. Dimensioni così limitate non sembrano prestarsi a un’analisi simbolica di queste sequenze e comunque, visto quanto detto in precedenza, non c’è da attendersi che il contenuto d’informazione sia molto diverso da quello delle parti codificanti del DNA, essendo le proteine trascrizioni in un diverso linguaggio delle sequenze esoniche. La struttura chimica di queste 20 basi consente, in linea di principio, di assemblarle in qualunque possibile sequenza. La natura, invece, sembra aver selezionato le proteine come un sottoinsieme esiguo di tutte le possibili sequenze. Il criterio di selezione sembra collegato quindi alla capacità, propria soltanto di alcune sequenze, di assumere costantemente la stessa conformazione ‘ripiegata’ (detta anche nativa), a partire da uno stato di ‘catena aperta’.
Alcuni fondamentali esperimenti hanno stabilito la robustezza strutturale delle proteine che, sia all’atto del loro assemblaggio, sia dopo essere state denaturate (cioè srotolate con opportune tecniche), in un ampio intervallo di valori fisiologici della temperatura ripristinano sempre la loro conformazione nativa. Si tenga presente che le proteine sono immerse in un solvente (tipicamente H2O) che svolge un ruolo cruciale rispetto alla loro stabilità di conformazione, considerando che un lieve cambiamento del pH del solvente è in grado di produrre la loro denaturazione. È stato mostrato dal biochimico statunitense Christian B. Anfinsen (premio Nobel per la chimica nel 1972) che, se il meccanismo di ricerca dello stato nativo fosse ottenuto attraverso una sequenza di mosse casuali, per trovare tale stato una proteina impiegherebbe un tempo astronomicamente più grande di quello impiegato in realtà (tipicamente qualche decimo di secondo). Occorre anche sottolineare che i tempi caratteristici della dinamica a livello dei costituenti atomici della proteina è stimabile come ordine di grandezza su 10−15 s, il che sta a indicare che sono ben altri i meccanismi dinamici che guidano la proteina verso il suo stato nativo secondo l’efficienza temporale richiesta dalla natura. Alla luce di queste considerazioni si capisce anche perché una descrizione atomistica del processo di ripiegamento delle proteine risulterebbe inefficiente, oltre a essere praticamente irrealizzabile con gli strumenti di calcolo attualmente a disposizione. Per tutti questi motivi sono stati introdotti modelli effettivi di proteine, allo scopo di individuare i meccanismi del ripiegamento nello stato nativo in dipendenza di un numero assai ridotto di parametri rispetto a quelli necessari per una descrizione all atoms. In genere tali modelli sono espressi in termini di hamiltoniane, ossia funzioni energia, in cui le coordinate spaziali e i momenti cinetici si riferiscono ai centri di massa degli amminoacidi, di solito suddivisi in tre gruppi principali: neutri, polari e idrofili. Le configurazioni corrispondenti ai minimi assoluti dell’energia sono stabili e si dovrebbero realizzare in natura.
La presenza del solvente è mimata da potenziali d’interazione a lunga portata la cui natura, attrattiva o repulsiva, dipende dai tipi di residui in interazione. Altri tipi d’interazione a più corpi tra gli amminoacidi sono rappresentati da potenziali angolari che impongono i vincoli geometrici coerenti con la possibilità di produrre i motivi tipici delle strutture secondarie delle proteine (foglietti, eliche e inversioni). Modelli di questo genere sono stati analizzati tramite simulazioni di tipo Monte Carlo allo scopo di determinare i loro stati di minima energia, come rappresentativi del corrispondente stato nativo. In particolare, sono state sviluppate opportune strategie (come il cosiddetto simulated tempering) in cui il metodo di ricerca dello stato nativo viene ottimizzato variando in modo opportuno la temperatura durante l’esecuzione della dinamica Monte Carlo. L’analisi di queste hamiltoniane con metodi di dinamica molecolare (in cui i gradi di libertà sono in contatto con un bagno termico a data temperatura) ha consentito di ottenere ulteriori elementi di validazione per questi modelli. In particolare, si è potuto verificare che soltanto opportune sequenze di amminoacidi possono raggiungere sempre la medesima conformazione nativa, mentre una qualunque sequenza casuale può evolvere verso diversi stati ripiegati a partire da uno stesso stato srotolato. A differenza di quanto si potrebbe ingenuamente supporre, lo stato nativo appare come un vero stato termodinamico di equilibrio, nel senso che è rappresentato da un insieme di diversi microstati equivalenti per conformazione. Questa immagine sembra assai più realistica da un punto di vista fisico di quella di uno stato nativo ridotto a un semplice minimo di energia. Inoltre questo approccio ha messo in luce come il panorama energetico di una proteina-modello abbia una specie di struttura a imbuto che favorisce il raggiungimento della ‘valle nativa’ in tempi relativamente rapidi, evitando al sistema di restare intrappolato in qualche stato metastabile, corrispondente a una regione dello spazio delle fasi organizzata in una vallata sviluppatasi attorno a un minimo locale (fig. 3). In una sequenza casuale, al contrario, il panorama energetico è presumibilmente molto simile alla struttura gerarchica dei minimi di energia dei modelli noti come vetri di spin.
È opportuno sottolineare che molte di queste ricerche sono ancora in una fase pionieristica. Sono richiesti sforzi e verifiche ulteriori prima di poter dire che abbiano raggiunto un livello di ragionevole attendibilità.
Complessità delle reti proteiche
La cellula è piena di una quantità innumerevole di proteine che ne influenzano il comportamento e che decidono le azioni da intraprendere: dividersi, muoversi, attivarsi, differenziarsi, riprodursi, morire e così via. La concentrazione delle varie proteine è regolata da un numero enorme di reazioni chimiche tutte concatenate tra loro in una rete molto intricata paragonata, a volte, a una rete stradale o a Internet.
Una caratteristica di questa rete è la presenza di meccanismi di retroazione e di interconnessioni che rendono il sistema da una parte molto complesso e dall’altra molto robusto. In particolare, certi interruttori azionati chimicamente permettono di attivare o disattivare in modo netto reazioni a catena dette cascate proteiche. Infatti un elemento tipico di molti sistemi biologici è quello di non mostrare alcuna indecisione nei processi intrapresi e di portarli avanti fino a compimento, anche a dispetto di eventuali mutazioni nelle condizioni al contorno. Per es., una cellula si divide o non si divide, non può dividersi soltanto in parte: pertanto, se ha avviato il processo di suddivisione, lo porta a termine.
La deduzione di opportuni modelli matematici per lo studio di tali fenomeni porta all’identificazione delle proprietà topologiche essenziali e dei meccanismi di funzionamento. Ciò serve a individuare, per es., i punti critici su cui concentrare l’attenzione per identificare la cura di una particolare malattia. Inoltre, i modelli matematici contribuiscono all’individuazione del percorso di un segnale chimico dalla membrana al nucleo, per capire se è possibile interferire con quel segnale, che cosa succede se si blocca una sua via di trasduzione, o se vi sono percorsi alternativi.
Molte strutture che si formano in modo spontaneo obbediscono a leggi a potenza, come nel caso dei grafi liberi di scala, nei quali la distribuzione di probabilità del numero di connessioni segue una legge di potenza del tipo
P(c)∼c−ρ
È estremamente interessante il fatto che le reti proteiche, così come la rete telematica Internet e alcune strutture delle connessioni neurali presenti nel cervello, sembrino obbedire a questa stessa legge. In tali situazioni vi sono relativamente pochi nodi dotati di elevata connettività e molti nodi con connettività molto bassa. Si può dire che la formazione di grafi con questa struttura sia spiegabile come il frutto di un’autorganizzazione della rete, che attribuisce a pochi nodi importanti la capacità di smistare un grande traffico d’informazione e a molti di agire in tal senso soltanto su scala locale e in modo assai più limitato. Per spiegare le cause della formazione spontanea di questi grafi privi di scala, si pensi allo sviluppo di Internet, così come alle reti formate cioè dalle connessioni sinaptiche nel cervello. Si tratta di sistemi che devono garantire un flusso d’informazione che non venga interrotto sul suo cammino da eventuali ostacoli. Attribuendo a ciascuna connessione del grafo un gradiente (ossia la propensione di un camminatore a dirigersi preferenzialmente lungo quella connessione per raggiungere un nodo posto più in basso di quello di partenza), si scopre che nei reticoli casuali si vengono a formare percorsi in cui il camminatore resta inevitabilmente intrappolato senza poter mai raggiungere nodi arbitrariamente distanti da quello di partenza. Nel caso di un grafo libero di scala, invece, quasi tutti i percorsi si propagano indefinitamente. Da ciò si può facilmente comprendere il vantaggio evolutivo che determina la creazione di tali strutture e, pertanto, la spontanea selezione di strutture libere di scala.
Bibliografia
R. Badii, A. Politi, Complexity. Hierarchical structures and scaling in physics, Cambridge-New York 1997.
J.M. Epstein, Nonlinear dynamics, mathematical biology, and social science, Reading (Mass.) 1997.
R. Livi, L. Rondoni, Aspetti elementari della complessità, Torino 2006.
M.A. Nowak, Evolutionary dynamics. Exploring the equations of life, Cambridge (Mass.)-London 2006.