Reti neurali
100.000.000.000 neuroni, 700.000.000.000.000 sinapsi per costruire un pensiero
Modelli interpretativi dei circuiti neuronali
diPaolo Del Giudice
13 luglio
Al Dartmouth College, nel New Hampshire, dove nel 1956 fu coniata la locuzione ‘intelligenza artificiale’, la conferenza AI@50 analizza le prospettive di questa disciplina, che studia come realizzare in modo automatizzato funzioni di analisi di situazioni e di decisione caratteristiche dell’uomo. Tipicamente interdisciplinare è l’approccio di studio per interpretare i meccanismi di funzionamento e di apprendimento del cervello.
Verso un approccio teorico alle neuroscienze
«Sul problema dei rapporti tra mente e cervello si sta concentrando l’attenzione di un nuovo genere di specialisti [...] che [...] provengono dai campi delle scienze fisiche, chimiche e matematiche, [...] ed anche [...] di formazione medico-biologica e filosofica». Queste parole, che potrebbero ben descrivere la fase attuale di convergenza interdisciplinare nello studio del cervello, sono state scritte da Vittorio Somenzi nel 1969, presentando una collezione di saggi a cui aveva dato un titolo significativo e impegnativo: La fisica della mente. Questa sensazione di déjà-vu ha un fondamento storico. In effetti da quando, agli inizi del Novecento, lo studio quantitativo del cervello e dei suoi rapporti con l’attività mentale è stato posto al centro delle priorità scientifiche e percepito come una frontiera epocale, quasi ogni rivoluzione teorica ha marcato nuovi tentativi di formalizzare lo studio del cervello: è successo con la cibernetica e la teoria dell’informazione, la teoria formale del calcolo (macchine di Turing e logica degli automi), l’informatica, l’intelligenza artificiale, la linguistica computazionale, la ricerca operativa, la meccanica statistica e la fisica dei sistemi complessi, la modellistica computazionale, la microelettronica dei dispositivi integrati. Riassumeremo in questa sede alcuni sviluppi emersi di recente; è comunque il caso di osservare subito che forse la vera e più rilevante novità è di tipo ‘sociologico’, e sta nella creazione di un’area di contatto, di sovrapposizione e di convergenza operativa tra la comunità scientifica delle neuroscienze propriamente intese e quelle delle scienze cognitive, della fisica dei sistemi complessi, della matematica dei sistemi stocastici, con diramazioni verso altri ambiti, come accenneremo. Da un lato, negli ultimi anni, si è avuta un’esplosione di attività sperimentale in neuroscienze, che ha prodotto e produce una quantità immensa di dati, per i quali si avverte sempre di più l’esigenza di un inquadramento interpretativo-predittivo sistematico. Dall’altro, gli sviluppi teorici prendono vigore dalle prospettive di confronto quantitativo con gli esperimenti, che rendono verificabili alcune predizioni dei modelli. Studiosi delle diverse discipline coinvolte hanno sempre più spesso l’opportunità di lavorare fianco a fianco in istituti creati con una vocazione interdisciplinare specifica; le agenzie di finanziamento della ricerca, in ambiti nazionali e sovranazionali, hanno sviluppato una sensibilità crescente verso approcci innovativi e integrati alle neuroscienze, anche sotto la spinta della sempre maggiore rilevanza sociale delle malattie neurodegenerative; la migliore comprensione dei meccanismi che presiedono all’attività nervosa prefigura la possibilità di metodi completamente nuovi sia nella terapia di alcune patologie (come la stimolazione elettrica profonda per il Parkinson e, forse, l’epilessia, che mira a realizzare una sorta di pace-maker cerebrale), sia nella riabilitazione e nel recupero di funzioni compromesse (come per le brain-machine interfaces, che cercano di intercettare e decodificare l’attività nervosa associata alla pianificazione di atti motori, allo scopo di pilotare per esempio un arto artificiale come ausilio motorio per un tetraplegico). È giusto chiederci innanzitutto che cosa si debba intendere quando parliamo di un approccio teorico alle neuroscienze. Il significato della costruzione teorico-matematica nelle scienze quantitative, per esempio in fisica, è ben chiaro: le orbite dei pianeti e altri fenomeni legati alla gravità erano descritti da tempo attraverso modelli fenomenologici quando la teoria della gravitazione di Newton inquadrò tutto questo, e altro, in uno schema teorico unificante, che legava in modo logicamente necessario fenomeni apparentemente non correlati e generava predizioni quantitative e sperimentalmente verificabili. La distinzione tra ‘modelli’ e ‘teorie’, la cui discussione ci porterebbe lontano, per quanto sfumata, controversa e incerta, andrebbe comunque tenuta presente: è forse corretto dire che un modello è una metafora (matematica, meccanica o altro) del sistema in esame; si può rendere sempre più dettagliato e aderente al sistema reale, il che lo rende migliore ma meno generale. Una teoria dovrebbe cogliere i rapporti di causa-effetto che danno conto di una categoria estesa di fenomeni e inquadrare osservazioni sperimentali diverse in una cornice interpretativa e predittiva unificante. È senz’altro vero che questa distinzione è molto più chiara in fisica che in biologia, ma rimane il fatto che ‘descrivere’ e ‘spiegare’ sono cose diverse, e che per esempio la quantificazione sistematica di una correlazione osservata non costituisce una spiegazione del fenomeno, ma solo la ricognizione statistica di una congiunzione di eventi. È dunque ipotizzabile che, prima o poi, si giunga a una ‘teoria del cervello’ unificante, intesa nel senso di cui sopra? Non è certo che un tale risultato sia raggiungibile. Il cervello svolge un’enorme varietà di funzioni e, come spesso accade in biologia (una scienza ‘storica’, molto diversamente dalla fisica o dalla chimica), l’evoluzione ha probabilmente selezionato una varietà di strategie, ottimizzate per scopi specifici. Così, per esempio, nonostante ‘l’alfabeto’ che le cellule nervose utilizzano sia relativamente universale (gli spike, impulsi molto brevi emessi dai neuroni), si è dimostrato finora difficile identificare un ‘codice’ universale utilizzato nel cervello per lo scambio e l’elaborazione dell’informazione: in alcune delle aree sensoriali, ‘periferiche’ (per esempio uditive), la temporizzazione precisa dell’emissione degli impulsi sembra svolgere una funzione fondamentale, mentre in aree più profonde, che svolgono funzioni integrative e associative, appare almeno probabile che la frequenza media di emissione di impulsi contenga e trasmetta l’informazione rilevante. Per ora gli sforzi dei teorici si concentrano su singoli aspetti della dinamica del sistema nervoso e gli approcci usati sono abbastanza diversi per i diversi contesti biologici di riferimento. È chiaro, e fa parte dell’esperienza quotidiana di ciascuno, che il cervello veicola e gestisce le nostre modalità sensoriali di interazione con il mondo e governa le nostre azioni in rapporto all’ambiente. È anche vero, d’altra parte, che solo per una piccola parte dei neuroni nel cervello l’attività è direttamente determinata dagli input sensoriali o correlata direttamente con le nostre azioni: in gran parte il cervello ‘parla con sé stesso’ e genera internamente pensieri, rappresentazioni del mondo e tutto ciò che concorre a formare il nostro comportamento.
Un approccio teorico alla comprensione del sistema nervoso deve tener conto di esigenze in qualche modo contrapposte nel nostro rapporto con l’ambiente: da un lato è spesso necessario che il cervello colga e interpreti in modo veloce ed efficace cambiamenti percettivi anche piccoli (pensiamo a un ostacolo improvviso mentre guidiamo, o alla necessità di seguire con precisione le posizioni degli aerei sullo schermo di un centro di controllo aereo); dall’altro deve essere possibile costruire delle ‘rappresentazioni’ del mondo ed evocare risposte prototipali per insiemi di stimoli accomunati da caratteristiche rilevanti per uno scopo cognitivo specifico (un grosso felino è un predatore, indipendentemente dai dettagli che distinguono un leopardo da un giaguaro, e il viso di un amico è associato in modo stabile alla stessa persona, indipendentemente dalle condizioni di luce, angolazione o altro in cui appare in diverse occasioni). Senza tale capacità non sarebbe possibile costruire un sistema di conoscenze (come non lo era per l’immaginario Funes di Borges) e le rappresentazioni devono essere stabili e robuste rispetto a variazioni degli stimoli.
È dunque necessario che la dinamica del sistema nervoso assicuri secondo le circostanze flessibilità e reattività, ma anche stabilità e invarianza. Questo tema, già molto complesso, si intreccia poi con quello dell’apprendimento e della memoria: il cervello deve essere pronto (‘plastico’) nel modificarsi per tener traccia di informazioni da memorizzare, ma deve saper dimenticare quelle irrilevanti; deve poter recuperare dalla memoria un’informazione necessaria a svolgere un determinato compito e porla in uno stato ‘attivo’ fin quando il compito non è stato completato; deve poter memorizzare per la durata di una vita intera informazioni importanti.
In questo breve resoconto non cercheremo nemmeno di sfiorare il problema generale del rapporto mente-cervello. Accenniamo solo al fatto che mentre alcuni approcci adottano un paradigma basato sulla funzionalità espressa dal sistema intelligente, indipendentemente dal substrato (come nel caso dell’intelligenza artificiale), negli approcci teorici alle neuroscienze di cui trattiamo si guarda alle proprietà dinamiche emergenti di reti complesse e plastiche di neuroni e sinapsi, fortemente interagenti e con feedback elevato, che dipendono in modo forte dal substrato (anche se con semplificazioni drastiche rispetto alla complessità biologica). In questi approcci (bottom-up) si devono innanzitutto definire gli elementi fondamentali del modello e la loro relazione con le controparti biologiche, per poi formulare le leggi che governano le interazioni degli elementi del modello tra di loro e con l’ambiente esterno.
Seguendo questa progressione, passiamo a discutere lo stato attuale dei modelli dell’attività dei neuroni (le cellule nervose che si considerano alla base dell’elaborazione dell’informazione nel cervello). Illustreremo poi in che modo si cerca di rendere accessibili alla descrizione teorica funzioni complesse come la memoria e l’apprendimento, formalizzando la rappresentazione dinamica di popolazioni di neuroni che comunicano attraverso sinapsi. Accenneremo infine al ruolo particolare che i calcolatori svolgono in questo tipo di ricerca.
Approcci alla dinamica neuronale
A seconda del contesto biologico di riferimento e del livello di descrizione, la scelta degli elementi fondamentali del modello può variare molto. Alla base c’è sempre il fatto che il neurone agisce essenzialmente come un dispositivo a soglia: tale dispositivo integra (temporalmente e spazialmente) nel soma (corpo cellulare) gli input che riceve sotto forma di brevi impulsi (spike) da altri neuroni; la trasmissione dello spike avviene (prevalentemente, ma non solo, per via chimica) attraverso la ‘sinapsi’: una fessura che separa il terminale del canale di output del neurone che ha generato lo spike (‘assone’) e l’elemento dell’‘albero dendritico’ che costituisce la via di input per il neurone ricevente. L’arrivo dello spike sul terminale dell’assone presinaptico provoca il rilascio di diversi tipi possibili di molecole di neurotrasmettitori, la loro diffusione attraverso la fessura sinaptica, il loro aggancio a recettori specifici sulla membrana postsinaptica e la conseguente variazione, positiva (‘eccitatoria’) o negativa (‘inibitoria’), della differenza di potenziale elettrico tra l’interno e l’esterno della membrana del neurone postsinaptico. Questa differenza di potenziale varia continuamente sotto l’effetto del bombardamento di spike sulle migliaia di sinapsi sull’albero dendritico; queste variazioni vengono integrate nel soma del neurone e, quando la differenza di potenziale raggiunge una soglia, si determinano la generazione di uno spike e la sua propagazione lungo l’assone.
L’entità della variazione della differenza di potenziale conseguente alla trasmissione di uno spike attraverso una sinapsi definisce l’‘efficacia’ della sinapsi (sinapsi ‘eccitatoria’ quando l’effetto è depolarizzante e diminuisce la distanza dalla soglia di emissione dello spike da parte del neurone postsinaptico, ‘inibitoria’ quando è iperpolarizzante). L’efficacia sinaptica è soggetta a variazioni che dipendono dall’attività della coppia di neuroni connessi dalla sinapsi. In particolare si sono identificate e caratterizzate (inizialmente nell’ippocampo, ma poi in molte altre regioni) delle variazioni ‘a lungo termine’ (fino a diversi giorni) dell’efficacia sinaptica: LTP (Long-Term Potentiation, potenziamento a lungo termine, che incrementa l’efficacia), e LTD (Long-Term Depression, depressione a lungo termine, che diminuisce l’efficacia). Questi cambiamenti dipendono dall’attività del neurone presinaptico e postsinaptico in modo complicato e tuttora oggetto di grande ricerca e si considerano i precursori delle modificazioni sinaptiche permanenti, che coinvolgono meccanismi di regolazione genica e sintesi di proteine, e che si pensa siano alla base della memoria a lungo termine.
In alcuni casi, per descrivere l’attività neuronale in una rete si considera la frequenza media di emissione di spike in una popolazione neuronale (il modello di H.R. Wilson e J.D. Cowan del 1972 era di questo tipo ed era in grado di descrivere una varietà di regimi dinamici per l’attività media di popolazioni di neuroni eccitatori e inibitori interagenti).
In altre situazioni, in cui si ritiene che la temporizzazione degli spike sia un elemento essenziale della descrizione dinamica del sistema, il neurone viene descritto semplicemente da una fase dipendente dal tempo e la descrizione dinamica di neuroni interagenti si basa sul formalismo che descrive oscillatori accoppiati.
La parte attiva della dinamica del neurone – l’emissione dello spike – venne illustrata negli anni Cinquanta dello scorso secolo da T. Hodgkin e A. Huxley, in un lavoro che tuttora costituisce un riferimento e che valse il premio Nobel nel 1963 agli autori: in esso l’innesco e lo sviluppo dello spike sono descritti da un sistema di quattro equazioni differenziali non lineari per il potenziale di membrana e le tre variabili che descrivono l’attivazione dei canali per le specie ioniche rilevanti coinvolte. Tra gli anni Sessanta e gli anni Ottanta sono stati sviluppati alcuni modelli semplificati che mantengono gli elementi essenziali della dinamica non lineare di Hodgkin e Huxley ma riducono la dimensionalità del problema (il numero di variabili dinamiche e di equazioni differenziali accoppiate), come quello di FitzHugh-Nagumo. Questi modelli costituiscono esempi paradigmatici di ‘sistemi eccitabili’: sistemi che, in assenza di perturbazioni, sono in uno stato di riposo; in presenza di piccole perturbazioni subiscono piccole deviazioni lineari dallo stato di riposo; per perturbazioni superiori a una soglia effettuano una temporanea grande escursione non lineare dallo stato di riposo, per poi tornarvi e rimanervi per un breve periodo ‘refrattario’, indipendentemente dall’input. Il recente accumularsi di conoscenze e di metodi per lo studio dei sistemi dinamici non lineari ha nutrito la vitalità di questi modelli; inoltre essi (almeno quelli bidimensionali) si prestano a un’analisi qualitativa, con il metodo del cosiddetto ‘piano di fase’, che ne mette in luce le caratteristiche dinamiche fondamentali.
Le proprietà passive del neurone, legate alla struttura e alle caratteristiche elettriche dell’albero dendritico, sono state affrontate con successo dalla cable theory a partire dai lavori di W. Rall negli anni Sessanta. Le proprietà attive dei dendriti recentemente scoperte hanno ulteriormente arricchito questa parte della modellistica (I. Segev).
Modelli non lineari per l’emissione dello spike e teoria della diffusione dendritica non si prestano facilmente a una descrizione a livello di rete. Per una descrizione della dinamica collettiva di neuroni sinapticamente accoppiati si ricorre per lo più a modelli ulteriormente semplificati.
Uno degli approcci più versatili è basato sul neurone integrate-and-fire (IF, «integra e spara»), che venne introdotto agli inizi del Novecento da L. Lapicque. Questo modello ha conosciuto nei decenni una crescente fortuna presso i teorici, soprattutto per la descrizione di grandi sistemi di neuroni interagenti, a causa della sua semplicità e anche della relativa facilità con cui vi si sono potuti introdurre via via dettagli e caratteristiche non originariamente inclusi, senza privarlo in modo sostanziale della sua trattabilità. In questo caso il livello di semplificazione è estremo: il neurone è puntiforme (l’intera cellula è quindi considerata ‘equipotenziale’ e se ne ignora la complessa struttura spaziale, in particolare dell’albero dendritico); la sua dinamica è descritta da una sola variabile (il valore istantaneo sotto-soglia del potenziale di membrana), che integra la corrente afferente (flusso di spike in input al neurone); il processo di emissione dello spike non è esplicitamente incluso nel modello, ma compare come condizione al contorno dell’equazione che ne descrive la dinamica (cioè una condizione esplicita di reset del potenziale di membrana, dopo che questo ha raggiunto la soglia di emissione, ‘generando’ uno spike). Nel caso più semplice (e più studiato) l’input sinaptico viene descritto come un ingresso diretto di corrente ‘nel soma’ del neurone nella forma di una successione di impulsi, ognuno dei quali provoca una variazione istantanea del potenziale di membrana, in ragione dell’‘efficacia’ della corrispondente sinapsi: depolarizzazione per un input ‘eccitatorio’, iperpolarizzazione per un input ‘inibitorio’. A completare la descrizione delle proprietà passive nel neurone IF si introduce un termine ‘di perdita’, che riassume i contributi di corrente dovuti al mantenimento degli equilibri ionici attraverso la membrana in assenza di spike in ingresso.
Uno dei vantaggi fondamentali del modello IF sta nel fatto che ha reso possibile l’analisi della dinamica di rete in regimi ‘rumorosi’. Si osserva sperimentalmente che gli intervalli di tempo tra l’emissione di due spike da parte di un tipico neurone corticale sono in generale molto variabili, e la successione di spike appare tipicamente casuale: un processo stocastico. Sebbene a prima vista possa sembrare strano che l’attività nervosa possegga una componente stocastica importante, vi sono in effetti diverse sorgenti di variabilità che concorrono a determinarla: dalle fluttuazioni microscopiche nel processo di rilascio di neurotrasmettitori dalle vescicole sinaptiche alla distribuzione irregolare dei contatti sinaptici tra i neuroni. Una breve digressione: uno degli elementi centrali nella comprensione della dinamica neuronale collettiva riguarda il problema del rapporto segnale-rumore che il sistema neuronale deve risolvere: ogni neurone riceve spike da migliaia di altri neuroni e ogni neurone esprime un’attività di base (‘attività spontanea’) di alcuni spike al secondo, che dunque compongono un input continuo e aspecifico di diverse migliaia di spike al secondo in input al neurone generico. Un evento – un ‘segnale’ – indirizzato al neurone deve comunque essere codificato nell’alfabeto universale binario degli spike e affinché risulti rilevabile in mezzo al rumore assordante dell’attività spontanea dovrebbe provocare un aumento enorme nella frequenza di spike di alcuni dei neuroni afferenti, oppure modificare la frequenza e/o la temporizzazione degli spike di molti neuroni afferenti. La prima ipotesi non è supportata dall’osservazione sperimentale; varie versioni della seconda (codifica ‘di popolazione’) sono state proposte ed esplorate, e sono tuttora oggetto di dibattito acceso.
Tornando alla dinamica del neurone IF, si assume dunque di poter descrivere con buona approssimazione la corrente totale afferente al neurone come una sovrapposizione di processi stocastici puntuali (indipendenti). Il potenziale di membrana subisce quindi una serie di variazioni istantanee alla ricezione degli spike presinaptici e una serie corrispondente di decadimenti deterministici tra due spike successivi, dettati dalla forma del termine di perdita. La trattazione si può ulteriormente semplificare introducendo la cosiddetta ‘approssimazione di diffusione’, che trasforma il processo discreto appena descritto in un processo continuo di diffusione. Tralasciamo i dettagli e menzioniamo solo la considerazione intuitiva per cui, se in un intervallo di tempo piccolo rispetto al tempo di integrazione del neurone quest’ultimo riceve un numero elevato di input presinaptici indipendenti e ognuno di questi provoca variazioni del potenziale di membrana piccole rispetto alla soglia di emissione, la corrente stocastica in input risulta di fatto assimilabile a un processo stocastico gaussiano continuo. Questo rende applicabile alla dinamica del neurone IF il formalismo dei processi stocastici continui e consente di ricavare per esempio la relazione tra la frequenza media in input al neurone e la sua frequenza media di emissione.
Una rete omogenea di neuroni IF sinapticamente connessi viene descritta a partire da questo formalismo utilizzando un’approssimazione ‘di campo medio’, in cui i neuroni della rete vengono considerati equivalenti (realizzazioni dello stesso processo stocastico) e la frequenza media di emissione del neurone generico rientra nell’input che guida il processo stocastico: ogni neurone riceve, oltre a un eventuale input esterno, una corrente determinata dalla sovrapposizione dei processi di emissione di altri neuroni a esso equivalenti.
Il livello elevato di connettività interna alla rete, e quindi di feedback, è una componente importante della dinamica, grazie alla quale la rete può autosostenere nel tempo una varietà di regimi dinamici; tra questi, due rivestono particolare importanza per il fatto che sono pervasivamente osservati sperimentalmente nell’attività neuronale: stati asincroni di attività persistente e stati oscillatori.
La descrizione che abbiamo appena riassunto è meno di una caricatura della serie dei processi realmente coinvolti, ma costituisce il fondamento minimale di molti modelli. Volgendo per un momento l’attenzione all’oggetto reale, i ‘numeri’ del cervello ci parlano della complessità e del livello di interconnessione che l’evoluzione ha reso compatibile con i vincoli geometrici sulla dimensione totale dell’encefalo: un millimetro cubo di materia grigia contiene in media 100.000 neuroni e 700 milioni di sinapsi, quasi 4 km di assoni e oltre 450 m di dendriti, mentre il cervello ospita in totale un numero di neuroni con 11 zeri e un numero di sinapsi con 14 zeri. L’enormità di questi numeri e la riserva di complessità corrispondente vanno tenute presenti quando un approccio meccanicistico all’attività nervosa appare incongruo, e forse un po’ mortificante, alla nostra intuizione. Con riferimento a quanto dicevamo sopra sulla duplice natura dell’attività nel cervello, in parte legata a stimoli esterni e in parte generata internamente (anche indipendentemente da input esterni), i modelli e le teorie dovrebbero includere entrambi gli aspetti; il sistema dinamico neuronale descritto dovrebbe quindi poter essere finemente reattivo rispetto agli input esterni, ma nel contempo poter esprimere un repertorio complesso di stati interni sostenuti dinamicamente in modo autonomo. I risultati fin qui ottenuti riescono a dar conto di alcuni aspetti, ma la strada verso una teoria dinamica unificante appare ancora lunga.
Riguardo alla capacità della rete neuronale di reagire in modo flessibile agli stimoli esterni, tra le questioni importanti figurano: la comprensione delle scale di tempo che caratterizzano la trasmissione di un segnale tra popolazioni neuronali in cascata; il comportamento di una popolazione neuronale come ‘filtro’ del segnale in ingresso (risposta in frequenza, proprietà risonanti, ecc.); il ruolo della variabilità degli intervalli temporali tra gli spike; la quantità di informazione trasmessa e il codice utilizzato (temporizzazione degli spike, frequenza media). Tra i risultati recenti e importanti in questo ambito citiamo la scoperta del possibile ruolo del rumore nel selezionare alcune frequenze preferenziali per le quali la rete trasmette in modo ottimale il segnale (‘risonanza stocastica’), trasformando così il rumore da semplice agente di disturbo della comunicazione neuronale a componente attiva della dinamica.
Plasticità sinaptica, memoria, apprendimento
I modelli bottom-up sono ancora molto lontani dal riprodurre una ‘computazione’ complessa, mentre i modelli top-down (‘connessionistici’) lo fanno, ma al prezzo di una certa arbitrarietà nella costruzione del modello che ne mette in crisi l’utilità.
Uno degli obbiettivi ambiziosi di un approccio teorico alle neuroscienze è la definizione di nuovi paradigmi di computazione. In effetti, è quasi diventata un luogo comune (ma non per questo meno vera) l’affermazione per cui il cervello, usando un ‘hardware’ relativamente lento e impreciso svolge in modo molto rapido ed efficiente compiti che sono tuttora fuori della portata di un computer (si pensi al riconoscimento di una faccia in mezzo alla folla); normalmente si citano a questo proposito, come elementi risolutivi a favore del cervello, il numero straordinario di neuroni e sinapsi disponibili, e la natura essenzialmente parallela dell’elaborazione. Questa però non è ancora una spiegazione, e non è forse un caso se i calcolatori ‘massicciamente paralleli’ degli anni Ottanta ebbero un successo limitato proprio per la mancanza di un approccio innovativo, formale e sistematico alla programmazione, in grado di sfruttare in modo generale e flessibile le enormi potenzialità insite in quelle architetture di calcolo.
Il singolo neurone, che come abbiamo visto si comporta come un dispositivo a soglia rispetto all’emissione di uno spike, rispetto al rapporto tra la frequenza di spike in output e quella in input si comporta essenzialmente come un dispositivo analogico. D’altra parte, la natura dell’elaborazione cognitiva ad alto livello si associa spesso a stati discreti evocati da uno stimolo (il riconoscimento di una faccia), o a successioni di stati discreti in relazione a un compito specifico (un’operazione aritmetica, la generazione di una frase). Se il codice rilevante per la computazione neuronale è la frequenza di emissione di spike, la dinamica collettiva deve quindi poter esprimere stati collettivi di equilibrio (attrattori) discreti caratterizzati da una distribuzione di frequenze definita. L’esistenza, la molteplicità e le caratteristiche degli attrattori sono determinate dalla configurazione sinaptica.
Il fatto che l’insieme delle sinapsi possa essere strutturato in modo tale da supportare una molteplicità di attrattori offre un’opzione per una ‘memoria’: in questo caso gli attrattori stessi costituiscono una rappresentazione degli stimoli memorizzati; l’insieme degli stimoli (condizioni iniziali della dinamica) che portano la rete in un attrattore ne costituisce il ‘bacino di attrazione’ (cioè una ‘classe’ di stimoli: le diverse viste possibili di una faccia, che riconosciamo come un’unica informazione); la dinamica che porta la rete stimolata a rilassare nell’attrattore realizza il ‘recupero’ dell’informazione memorizzata. Il fatto che la rete, in assenza di ulteriori perturbazioni, permanga nello stato di ‘riverberazione’ corrispondente all’attrattore indica il mantenimento della memoria corrispondente in uno stato ‘attivo’, quale è richiesto per esempio nella ‘memoria di lavoro’ (working memory), in cui un’informazione già fissata nella memoria a lungo termine viene resa disponibile per uno scopo specifico (come quando dobbiamo tenere a mente un numero telefonico per comporlo di lì a poco). Il modello elaborato da J. Hopfield nel 1982 ha formalizzato questo schema in modo da potersi trattare con i metodi della meccanica statistica dei sistemi disordinati, contribuendo in modo determinante al massiccio ingresso della fisica teorica nella modellistica del sistema nervoso. Ma in che modo la struttura sinaptica si può organizzare in funzione degli stimoli per funzionare come memoria di lavoro? Come abbiamo accennato, si pensa che la plasticità delle sinapsi che veicolano l’attività neuronale (LTP e LTD) sia il meccanismo fondamentale attraverso il quale l’esperienza si tramuta in una traccia di memoria e supporta l’apprendimento. Le modificazioni sinaptiche sono a loro volta guidate dall’attività neuronale, che ne risulta a un tempo effetto e causa. Studiare la dinamica del sistema nervoso in condizioni ‘realistiche’, in cui l’ambiente esterno fornisce un flusso variabile di stimoli (oltre magari a fornire un feedback sulla correttezza della risposta allo stimolo) implica dunque la comprensione della dinamica reciprocamente intrecciata di neuroni e sinapsi, e non si tratta di un compito semplice.
La maggior parte dei tentativi fin qui effettuati semplifica il problema esaminandone i due aspetti separatamente: la costruzione della matrice sinaptica in grado di memorizzare un insieme assegnato di stimoli, oppure la dinamica neuronale in presenza di una struttura sinaptica fissata. Recentemente, alcuni gruppi hanno cominciato ad affrontare il problema della dinamica accoppiata di neuroni e sinapsi.
Alla base della maggior parte dei modelli di modificazione sinaptica sta la proposta concettuale avanzata da D. Hebb alla fine degli anni Quaranta. Secondo Hebb, psicologo, la relazione stimolo-risposta, come frutto della elaborazione neuronale, non si poteva concepire in termini di una specie di ‘filtro istantaneo’; ma era necessario «a central neural mechanism to account for the delay between stimulation and response, that seems so characteristic of thought». Hebb concepì, probabilmente per primo, l’idea che un’‘attività riverberante’ innescata dallo stimolo fosse un elemento fondamentale della elaborazione dello stimolo stesso. Il ‘ritardo’ spesso coinvolto nello svolgimento di un compito mentale, rintracciabile nell’esperienza soggettiva di ognuno di noi, è un elemento fondamentale di una serie affascinante di esperimenti che hanno caratterizzato in modo sistematico la memoria di lavoro. In particolare è stato dimostrato sui primati che neuroni in varie aree corticali (in particolare le aree prefrontale e inferotemporale) esibiscono un’attività, innescata da una stimolazione e selettiva rispetto allo stimolo, elevata e persistente dopo la scomparsa dello stimolo stesso, quando il compito richiesto implica l’attivazione della memoria di lavoro. La natura selettiva dell’attività persistente si ipotizza possa essere legata alla distribuzione delle efficacie sinaptiche che è determinata dall’apprendimento, il che ci riporta alla proposta originaria di Hebb. Hebb infatti concepiva un ‘meccanismo a doppia traccia’: la riverberazione come meccanismo a breve termine e la modificazione delle efficacie sinaptiche come traccia della memoria a lungo termine. Il legame tra i due livelli era enunciato assumendo «that the persistence or repetition of a reverberatory activity (or ‘trace’) tends to induce lasting cellular changes that add to its stability». Hebb andò oltre, enunciando il meccanismo che porta abitualmente il suo nome, per cui la ripetuta contemporanea attivazione di due neuroni tende ad aumentare l’efficacia della sinapsi che li connette. Bisogna sottolineare il potere concettuale dell’idea di Hebb. La costituzione della memoria a lungo termine si ipotizza sia dovuta a un meccanismo locale (nello spazio e nel tempo): ogni sinapsi modifica la sua efficacia sulla base della coattivazione dei neuroni che essa connette, e nulla ‘sa’ di ciò che avviene nel resto della rete. Nello stesso tempo, il meccanismo a breve termine attraverso il quale questa memoria si esprime è distribuito: uno stimolo familiare (grazie all’insieme delle efficacie sinaptiche che la sua ripetuta presentazione ha indotto) innesca un processo dinamico che si autosostiene per effetto del feedback elevato. Anche se la proposta originale di Hebb rimane a livello logico-funzionale, essa ha costituito una bussola di riferimento concettuale per l’interpretazione dei dati sulle modificazioni sinaptiche.
Il caso della memoria di lavoro è particolarmente ‘semplice’, nel senso che l’interazione con l’ambiente esterno è unidirezionale: uno stimolo, se sufficientemente familiare, attiva la dinamica che conduce autonomamente la rete allo stato riverberante che ne costituisce il riconoscimento. Normalmente però le funzioni cognitive richiedono un’interazione con l’ambiente molto più complessa: per esempio, scegliere tra due o più alternative in funzione del contesto, secondo l’aspettativa di vantaggio o svantaggio conseguente alla scelta. In effetti, questa è la condizione in cui si trova tipicamente l’animale in un esperimento in vivo: il compito richiesto, per esempio la scelta tra due movimenti in funzione dello stimolo proposto, viene reso comprensibile all’animale erogando una piccola quantità di succo quando viene effettuata l’azione giusta (reward, «ricompensa»). I due elementi chiave, la ‘decisione’ e la ‘ricompensa’, devono trovare il loro posto nei modelli per poter considerare condizioni cognitive complesse. La ricerca su entrambi i fronti è attualmente molto attiva. Per quanto riguarda i processi decisionali, nella loro forma più semplice si possono pensare come dei meccanismi per cui in presenza di una molteplicità di attrattori, che rappresentano ora il repertorio di scelte possibili, si utilizza l’informazione sullo stimolo (e sul contesto) per guidare il sistema verso uno o l’altro degli attrattori (scelte) disponibili. La formalizzazione della rappresentazione neuronale della ‘ricompensa’ parte, nella maggior parte dei modelli attuali, dalla convinzione che l’attivazione del sistema dopaminergico sia essenziale nella codifica dell’aspettativa di ricompensa. Tornando a una prospettiva più generale, la capacità del sistema di generare autonomamente transizioni complesse tra stati (eventualmente innescate, ma non necessariamente guidate nel loro sviluppo, da stimoli esterni), secondo regole immagazzinate nella struttura sinaptica e nello schema di connessioni tra aree, appare essenziale per l’espressione di funzioni cognitive complesse come il linguaggio.
Al fine della costruzione di modelli e teorie, è fondamentale il fatto che a questa ‘modularità logica’ corrisponde una struttura dei microcircuiti corticali che è essenzialmente uniforme nell’intera corteccia. In altre parole, l’enorme diversità di funzioni espresse dalle diverse aree corticali appare il frutto di schemi di connessione, in parte geneticamente determinati, in parte appresi, tra moduli locali abbastanza simili per struttura. Un ragionevole programma di ricerca a lunga scadenza consiste quindi nel focalizzarsi su un generico ‘modulo corticale’, la cui struttura sia plausibilmente correlabile con la controparte biologica, studiarne le proprietà dinamiche (quali attrattori può esprimere per diverse configurazioni sinaptiche, quali sono i tempi caratteristici della risposta a un input, endogeno o esterno, quali sono le proprietà di trasmissione dell’informazione, qual è il ruolo del rumore nella dinamica) e passare al livello ‘mesoscopico’ di una rete di moduli neuronali, connessa in modo tale da supportare le caratteristiche dinamiche suggerite dalla funzione cognitiva considerata (attrattori globali, sequenze specifiche di stati). Bisogna dire che, nello studio dei moduli neuronali candidati a essere i microcircuiti di base della computazione corticale, si fanno in genere ulteriori semplificazioni drastiche, come trascurare completamente la struttura laminare (a sei strati) della corteccia e attribuire al modulo una struttura omogenea.
Il ruolo delle simulazioni
È diventato abbastanza frequente recentemente associare la simulazione numerica di sistemi ‘complessi’ a veri e propri ‘esperimenti al calcolatore’, e già dagli anni Ottanta del 20° secolo, in fisica, si salutava la nascita di un paradigma di indagine intermedio, e in qualche misura autonomo, tra la fisica teorica e quella sperimentale: la ‘fisica computazionale’.
La formulazione matematica dei modelli pone spesso difficoltà formidabili all’approccio analitico, e anche quando si riescono a derivare dei risultati espliciti, la formulazione teorica è soggetta ad approssimazioni la cui validità spesso si può solo verificare a posteriori. La capacità di esplicitare le implicazioni del modello in situazioni complesse va spesso al di là delle possibilità di calcolo analitico e l’allestimento di esperimenti reali a questo scopo può essere complicato, lungo, costoso o perfino impossibile. La duplice funzione delle simulazioni consiste nella conferma delle ipotesi teoriche in situazioni relativamente semplici e nella generazione di predizioni in situazioni complesse, tali per esempio da poter guidare in modo efficiente la progettazione di nuovi esperimenti. Risulta utile mantenere un atteggiamento ‘sperimentale’ anche nell’esperimento numerico: se il contesto di riferimento è di tipo elettrofisiologico, le osservabili ‘interessanti’ da campionare nella simulazione saranno quelle costruite a partire dagli spike, unica osservabile sperimentale di interesse. Questo atteggiamento spiana la strada per il ruolo predittivo (e di guida alla progettazione) della simulazione rispetto agli esperimenti e facilita una condivisione della stessa fenomenologia tra i neuroscienziati e i ricercatori che si occupano di modelli, solitamente di diversa estrazione (tipicamente fisica o matematica). Malgrado queste potenzialità, deve essere chiaro che le simulazioni oggi affrontabili sono distanti dal livello di complessità di funzioni cognitive quotidiane e dalle prestazioni del cervello anche di semplici animali, in misura davvero gigantesca, tanto da presentare un problema qualitativo, e non solo quantitativo. La simulazione può aiutarci a capire in quale misura le nostre idee su specifiche caratteristiche dell’attività cerebrale sono plausibili ma, anche in caso di successo, l’operazione di scala che da questo porta alle funzioni complesse è in buona parte un enorme punto interrogativo. Attualmente vengono in genere adottate strategie di simulazione in grado di adattarsi alle difficoltà specifiche del problema, confidando nel contempo nel veloce sviluppo dei calcolatori. Di recente, presso il Politecnico di Losanna, è stato avviato un ambizioso progetto (Blue Brain) che mira a realizzare una simulazione realistica di un tipico modulo corticale (decine di migliaia di neuroni), includendo nella simulazione il maggior numero possibile di dettagli morfologici e biofisici. La portata del progetto ha aperto un dibattito interessante sul ruolo delle simulazioni, che va al di là del tema specifico. Si sostiene, da un lato, che una simulazione realistica potrà svolgere realmente una funzione sostitutiva dell’esperimento, in situazioni sperimentalmente inaccessibili; dall’altro, che un’ipotetica ‘super-simulazione’ in grado di incorporare ogni dettaglio del sistema simulato avrebbe una complessità pari al sistema stesso e non aiuterebbe da sola a comprenderne la logica. Probabilmente è corretto dire che il livello di descrizione a cui si colloca la simulazione non dovrebbe allontanarsi molto da quello accessibile alla formulazione teorica, in modo da mantenere con questa un rapporto di reciproca fertilizzazione.
Viene anche esplorata una diversa via di indagine, basata non sulla simulazione ma sulla realizzazione elettronica di sistemi neuromorfi, che intendono costruire una vera e propria materializzazione del modello, in grado di emularne il comportamento in tempo reale e di interagire in tempo reale con l’ambiente.
Reti neurali artificiali e dispositivi neuromorfi
È naturale chiedersi se non sia possibile trarre ispirazione dai progressi ottenuti nello studio del cervello e del rapporto tra le funzioni cognitive e il loro substrato neuronale per concepire dispositivi ‘intelligenti’, in grado di cogliere e sfruttare i principi computazionali sottesi alle funzioni sensoriali e cognitive. L’architettura tipica di un calcolatore non sembra fornire una opzione ideale. In effetti, si ricorda spesso che molte funzioni svolte quotidianamente dal nostro cervello quasi senza che ne siamo consapevoli sono ancora al di là delle capacità degli strumenti di calcolo programmabili (è tipico il caso del riconoscimento visivo in situazioni complesse e variabili); d’altra parte è ovvio, per esempio, che le prestazioni di un computer nel calcolo superano di molto quelle del cervello umano. Non è sorprendente che l’evoluzione abbia selezionato per il cervello un’architettura e dei principi di elaborazione ottimizzati per funzioni ‘naturali’ ed è chiaro il valore che avrebbero dei dispositivi in grado di emulare tali funzioni. Per quanto suggestiva sia l’idea di costruire dispositivi intelligenti ispirati al funzionamento del cervello, la sua realizzazione pone ovviamente difficoltà formidabili ed è ancora molto lontana (ammesso che sia davvero praticabile). Ci sono diverse alternative per avvicinarsi a questo obbiettivo. Una possibilità, forse una ‘via maestra’, consiste nel partire dallo studio sperimentale dell’attività nervosa e delle funzioni cognitive e dalla costruzione di uno schema teorico in grado di interpretare e formalizzare la strategia sottesa, per affrontare solo dopo il problema di una possibile emulazione su piattaforme artificiali. Questo approccio fornirebbe una base solida ad alcune prospettive affascinanti, come la possibilità di interfacciare direttamente il tessuto nervoso con dispositivi artificiali, già esplorate attivamente in contesti specifici: la crescita di colture neuronali su silicio, la stimolazione diretta di aree della corteccia cerebrale per ricostruire funzioni percettive lese a livello corticale, la decodifica dei segnali nervosi che codificano la programmazione del movimento al fine di pilotare arti artificiali (brain-computer interface). Le ricerche cui si riferisce il testo accanto costituiscono il prerequisito di base per questi sviluppi e definiscono un programma di ricerca interdisciplinare di lungo periodo.
Un’alternativa di prospettiva più ravvicinata si basa su un approccio in un certo senso ‘ibrido’: si trae ispirazione da ciò che al momento capiamo del funzionamento del cervello, ma solo come metafora computazionale generica, e si costruiscono dispositivi elettronici, o si sviluppa software, ispirandosi a tale metafora. Ne risultano tipicamente sistemi in grado di ‘imparare’, in un senso che chiariremo tra poco, a svolgere dei compiti come il riconoscimento e la classificazione di pattern, o a emulare in elettronica funzioni sensoriali o elaborative specifiche. Nel primo caso si parla in genere di ‘reti neuronali (o neurali) artificiali’, nel secondo di ‘dispositivi neuromorfi’. Le prime costituiscono un settore più maturo e stabile, i secondi appartengono ancora alla ricerca di frontiera.
Reti neuronali artificiali
Una regola, cioè uno specifico insieme di corrispondenze, si può incorporare in un dispositivo sulla base di una sua definizione algoritmica, come quella che useremmo per scrivere un programma per un calcolatore, o sull’acquisizione di una serie di esempi della regola stessa, come frequentemente avviene nell’esperienza umana (un bambino ovviamente impara le regole del linguaggio sulla base di esempi molto prima che gliene venga offerta a scuola una formalizzazione). La seconda opzione è attraente sia su un piano pratico (perché ci solleva dall’onere – spesso proibitivo – di codificare la regola in termini algoritmici), sia sul piano concettuale, perché stabilisce un’analogia con le strategie cognitive realizzate nel sistema nervoso; essa richiede però la capacità da parte del sistema di utilizzare gli esempi per adeguare alla regola desiderata la propria relazione stimolo-risposta, in modo ‘supervisionato’ o meno.
A più riprese, e con alterne fortune, negli ultimi decenni si sono affacciati alla ribalta scientifica e tecnologica sistemi in grado di ‘apprendere’, in qualche modo ispirati al sistema nervoso; fondamentale, per il ruolo storico e per la rilevanza concettuale, è il caso del Perceptron di Frank Rosenblatt, negli anni Cinquanta: un insieme di input binari, ognuno collegato a un neurone di output (del tipo del neurone di McCullogh-Pitts) mediante un ‘peso sinaptico’; il neurone di output effettua una somma degli input, pesata dai corrispondenti pesi sinaptici, e fornisce a sua volta una risposta binaria a soglia. L’‘apprendimento’ consiste in una procedura iterativa che agisce sui pesi sinaptici: per ogni ‘esempio’ della regola, cioè una coppia (costituita da input e output corretto), se l’output fornito dal Perceptron è corretto non si effettua nessun cambiamento, altrimenti si cambia ogni peso sinaptico che connette un input attivo per quell’esempio, diminuendo o incrementando il suo valore a seconda che l’output sia erroneamente attivo o inattivo, rispettivamente. La regola di apprendimento del Perceptron risultò attraente per la sua semplicità, e anche perché fu possibile dimostrare un ‘teorema di convergenza’, dimostrare cioè che se una regola è ‘imparabile’ da un Perceptron, la procedura iterativa descritta porterà certamente a una configurazione dei pesi sinaptici che realizza la corrispondenza input-output prescritta dalla regola.
Dalla descrizione appena data del Perceptron, è chiaro che il repertorio di ‘regole’ che il sistema è in grado di imparare è abbastanza ristretto e si riduce ai problemi ‘linearmente separabili’. Per problemi di classificazione non linearmente separabili era necessario estendere l’architettura a reti multistrato, con l’introduzione di strati intermedi di elaborazione tra input e output. Il progresso fondamentale si ebbe con l’identificazione di procedure iterative semplici per l’apprendimento in reti multistrato, formalizzato come la minimizzazione di una ‘funzione errore’ definita sull’insieme di esempi della regola. In particolare negli anni Ottanta dello scorso secolo l’algoritmo di apprendimento cosiddetto back-propagation, con le sue innumerevoli varianti, fornì una procedura semplice e intuitiva per l’addestramento di reti multistrato, la sua facilità di implementazione ne favorì la diffusione, e alcuni casi fortunati, insieme alla suggestione generica di una brain-like computation, ebbero un enorme successo.
Come spesso succede, posatesi le polveri degli entusiasmi iniziali, subentrò l’interesse per un’analisi più sistematica, sia dal punto di vista teorico sia da quello della reale applicabilità. Dal punto di vista teorico (ma anche pratico) un problema centrale è quello della ‘generalizzazione’: se siamo riusciti a realizzare una procedura che modifica i pesi sinaptici della rete neuronale fino a ottenere un errore piccolo sugli esempi che abbiamo utilizzato per l’addestramento, quali saranno le prestazioni della rete su nuovi esempi della stessa regola? Se tale errore fosse grande, ciò direbbe che abbiamo ottenuto una ‘memorizzazione’ degli esempi, e non un apprendimento della regola.
Cerchiamo di discutere il problema in termini meno antropomorfi. Minimizzare una funzione ‘errore’ su un insieme di esempi è in effetti un altro modo di descrivere un fit non lineare, in cui i punti sperimentali sono gli esempi della regola (corrispondenza) da imparare e i parametri del fit sono i valori dei pesi sinaptici. Gli algoritmi di apprendimento per le reti neuronali forniscono delle procedure iterative per realizzare un fit non lineare in situazioni complesse. Però, così come in statistica la scelta dell’ordine del fit è complicata dal fatto che non si conosce a priori la funzione, così nel caso delle reti neuronali la ricchezza dell’architettura può essere, a seconda del problema, sottodimensionata o sovradimensionata rispetto alla complessità del problema in esame (in sostanza, troppi – o troppo pochi – pesi sinaptici), ed entrambe le situazioni comportano problemi. Se l’architettura è troppo povera, i gradi di libertà offerti dai pesi sinaptici non sono sufficienti a minimizzare l’errore compiuto dalla rete sugli esempi di addestramento e a maggior ragione ci si attende che la rete abbia prestazioni basse su esempi inediti della stessa regola. Se però l’architettura è troppo ‘ricca’ (il numero di pesi sinaptici è troppo elevato) la procedura di apprendimento riesce a convergere a una soluzione in cui la rete compie un errore molto piccolo sugli esempi di addestramento, ma questo può corrispondere a prestazioni mediocri su esempi inediti della stessa regola; in questo caso la situazione (cosiddetta di overfitting) è analoga a quella che si avrebbe se avessimo dei punti disposti su un piano approssimativamente lungo una parabola, ma non ce ne accorgessimo e cercassimo di fare un fit con un polinomio di grado molto alto: potremmo trovare un insieme di coefficienti del polinomio tali che questo passi quasi esattamente per i punti sperimentali dati, ma ovviamente lo stesso polinomio fornirebbe pessime previsioni sulla posizione di ulteriori punti sperimentali. Naturalmente la difficoltà consiste nell’elaborare un approccio sistematico a questo problema. In alcune situazioni è stato possibile formalizzare il problema con gli strumenti della meccanica statistica. In sostanza si sceglie un’architettura (struttura a strati o con feedback, numero di neuroni e di pesi sinaptici, schema di connettività ecc.), si definisce la regola (gli output della rete per tutti i valori ammissibili degli input) e ci si chiede quante sono le configurazioni dei pesi sinaptici per i quali la regola risulta ‘appresa’, cioè l’errore (differenza tra l’output della rete e l’output corretto secondo la regola) è nullo o inferiore a una tolleranza assegnata. La numerosità di questo insieme di configurazioni sinaptiche compatibili con la regola è stata a volte definita la ‘propensione’ dell’architettura neuronale considerata per la regola in questione, e si lega alla probabilità che la rete esibisca buone capacità di generalizzazione dopo aver completato l’addestramento. La comprensione teorica delle capacità di generalizzazione delle reti neuronali ha compiuto notevoli progressi, che non possono essere riassunti qui, in particolare con la dimostrazione di limiti rigorosi sulla capacità di generalizzazione; d’altra parte a fronte di questi sviluppi di grande valore concettuale, dei quali però non è spesso possibile avvantaggiarsi per un approccio proficuo alla costruzione di una rete ottimale, rimane l’esigenza di un metodo empirico per la determinazione delle architetture e degli algoritmi più adatti a uno specifico problema. Negli ultimi anni si sono consolidati alcuni approcci all’apprendimento automatico e alla classificazione che, a seconda degli autori, si includono o meno tra le reti neuronali, ma che hanno senz’altro con queste una continuità logica. Di particolare importanza sono le così dette SVM (Support Vector Machines).
Per quanto riguarda le applicazioni, la storia delle reti neuronali è piena di ‘esempi giocattolo’ affrontati con successo, ma mai maturati in applicazioni reali, perché la complessità computazionale del problema spesso cambia severamente con la scala del problema stesso. Nel seguito accenniamo a due applicazioni, volutamente eterogenee, in cui le reti neuronali hanno dimostrato di essere una valida alternativa (o almeno un valido complemento) a tecniche standard di classificazione e previsione.
a) Predizione della struttura secondaria delle proteine.
L’enorme recente accelerazione nei progetti di sequenziamento di interi genomi (incluso ovviamente il genoma umano, il cui sequenziamento è stato annunciato nel 2001) ha generato una nuova prospettiva nello studio delle proteine: il cosiddetto proteoma, che contiene l’intera espressione dei geni di un insieme di cromosomi in proteine. Di questo vasto settore di ricerca ci interessa qui il fatto che, al crescere del numero di proteine studiate e della complessità delle ‘reti proteiche’ che descrivono le loro interazioni, la caratterizzazione sperimentale del rapporto tra sequenza, struttura e funzione delle proteine pone notevoli problemi, e gli strumenti computazionali in grado di predirne alcuni aspetti acquistano valore. Le reti neuronali hanno trovato applicazione in questo ambito. L’applicazione delle reti neuronali all’analisi delle sequenze biologiche non è in realtà una novità: già nel 1982 il Perceptron fu utilizzato per la predizione dei siti di legame dei ribosomi sulla base della sequenza di amminoacidi. Accenniamo qui all’uso delle reti neuronali per la predizione della struttura secondaria delle proteine. Le proteine, molecole di grande dimensione e complessità che vengono assemblate sulla base delle ‘istruzioni’ codificate nel DNA, svolgono una quantità di funzioni indispensabili per la vita dell’organismo: catalisi di reazioni biochimiche, trasporto di nutrienti, riconoscimento e trasporto di segnali, replicazione dell’informazione genetica e molto altro. La proteina è costituita da una catena formata a partire da 20 amminoacidi (la ‘struttura primaria’); la sequenza di amminoacidi non è però sufficiente affinché la proteina esprima le sue funzioni; la molecola proteica, in soluzione, si deve organizzare in strutture tridimensionali di forma specifica (‘struttura terziaria’), che determinano le proprietà di interazione della proteina stessa. Essenziale per il ripiegamento della proteina è la formazione di sottostrutture che ne costituiscono la ‘struttura secondaria’, in particolare le cosiddette eliche a e i foglietti b. Malgrado quattro decenni circa di tentativi, la predizione della struttura tridimensionale della proteina a partire dalla sua sequenza di amminoacidi è ancora un problema parzialmente aperto e si tratta di un problema importante, per esempio per la progettazione di farmaci. Anche se in linea di principio le tecniche di ‘dinamica molecolare’ potrebbero dare la risposta in base a simulazioni dettagliate delle interazioni fisiche all’interno della molecola, l’onere computazionale è incompatibile con le tecnologie di calcolo attuali, e si è cercato di affrontare il problema con tecniche di apprendimento automatico (machine learning), incluse le reti neuronali (il primo tentativo in questo senso si deve a N. Qian e T.J. Sejnowski, nel 1988). Al livello più semplice, il tipico approccio neuronale alla predizione della struttura secondaria segue lo schema in fig. 3 a p. 401. Una rete multistrato riceve in input l’informazione sulla sequenza degli amminoacidi, e attraverso uno o più strati intermedi determina lo stato di tre unità di output, una per ogni classe prevista di sottostruttura (a-elica e foglietto b o c altro). La codifica dell’input si ottiene ‘scorrendo’ la proteina attraverso una finestra mobile (13 residui nel caso in figura); le unità di input sono gruppi di 21 unità (20 amminoacidi, più uno spaziatore), in numero pari alla dimensione della finestra (quindi nel caso in figura la rete ha 21x13=273 input). Per ogni finestra, solo una unità in ogni gruppo è attiva e indica l’amminoacido presente nella finestra nella posizione corrispondente. Il compito che la rete deve imparare consiste nel fornire la sottostruttura di appartenenza dell’amminoacido centrale della finestra, sulla base di esempi in cui la struttura tridimensionale è nota. Negli esempi utilizzati per l’addestramento, quindi, per ogni finestra le tre possibili configurazioni in output sono {1 0 0}{0 1 0}{0 0 1}. Dopo l’apprendimento, per ogni finestra sottoposta alla rete, le tre unità di output ‘votano’ per la sottostruttura di appartenenza del residuo centrale della finestra, e il valore più alto dei tre determina la ‘risposta’ della rete.
In realtà, questo approccio ‘a scatola nera’, che abbiamo illustrato a scopo esemplificativo, e che data ormai una quindicina d’anni, era più o meno competitivo con i migliori metodi standard utilizzati per lo stesso scopo, ma non rappresentava rispetto a questi un grande miglioramento. Successivamente, però, si è trovato il modo di incorporare nella rete neuronale informazioni disponibili di carattere sia biologico sia evolutivo, ‘aprendo la scatola nera’, e questo ha molto incrementato il potere predittivo di questo approccio, che oggi ha conquistato una dignità stabile nel settore, in ruolo complementare ad altri metodi.
b) Riduzione dimensionale dei dati.
Molto spesso, nell’esplorazione di grandi moli di dati, una difficoltà consiste nel numero elevato di variabili che definiscono ogni dato. In altre parole, utilizzando come spesso si fa una metafora geometrica, lo spazio che ospita i dati ha un numero molto elevato di dimensioni: ogni dato è individuato da un insieme di coordinate, tante quante sono le variabili che lo definiscono (se in una indagine medica ogni dato rappresenta un individuo, e di ogni individuo si considerano età, altezza, peso, pressione sanguigna, battito cardiaco, tasso di colesterolo, lo spazio dei dati ha sei dimensioni). In genere si è interessati a riconoscere e mettere in luce relazioni non ovvie tra queste variabili in un contesto specifico (nell’esempio di cui sopra potrebbe essere il rischio cardiovascolare per popolazioni di individui raggruppati secondo certi criteri). A volte queste relazioni non appaiono semplicemente come correlazioni tra coppie di variabili, ma legano tra loro diversi sottoinsiemi di variabili. In questi casi, se si riesce a riconoscere le combinazioni rilevanti di variabili, una rappresentazione intuitiva dei dati si ottiene definendo nuove variabili a partire da quelle combinazioni, e generando da queste un sottospazio che, quando si proiettano su di esso i dati, mostra chiaramente la struttura statistica principale presente nei dati. Un esempio classico è fornito dalla ‘analisi in componenti principali’ (PCA), in cui i nuovi ‘assi coordinati’ che definiscono lo spazio dei dati si ricavano calcolando le combinazioni lineari delle variabili originali tali che, proiettando su di essi i dati, si ottiene la massima varianza della distribuzione risultante. La PCA, che è un metodo di trasformazione lineare dei dati, si ottiene con metodi standard (anche se, per dimensionalità molto elevate dei dati, alcuni algoritmi non supervisionati basati su reti neuronali, dovuti essenzialmente a E. Oja e T.D. Sanger, si sono dimostrati competitivi). Il problema di riconoscere in dati multidimensionali delle strutture a dimensionalità minore è però molto generale, e sono stati proposti per affrontarlo molti metodi non lineari, incluse le reti neuronali. In uno scenario tipico, una rete neuronale a tre strati può essere addestrata a svolgere un compito di ‘autoassociazione’: in sostanza, l’output deve riprodurre l’input. Questo compito, apparentemente banale e un po’ inutile, acquista interesse se lo strato intermedio della rete possiede un numero di unità inferiore a quello (comune) degli strati di input e di output. In questo caso, la rete riesce a svolgere il compito con un errore accettabile se riesce a ‘comprimere’ l’informazione nello strato intermedio, che rappresenta un ‘collo di bottiglia’ nella propagazione dell’informazione (in effetti, in uno dei primi esempi di questo tipo ci si proponeva di realizzare una compressione efficiente delle immagini). La rete realizza quindi, nel suo strato intermedio, una riduzione della dimensionalità del problema. Per chiarire ulteriormente il problema, consideriamo il caso in cui un insieme dei dati definisca una retta e un altro una spirale, in uno spazio a tre dimensioni. In entrambi i casi la reale struttura dei dati, subito comprensibile da una rappresentazione grafica dei dati grazie al fatto che lo spazio ha 3 sole dimensioni, è in realtà unidimensionale (linee in 3D); per il caso della retta, una PCA fornirebbe la retta stessa come componente principale, e i dati risulterebbero giacere tutti su questo nuovo asse. Nel caso della spirale la cosa è più complicata e si capisce che in uno spazio a molte dimensioni, e in presenza di rumore nei dati, riconoscere strutture a dimensione bassa è difficile. Per la riduzione dimensionale in strutture non lineari di dati sono stati sviluppati diversi metodi basati su reti neuronali, in qualche modo delle estensioni non lineari della PCA. La fig. 2 si riferisce a un algoritmo proposto recentemente, che migliora l’approccio cui abbiamo accennato sopra basato sull’autoassociazione, e illustra un’applicazione di successo al recupero di documenti.
Dispositivi elettronici neuromorfi
Abbiamo accennato sopra a un approccio peculiare alla realizzazione elettronica di modelli neuronali, e ai ‘dispositivi neuromorfi’ che ne derivano: realizzazioni dirette in elettronica analogica integrata (VLSI) di modelli di percezione o elaborazione nel sistema nervoso. Questo settore di ricerca si colloca in una posizione intermedia tra la ricerca di base e le applicazioni ingegneristiche: alcune sue motivazioni derivano dalle seconde, mentre la magmaticità del suo sviluppo appartiene senz’altro alla prima.
Visto il carattere ancora preliminare e confuso, per quanto vitale, della modellistica teorica delle funzioni nervose, alcuni pensano che sarebbe saggio ed ‘economico’ far precedere all’implementazione elettronica di modelli neuronali una lunga fase di sviluppo basata esclusivamente su simulazioni al calcolatore dei sistemi da realizzare successivamente, in attesa che la teoria maturi e fornisca una guida sicura. I fautori dell’elettronica dei dispositivi neuromorfi, al contrario, pensano che sia interessante, e lungimirante, far avanzare congiuntamente l’esperienza nella realizzazione di questi dispositivi e la modellistica teorica a supporto della implementazione.
Un argomento a favore della seconda tesi è che lo sviluppo di un approccio tecnologico non convenzionale richiede il sedimento di molta esperienza, e l’allestimento di un linguaggio condiviso tra chi sviluppa modelli e chi ne progetta l’implementazione elettronica. Nella visione più ottimistica, i due settori ne trarrebbero mutuo beneficio, in quanto è vero che a posteriori una simulazione al calcolatore può riprodurre più o meno qualsiasi scenario, ma le proprietà dei dispositivi neuromorfi, visti come sistemi dinamici affetti da varie sorgenti di rumore e disomogeneità, possono esibire aspetti inediti, e formulare richieste implicite alla teoria, non prevedibili a priori. Come ha osservato di recente C. Mead, considerato il fondatore dell’elettronica dei dispositivi neuromorfi, nella fase iniziale di sviluppo di una tecnologia complessa non è facile separare gli sviluppi della tecnologia stessa da quelli delle sue applicazioni. Questa separazione è caratteristica di una tecnologia matura. Bisogna inoltre considerare che una ‘rete neuronale di silicio’ non è, come accade anche per i complicatissimi chip digitali che fanno funzionare i nostri computer, una macchina a stati finiti, cioè un automa che, a seconda delle condizioni, passa deterministicamente da uno stato a un altro in un repertorio definito. L’elettronica neuromorfa è analogica, il chip spesso si interfaccia con sorgenti ‘naturali’ (visive, sonore), e a seconda dell’architettura e del modello implementato il repertorio dei comportamenti dinamici esibiti può essere molto ricco. In altre parole, effettuare esperimenti con un chip neuromorfo implica una comprensione della dinamica del sistema implementato che va molto al di là della conoscenza elettronica dei circuiti realizzati, e richiede un dialogo continuo con la teoria. Nei dispositivi neuromorfi convivono oggi l’ambizione di costruire in prospettiva una vera e propria ‘neurofisiologia su silicio’, e l’obbiettivo di sviluppare dei dispositivi semplici, di basso costo e di bassissimo consumo, che realizzano (mantenendo una qualche ispirazione al funzionamento del sistema nervoso) prestazioni competitive rispetto ad approcci convenzionali.
È interessante, sia dal punto di vista applicativo che della ricerca di base, il fatto che in un sistema neuromorfo coesistono spesso nello stesso hardware uno stadio ‘sensoriale’ e stadi di elaborazione. Inoltre, come nel sistema nervoso reale, la comunicazione tra gli elementi del sistema è asincrona (la dinamica del sistema non possiede un ‘orologio’ che temporizzi gli eventi, un’altra differenza importante rispetto al mondo digitale) e ‘universale’ (basata cioè su spike stereotipati), e segue uno schema ‘uno a molti’ (ogni spike generato viene indirizzato in generale a molti destinatari).
Il sistema deve quindi gestire un onere di comunicazione elevato, che nel cervello si avvale di un livello molto elevato di connettività fisica tra i neuroni. Sono state quindi elaborate delle strategie di comunicazione per i sistemi neuromorfi che, mantenendo il carattere istantaneo e asincrono della comunicazione tra i neuroni, cercano di compensare l’attuale impossibilità di duplicare il livello di connettività del sistema nervoso. Uno schema di comunicazione di questo tipo proposto originariamente nel 1993 (AER, Address-Event Representation), ha trovato diverse applicazioni. Recenti sviluppi stanno arricchendo lo schema AER della possibilità di gestione programmata, interfacciando il sistema neuromorfo con un computer, in modo da poter pianificare e gestire dei veri e propri ‘esperimenti’ complessi su sistemi neuromorfi.