Perceptron
Le prime idee sui neuroni formali (con uscite binarie o continue) sono emerse come astrazioni nel corso degli studi sulle modalità di funzionamento del sistema nervoso, in particolare riguardo la loro capacità di effettuare operazioni logiche e binarie. Negli anni Cinquanta e Sessanta del XX sec., questi modelli cominciarono a suscitare interesse in campi applicativi, per rispondere alla sfida posta dal riconoscimento automatico e invariante di pattern: come sia possibile che sistemi nervosi molto semplici siano capaci di riconoscere un oggetto, indipendentemente dalla sua dimensione, dalla sua orientazione e dallo sfondo su cui è posto, mentre anche i più potenti calcolatori si dimostrano incapaci di svolgere tale compito. Così, le reti neurali furono all'inizio prese in considerazione per applicazioni nel campo del riconoscimento dei pattern, come lo stesso nome 'perceptron' sta a indicare. L'interesse per le reti neurali riprese nel 1982, con l'introduzione delle reti ricorrenti completamente connesse (reti di Hopfield), descritte da equazioni analoghe a quelle che definiscono certi sistemi magnetici, come i vetri di spin. L'analisi di tali sistemi fu sviluppata nell'ambito della fisica statistica, risolvendo una varietà di modelli dei processi di memorizzazione e apprendimento, e allo stesso tempo fu esplorato in profondità il loro uso per la modellizzazione di reti biologiche.
Un aspetto saliente degli sviluppi negli ultimi anni consiste nel fatto che la metafora biologica è risultata quasi del tutto irrilevante, dal punto di vista delle applicazioni in ingegneria, in fisica o in informatica. Infatti, indipendentemente dall'origine biologica delle idee iniziali, i perceptron sono studiati sulla base delle loro intrinseche proprietà matematiche, che li rendono utili in un'ampia gamma di settori. Ovviamente questa osservazione, per quanto utile in ambito applicativo, non deve far dimenticare le idee di base, che sono state tratte dalla biologia, e nemmeno le potenzialità che tali strutture mostrano nello studio di modelli elaborativi in ambito biologico. La scienza delle reti neurali è un campo aperto e affascinante, all'incrocio tra la biologia, la fisica e l'ingegneria. In senso stretto, come pure in architetture feedforward, i perceptron rappresentano gli elementi di base di tutti gli studi di reti neurali basati sulla fisica statistica. In questi approcci si considera il limite in cui il numero di ingressi è infinito (simile al limite di numero infinito di particelle in termodinamica); questa apparente complicazione risulta molto fertile, perché consente la soluzione di molti modelli importanti per la memorizzazione, l'apprendimento di regole, la generalizzazione e così via.
I risultati dedotti da queste strutture di tipo perceptron servono per lo studio di reti più generali, che includono connessioni con retroazione; la presenza di connessioni bidirezionali (con retroazione) è una caratteristica generale dei sistemi nervosi biologici. La modellizzazione neurobiologica basata su reti feedforward è un attivo settore di ricerca, per almeno quattro motivi: questi modelli forniscono spesso un'approssimazione del primo ordine su cui lavorare; possono servire come passi intermedi verso miglioramenti di ordine superiore; in alcune funzioni fisiologiche, l'elaborazione neuronale è così veloce e direzionale (si pensi, per es., all'arco riflesso) che l'elaborazione feedforward ne contiene l'essenza; infine, le analogie con le proprietà computazionali e algoritmiche delle reti formali, sviluppate per applicazioni di interesse pratico sono fonte di ispirazione.
Un neurone formale, o semplicemente neurone, è un operatore matematico che, nella maggioranza delle applicazioni, può essere implementato su calcolatore mediante poche righe di programma. Nei casi in cui siano presenti vincoli sul funzionamento in tempo reale, esso può essere anche realizzato mediante un semplice circuito elettronico. In un neurone sono presenti più grandezze di input, che vengono elaborate in modo da ottenere in output una funzione non lineare della somma pesata degli ingressi (fig. 2). Gli ingressi, le uscite e i pesi (detti a volte pesi sinaptici) sono in generale rappresentabili come numeri reali. La funzione non lineare deve essere limitata e può essere, per esempio, una funzione a gradino, una sigmoide (o una tangente iperbolica), una gaussiana e così via. Gli ingressi di un neurone possono essere le uscite di altri neuroni, oppure segnali provenienti dall'esterno. Sebbene la potenzialità di calcolo di un singolo neurone sia piuttosto limitata, reti costituite da molti neuroni possono presentare proprietà assai utili. Prima di descriverle, è opportuno introdurre una distinzione importante tra due classi di architetture neurali. Nelle reti neurali feedforward (a propagazione in avanti), l'informazione fluisce dagli input agli output, senza alcuna retroazione (fig. 3). Si tratta di sistemi statici, in cui le relazioni input-output sono rappresentabili come equazioni algebriche non lineari e i cui output a un dato istante dipendono solo dagli input allo stesso istante. Nelle reti neurali con retroazione (feedback), dette anche reti ricorrenti, l'informazione può anche retropropagarsi, dall'uscita di un neurone al suo ingresso, eventualmente attraverso altri neuroni. Si tratta di sistemi dinamici, in cui le relazioni input-output sono rappresentabili come equazioni differenziali non lineari, nel caso di sistemi a tempo continuo, oppure equazioni alle differenze finite, nel caso di sistemi a tempo discreto (fig. 4). In questo caso, gli output dipendono dai valori assunti in passato dagli input della rete.
Nelle reti feedforward multistrato sono presenti neuroni intermedi, che vengono generalmente detti neuroni nascosti, i quali elaborano l'informazione convogliata dagli input e trasmettono i loro risultati ai neuroni di output. Reti di questo tipo sono utilizzate per la classificazione automatica nell'ambito del riconoscimento di pattern, nella realizzazione di modelli non lineari statici di processi. Nella fig. 3 è mostrata una tipica struttura utilizzata per problemi di classificazione, in cui i neuroni nascosti sono organizzati come uno strato intermedio. Sono così presenti connessioni tra gli input e i neuroni nascosti, e tra questi ultimi e i neuroni di output. Le reti con retroazione possono essere utilizzate nell'ambito della modellizzazione dinamica non lineare e del controllo di processi. Poiché, in tali reti, si trovano percorsi chiusi in cui fluisce l'informazione, devono essere presenti ritardi affinché il sistema risulti di tipo causale. In effetti, si può mostrare che ogni rete neurale con retroazione, comunque complessa, si può porre in una forma canonica (fig. 5) costituita da una rete feedforward (tipicamente un perceptron multistrato), in cui alcuni output (detti output di stato) sono connessi agli input. Si noti che, nel corso del tempo, la terminologia in uso nel settore d'interesse ha subito varie evoluzioni. In particolare, mentre in origine il termine perceptron era riservato a una specifica struttura di tipo elementare, in seguito esso è stato esteso fino a includere tutte le reti feedforward.
I perceptron multistrato hanno una proprietà notevole: sono approssimatori universali (o stimatori di regressione) 'parsimoniosi'. La caratteristica di essere un approssimatore universale può essere enunciata come segue: ogni funzione non lineare sufficientemente regolare può essere approssimata con accuratezza arbitraria da una rete feedforward, costituita da uno strato contenente un numero finito di neuroni nascosti, con non linearità di tipo sigmoide, e un singolo neurone di uscita di tipo lineare. Questa proprietà non è specifica delle reti neurali: per esempio, si comportano come approssimatori universali anche i polinomi, le wavelet, le funzioni di base radiali e così via. Tuttavia, la qualità saliente delle reti neurali, come approssimatori, è il carattere parsimonioso: per una data accuratezza, il numero di pesi necessari è generalmente più basso con una rete neurale rispetto ad altri tipi di approssimatori. Per esempio, mentre, nel caso dei perceptron, il numero di pesi cresce in modo lineare con il numero di variabili della funzione, nel caso dei polinomi l'incremento si verifica in modo esponenziale. Nella maggior parte dei casi, tale proprietà rende vantaggioso l'uso dei perceptron, quando il numero delle variabili è maggiore o uguale a tre.
Nella maggior parte delle applicazioni, il compito di un perceptron multistrato non è quello di effettuare l'approssimazione di una funzione nota. Il problema d'interesse può infatti essere enunciato nel modo seguente: assegnati un insieme di valori delle variabili (gli input della rete) e un insieme di numeri (i valori desiderati in output), che sono i corrispondenti valori della funzione non lineare incognita, trovare l'espressione matematica che si adatti nel modo migliore ai dati, cioè che renda minimo l'errore di approssimazione, e che generalizzi nel modo più opportuno in corrispondenza di nuovi dati, realizzando la migliore interpolazione. A causa della loro proprietà di essere approssimatori universali e parsimoniosi, le reti neurali appaiono come candidati eccellenti a svolgere un tale compito. Il problema consiste quindi nel determinare valori dei pesi che consentano alla rete neurale di realizzare il miglior fit. Questo si ottiene attraverso un particolare algoritmo detto addestramento, o apprendimento supervisionato. Dopo la fase di addestramento, il perceptron dovrebbe idealmente acquisire la capacità di 'cogliere' ciò che, nei dati, è deterministico. Questo è un problema classico, noto, in analisi statistica, come regressione non lineare; l'addestramento infatti non è altro che la stima dei parametri di una regressione non lineare.
Per trovare il miglior fit dei dati fornito dagli output della rete si devono effettuare i seguenti passi: (a) scegliere l'architettura della rete, in particolare gli input (cioè le variabili significative), la sua topologia e le sue dimensioni; ciò determina una famiglia di funzioni non lineari a parametri incogniti (i pesi della rete) che sono candidate per effettuare in modo corretto il fit desiderato dei dati; (b) effettuare la fase di addestramento della rete, cioè determinare l'insieme di valori dei pesi che minimizzi l'errore di approssimazione sull'insieme di dati usati per l'addestramento (insieme di addestramento); (c) valutare la capacità della rete di generalizzare, cioè stimarne le prestazioni su un nuovo insieme di dati (chiamato insieme di prova, distinto dall'insieme di addestramento, ma originato dalla stessa popolazione).
Per la proprietà fondamentale dei perceptron enunciata in precedenza, una rete neurale con un numero sufficientemente grande di neuroni nascosti può adattarsi a qualsiasi funzione non lineare. Tuttavia, se si utilizza una rete con un numero troppo grande di pesi regolabili, essa risulterà eccessivamente flessibile e, oscillando inutilmente sull'insieme dei dati, avrà difficoltà a generalizzare in modo corretto. Al contrario, una rete con un numero troppo piccolo di pesi risulterà troppo rigida e potrà essere incapace di adattarsi in modo soddisfacente anche ai dati di addestramento. Ciò è illustrato in fig. 6: i punti rossi rappresentano le misure degli output del processo, affetti da rumore, che vengono usati per la fase di addestramento della rete, mentre la linea nera rappresenta l'output della rete dopo tale fase. È evidente che l'output della rete con il numero più piccolo di neuroni realizza un'approssimazione della parte deterministica del processo più soddisfacente di quella ottenuta dalla rete più grande. Pertanto, l'obiettivo principale nel progetto della rete neurale è quello di trovare il miglior compromesso tra l'accuratezza del fit sui dati di addestramento e la capacità della rete di generalizzare, cioè di funzionare in modo corretto su nuovi insiemi di dati. Sono state ampiamente provate sia le tecniche che, a partire da una rete molto piccola, incrementano via via la sua complessità, sia quelle che tendono a diminuire la complessità di una rete inizialmente sovradimensionata. Esistono metodi statistici rigorosi che forniscono reti quasi ottimali. Sono state anche studiate in maniera approfondita tecniche di regolarizzazione, che impongono vincoli ai valori dei pesi.
Le aree di applicazione dei perceptron multistrato sono le seguenti.
Modellizzazione statica non lineare di processi. Esiste una grande varietà di problemi applicativi, in un'ampia gamma di settori, che sono riconducibili a problemi di fit di dati: per la proprietà dei perceptron di essere approssimatori universali parsimoniosi, essi sono eccellenti candidati a svolgere questo compito, purché si disponga di dati adeguati.
Modellizzazione dinamica non lineare di processi. Per la loro proprietà di essere approssimatori universali, le reti neurali con retroazione possono essere addestrate a funzionare come modelli per una classe molto ampia di processi dinamici non lineari.
Controllo di processi. Un controllore di processo determina i segnali di controllo necessari a conferire al processo una dinamica predeterminata; se il processo è non lineare, si può addestrare una rete neurale a realizzare la funzione non lineare d'interesse.
Classificazione. Supponiamo che dei pattern, ciascuno descritto da un insieme di variabili (per es., l'intensità dei pixel di un'immagine), debbano essere classificati in una di due classi, A e B. Un supervisore (di solito un operatore umano) fissa il valore delle uscite a +1, per tutti i pattern che riconosce come appartenenti alla classe A, e a 0, per tutti quelli della classe B. Le reti neurali sono buone candidate per determinare una funzione che si adatti all'insieme di output desiderati. Si può anche dimostrare che questa funzione fornisce una stima della probabilità che una configurazione non nota appartenga alla classe A. In questo modo, i perceptron danno un'informazione molto ricca, molto più di quella fornita da un semplice classificatore binario. È da notare che la capacità di classificazione delle reti neurali è una conseguenza della proprietà di essere approssimatori universali. Tuttavia, le reti neurali sono state tanto ampiamente studiate e utilizzate in questo contesto, che i perceptron sono per lo più noti come classificatori.
Ottimizzazione. Questo rappresenta l'unico settore di applicazione delle reti neurali che in effetti non si avvantaggia della proprietà di approssimazione universale. Data una rete neurale ricorrente e a tempo discreto, composta di unità binarie (cioè di neuroni la cui funzione di trasferimento non lineare è una funzione a gradino), è di solito possibile definire per questa rete una funzione di Ljapunov (o funzione energia), cioè una funzione scalare dello stato della rete che ha la seguente proprietà: quando la rete viene lasciata evolvere secondo la sua dinamica, la funzione di Ljapunov diminuisce a ogni passo nel tempo, finché la rete raggiunge uno stato stabile. In questo modo, la dinamica della rete conduce a un minimo della funzione di Ljapunov. Si può sfruttare questa proprietà ai fini dell'ottimizzazione nel modo seguente: data una funzione J da ottimizzare, se è possibile progettare una rete neurale la cui funzione di Ljapunov è proprio la funzione J, la rete ha la capacità, se lasciata evolvere liberamente secondo la sua dinamica, di trovare i minimi di questa funzione costo.
La fase di addestramento supervisionato delle reti neurali è il processo attraverso il quale si calcolano i pesi di una rete in modo tale che, per ogni configurazione di input dell'insieme di addestramento, l'output della rete sia il più possibile vicino al corrisponden-te output desiderato. Quest'ultimo rappresenta la classe a cui la configurazione appartiene (nel caso della classificazione), o l'output misurato del processo da modellare (nel caso della modellizzazione di processi). Si deve quindi definire una distanza J tra l'uscita della rete (che dipende dai pesi c) e l'output desiderato. Tale distanza (che svolge il ruolo di una funzione costo) di solito viene definita come la somma, su tutti gli esempi k, dei quadrati delle differenze tra gli output effettivi yk e gli output desiderati dk
[1] formula
dove N è il numero di pattern dell'insieme di addestramento (denominati anche esempi). Se la rete ha più di un output, la somma si estende a tutti gli output. L'addestramento consiste così nella minimizzazione della funzione costo rispetto ai pesi c, che viene effettuata per mezzo dei tipici metodi di ottimizzazione non lineare che fanno uso, in modo iterativo, del gradiente della funzione costo. Il gradiente viene calcolato attraverso un semplice metodo chiamato retropropagazione (backpropagation). All'inizio della fase addestramento, si assegnano valori casuali ai pesi. Successivamente, i pesi vengono aggiornati in maniera iterativa, in modo che la funzione J diminuisca, e il processo si considera concluso quando viene raggiunto un compromesso soddisfacente tra l'accuratezza considerata sull'insieme di addestramento e la capacità di generalizzare misurata sull'insieme di test (distinto da quello di addestramento).
L'applicazione dei perceptron nel settore della relazione quantitativa struttura-attività (QSAR, Quantitative structure-activity relationship) è un tipico esempio della capacità delle reti neurali di realizzare il processo di fit dei dati. Lo scopo è la previsione di una proprietà chimica (espressa da un numero reale) di una molecola a partire da un insieme di descrittori (anch'essi numeri reali), come la massa molecolare, il momento di dipolo, il volume, o altra quantità pertinente (fig. 7). Si possono stimare in questo modo diverse proprietà chimiche, come la solubilità in acqua, i coefficienti di separazione, e così via. Alcuni descrittori si possono misurare, altri si possono calcolare, ab initio, per mezzo di programmi di simulazione molecolare. I risultati ottenuti dalle reti neurali in questo settore sono sistematicamente migliori di quelli ottenuti mediante altre tecniche di regressione sulle stesse basi di dati. Questo procedimento si può estendere ad altri settori, quali la previsione delle proprietà di materiali compositi a partire dalla loro composizione, la previsione delle proprietà farmacologiche delle molecole, e così via. Si possono quindi considerare i perceptron come un ausilio nella progettazione di nuove molecole o nuovi materiali. Essi possono essere anche molto utili nel far risparmiare il lavoro e i costi necessari a sintetizzare nuove molecole o nuovi materiali, quando, tramite il loro impiego, è possibile prevedere che non possiedono le proprietà desiderate.
Le reti neurali con retroazione, che obbediscono a equazioni non lineari alle differenze finite, si possono utilizzare per modellare processi dinamici non lineari. Queste applicazioni possono essere considerate come esempi della procedura del tutto generale che realizza una previsione attraverso un'interpolazione. Lo scopo della modellizzazione è trovare un modello matematico, come una rete neurale, la cui risposta a qualsiasi segnale di input (denominato di solito, nel campo del controllo di processi, segnale di controllo) sia identica alla risposta che il processo fornirebbe in assenza di rumore (fig. 8). Molto spesso si dispone di una conoscenza parziale del processo, nella forma di equazioni differenziali non lineari, dedotte da un'analisi fisica, chimica, economica, finanziaria o di altro tipo, del processo stesso. In tale condizione, sarebbe svantaggioso non far uso di tale informazione utile.
Uno degli aspetti più notevoli delle reti neurali è il fatto che esse non sono necessariamente delle 'scatole nere'. Infatti, la conoscenza a priori può essere utilizzata per fornire alla rete una struttura appropriata e determinare i valori di alcuni suoi parametri. Questi modelli neurali basati sulla conoscenza sono effettivamente utilizzati in applicazioni industriali. La predizione di una serie temporale, a partire dai suoi valori passati, è simile alla modellizzazione di un processo, eccetto per il fatto che potrebbero non esserci input di controllo. In tal caso, gli input di un dispositivo neurale di predizione sono costituiti da un insieme appropriato di valori passati tratti dalla stessa serie temporale, ed eventualmente da un insieme di valori passati delle predizioni. In quest'ultimo caso, il dispositivo di predizione è una rete a retroazione. Le previsioni finanziarie ed economiche sono settori tipici di applicazione della predizione di serie temporali per mezzo di reti neurali. I modelli di un processo possono essere utilizzati in varie applicazioni: rilevazione dei guasti, addestramento del personale, progettazione assistita dal computer e così via.
Il controllo è l'azione attraverso la quale un dato comportamento dinamico viene conferito a un processo. Nei casi in cui è necessario un modello non lineare, le reti neurali sono eccellenti candidati a svolgere tale compito. La progettazione di un controllore neurale di processo si basa su due fattori: un modello di riferimento che calcoli la risposta desiderata del processo in corrispondenza alla sequenza di valori di riferimento; un modello neurale, come sopra descritto. Il controllore neurale viene addestrato a calcolare il segnale di controllo da applicare al modello per ottenere la risposta richiesta dal modello di riferimento. Per esempio, l'uscita del processo può essere la rotta di un veicolo autonomo, e la variabile di controllo l'angolo di rotazione del suo volante. Allora, se il valore di riferimento è rappresentato dall'angolo desiderato di orientazione del veicolo, il modello di riferimento descrive il modo in cui il veicolo stesso si dovrebbe comportare per effetto di un cambiamento del valore di riferimento, in funzione, per esempio, della sua velocità. Il controllore neurale calcolerà la sequenza di angoli di rotazione del volante necessaria affinché il veicolo raggiunga l'orientazione desiderata con il comportamento dinamico voluto. È stato progettato e messo in funzione un veicolo a trazione integrale completamente autonomo nel quale il volante, l'acceleratore e i freni sono controllati da una rete neurale.
In un problema di classificazione, si devono assegnare pattern non noti (intesi in senso generico, per es. caratteri scritti a mano, serie temporali, fonemi, ecc.) a classi appropriate. I pattern sono rappresentati da una serie di descrittori (numeri reali) che si suppone individuino gli stessi in modo univoco. Un classificatore assegnerà un pattern sconosciuto a una classe, oppure riconoscerà di non poterlo assegnare a nessuna classe, perché esso è ambiguo o troppo diverso dagli esempi. Le prestazioni di un classificatore dipendono fortemente dalla rappresentazione adottata per i pattern che, a sua volta, deriva dai passi di preelaborazione effettuata sui dati grezzi. Nell'elaborazione di un'immagine, per esempio, tra le preelaborazioni tipiche figurano il filtraggio, l'estrazione dei contorni, la normalizzazione delle dimensioni, e così via. Se la rappresentazione è discriminante in modo adeguato, se la rete è progettata in maniera appropriata e se l'insieme di addestramento è un campione rappresentativo dei pattern da elaborare, le reti neurali forniscono prestazioni simili a quelle dei migliori classificatori non neurali. Tuttavia, la loro implementazione su circuiti integrati dedicati o su calcolatori paralleli è più semplice che per la maggior parte dei classificatori di qualità equivalente.
C'è un'abbondanza di esempi di applicazioni delle reti neurali in questo settore, che sono state studiate in modo approfondito. Le applicazioni industriali hanno avuto molto successo nel campo del riconoscimento di caratteri. Per esempio, in Francia e negli Stati Uniti alcune macchine automatiche per l'ordinamento della posta usano reti neurali (insieme ad altri metodi) per il riconoscimento dei codici postali scritti a mano. Analogamente, si usano reti neurali come componenti di sistemi che leggono automaticamente l'ammontare degli assegni, scritti a mano in corsivo. Anche il riconoscimento della scrittura corsiva a mano in tempo reale è un campo di applicazioni promettente. Naturalmente, si presentano dei problemi di classificazione anche in una gamma di applicazioni del tutto diverse dal riconoscimento visivo. I perceptron vengono così utilizzati nell'industria per la diagnosi di guasti, nelle banche per la valutazione delle società, e così via. Per esempio, una banca francese usa una rete neurale per valutare la capacità delle città di restituire i debiti; ogni città è classificata da A (migliore) a E (peggiore).
Arbib 1995: Handbook of brain theory and neural networks, edited by Michael Arbib, Cambridge (Mass.), MIT Press, 1995.
Benveniste 1994: Benveniste, Albert e altri, 10th IFAC Symposium on identification, Copenhagen, 1994.
Bishop 1995: Bishop, Chris M., Neural networks for pattern recognition, Oxford, Clarendon Press; Oxford-New York, Oxford University Press, 1995.
Duda, Hart 1973: Duda, RO., Hart, P.E. Pattern classification and scene analysis, New York, Wiley, 1973.
Grassberger, Nadal 1994: From statistical physics to statistical inference and back, edited by Peter Grassberger, Jean-Pierre Nadal, Dordrecht-Boston, Kluwer Academic, 1994.
Gutfreund, Toulouse 1994: Biology and computation: a physicist's choice, edited by Herbert Gutfreund, Gérard Toulouse, Singapore-River Edge, World Scientific, 1994.
Guyon, Wang, 1993: Guyon, Isabelle - Wang, Patrick S., Advances in pattern recognition systems using neural network technologies, Singapore-London, World Scientific, 1993.
Hassibi, Stork 1993: Hassibi, Babak - Stork, David, Advances in neural information processing systems, edited by Stephen J. Hanson, Jack D. Cowan, C. Lee Giles, San Mateo (Cal.), Kaufmann, 1993, pp. 164-171.
Hertz 1991: Hertz, John - Krogh, Anders - Palmer, G, Introduction to the theory of neural computation, Redford City, Addison-Wesley, 1991.
Hopfield 1982: Hopfield, John J., Neural networks and physical systems with emergent collective computational abilities, "Proceedings of the National Academy of Science USA", 79, 1982, pp. 2554-2558.
Hopfield, 1984: Hopfield, John J., Neurons with graded response have collective computational properties like those of two-state neurons, "Proceedings of the National Academy of Science USA", 81, 1984, pp. 3088-3092.
Hornik 1994: Hornik, Kurt e altri, Degree of approximation results for feedforward networks approximating unknown mappings and theri derivatives, "Neural computation", 6, 1994, pp. 1262-1275.
Knerr 1990: Knerr, Stefan - Personnaz, Léon - Dreyfus, Gérard, Single layer learning revisited: a stepwise procedure for building and training a neural network, in: Neurocomputing: algorithms, architectures and applications, edited by Françoise Fogelman Soulié, Jeanny Hérault, Berlin, Springer, 1990, pp. 41-50.
Leontaritis, Billings 1987: Leontaritis, I.J. - Billings, S.A., Model selection and validation methods for non-linear systems, "International journal of control", 45, 1987, pp. 311-341.
Levin, Narendra 1995: Levin, Asriel D. - Narendra, Kumpati S., Identification using feedforward networks, "Neural computation", 7, 1995, pp. 349-357.
Ljung 1987: Ljung, Lennart, System identification: theory for the user, Englewood Cliffs-London, Prentice-Hall, 1987.
McCulloch, Pitts 1943: McCulloch, Warren S. - Pitts, Walter H., A logical calculus of the ideas immanent in nervous activity, "Bulletin of mathematical biophysics", 5, 1943, pp. 115-133.
Minsky, Papert 1969: Minsky, Marvin - Papert, Seymour, Perceptrons: an introduction to computational geometry, Cambridge (Mass.), MIT Press, 1969.
Moody, Darken 1989: Moody, John E. - Darken, Christian J., Fast learning in networks of locally-tuned processing units, "Neural computation", 1, 1989, pp. 281-294.
Nadal 1989 : Nadal, Jean-Pierre, Study of a growth algorithm for a feedforward network, "International journal of neural systems", 1, pp. 55-59.
Nerrand 1993: Nerrand, Olivier e altri, Neural networks and nonlinear adaptive filtering: unifying concepts and new algorithms, "Neural computation", 5, 1993, pp. 165-199.
Ploix, Dreyfus 1996: Ploix, Jean-Luc - Dreyfus, Gérard, Knowledge based neural modeling: principles and industriaI applications, in: Industrial applications edited by Françoise Fogelman Soulié, Patrick Gallinari, Singapore-London, World Scientific, 1996.
Poggio, Girosi, 1990: Poggio, Tommaso - Girosi, Federico, Regularization algorithims for learning that are equivalent to multilayer networks, "Science", 247, 1990, pp. 1481-1497.
Press 1992: Press, William H. e altri, Numerical recipes in C: the art of scientific computing, 2. ed., Cambridge-New York, Cambridge University Press, 1992.
Rivals 1994: Rivals, Isabelle e altri, Modeling and control of mobile robots and intelligent vehicles by neural networks, in IEEE conference on intelligent vehicles, Paris, 1994, pp. 137-142.
Rumelhart 1986: Rumelhart, David E. e altri, Parallel distributed processing: explorations in the microstructure of cognition, Cambridge (Mass.), MIT Press, 1986.
Stein 1992: Stein, Daniel, Spin glasses and biology, Singapore-River Edge, World Scientific, 1992.
Urbani 1994: Urbani, D. e altri, The selection of neural models of non-linear dynamical systems, by statistical tests, "Neural networks for signal processing", 4, 1994, pp. 229-237.
Watkin 1993: Watkin, Timothy L.H. - Rau, Albrecht - Biehl, Michael, The statistical mechanics of learning a rule, "Reviews of modern physics", 65, 1993, pp. 499-556.
Weigend, Gershenfeld, 1994: Weigend, Andreas -Gershenfeld, Neil, Time series prediction: forecasting the future and understanding the past, Reading (Mass.)-Wokingham, Addison-Wesley, 1994.