MODELLO LINEARE
Nella statistica il m.l. è una tecnica per l'analisi delle relazioni tra fenomeni. In generale il modello è costituito da un sistema di equazioni, lineari nei parametri, che descrivono o interpretano l'interazione fra due gruppi di variabili: il primo costituito da quelle determinate all'interno del sistema, dette anche variabili endogene o dipendenti, e il secondo costituito dalle variabili esogene o esplicative, il cui valore preesiste all'interazione, che sono determinate all'esterno del sistema.
L'insieme delle relazioni determina quindi simultaneamente i valori delle variabili endogene in funzione delle esogene. Le funzioni esprimenti tali relazioni si suppongono lineari nei parametri, ma ammettono non linearità nelle variabili; esse rappresentano, in linguaggio matematico, il sistema d'interdipendenze che secondo le conoscenze acquisite (teoria del fenomeno) caratterizzano gli eventi oggetto d'indagine statistica.
Un sistema in G variabili endogene e di G componenti aleatorie, può essere rappresentato sinteticamente mediante un m.l. in G equazioni strutturali stocastiche; la generica equazione h-esima di tale sistema può scriversi:
bh1y1i+bh2y2i+...+bhGyGi+dh1x1i+...+ dhkxki=uhi
h=1,2,...Gi=1,2,...n [1]
in cui y indica le variabili endogene, x indica le variabili esogene, l'indice h individua l'equazione e l'indice i si riferisce all'unità statistica cui afferiscono le G osservazioni (y) sulle endogene e le K osservazioni (x) sulle esogene, e infine, uhi è una variabile casuale (v.c.) esprimente gli elementi d'indeterminatezza del fenomeno oggetto d'indagine. Le osservazioni empiriche riguardano quindi le G+K variabili, per ognuna di queste si dispone di n dati statistici in funzione dei quali devono essere determinati, per ogni equazione, i valori incogniti dei parametri bhr e dhs (r=1,2,...G; s=1,2,...K).
La stima dei parametri del sistema di equazioni, oltre a fornire una misura dell'intensità delle relazioni, consente anche di saggiare la validità empirica delle conoscenze a priori che costituiscono la teoria del fenomeno; in tal modo emergono nuovi elementi di conoscenza che possono portare alla riformulazione del paradigma teorico. La stima dei coefficienti delle relazioni è quindi un importante momento nell'analisi del m.l., poiché misura l'intensità del legame tra i fenomeni considerati e fornisce, al tempo stesso, gli elementi probabilistici per valutare la validità dei paradigmi scientifici inerenti a tali fenomeni.
Casi particolari del m.l. generale si hanno quando il fenomeno detto dipendente o endogeno è costituito da una sola variabile e si ha quindi una sola equazione, oppure quando non esistono fenomeni di retroazione e il sistema di equazioni interdipendenti si riduce a un semplice insieme di relazioni indipendenti.
Nel primo caso si ha il m.l. uniequazionale, che configura una formulazione semplificata del m.l.; in particolare, quando anche le esogene sono rappresentate da una sola variabile, si ha il m.l. semplice. In questo modello si hanno due sole variabili, x e y, per le quali si dispone di n coppie di valori (dati):
x1−y1, x2−y2,...xi−yi,...xn−yn
che possono essere desunti dall'osservazione della vicenda storica, oppure essere generati da un esperimento di laboratorio.
La relazione lineare che rappresenta questo contesto semplificato può scriversi:
yi=a+b xi+ui (i=1,2,...,n) [2]
da cui appare evidente che vi sono due soli parametri (a, b) i cui valori devono essere determinati attraverso opportune funzioni (stimatori) dei dati statistici (xi, yi); anche nell'espressione [2] ui indica una sequenza (i=1,2,...,n) di variabili casuali (v.c.) che, come nel modello generale, esprimono gli elementi d'indeterminatezza del fenomeno oggetto d'indagine.
Per delineare le funzioni delle osservazioni empiriche (yi, xi) che forniscono le stime dei parametri (a, b) è necessario definire la distribuzione delle v.c. ui o perlomeno precisare alcuni suoi momenti, poiché le proprietà statistiche di tali funzioni, dette stimatori, dipendono principalmente dalle caratteristiche della distribuzione probabilistica della v.c. ui.
Un importante insieme di ipotesi è quello costituente il m.l. ''classico'', in cui si assume che gli elementi di stocasticità riguardino solo la variabile y, mentre la x sia non stocastica, e che le v.c. ui siano fra loro indipendenti, con media zero e varianza costante.
Nell'ambito di tale formulazione del modello si ottengono stime ottimali (corrette ed efficienti) dei parametri mediante un semplice criterio di stima, detto dei minimi quadrati, consistente nel trovare i valori di a e b che rendono minima la quantità:
I valori di a e b che soddisfano tale condizione di minimo si ottengono risolvendo il problema di ottimo vincolato definito dalla [3] e risultano:
in cui y e x indicano i valori medi dei valori osservati delle corrispondenti variabili e l'asterisco indica che si tratta di una misura campionaria del parametro definito nella [2].
Qualora le esogene non siano rappresentate da una sola variabile, ma da p variabili, il modello risulta:
yi=b0+b1 xi1+b2 xi2+...+bp xip+ui (i=1,2,...,n) [4]
in cui la v.c. ui ha ancora le stesse caratteristiche e l'ipotesi di non stocasticità è estesa a tutte le p variabili esogene; ogni variabile x è, conseguentemente, indipendente dalle v.c. ui.
L'ipotesi di linearità, pur essendo un vincolo del modello, non costituisce un limite rilevante nelle applicazioni per almeno due motivi. In primo luogo, poiché riguarda solo i parametri e non le variabili, e in secondo luogo, perché anche relazioni non lineari nei parametri possono essere analizzate attraverso questo modello introducendo opportune trasformazioni. In altri termini le variabili indicate con x e y possono rappresentare non solo le osservazioni empiriche, ma anche funzioni non lineari di tali osservazioni, sempreché tali funzioni siano indipendenti dai parametri. Così per es. la relazione
yi=a+b/zi+ui [5]
è non lineare, ma può essere analizzata con questo strumento statistico (m.l.); infatti definendo:
si ottiene:
yi=a+b wi+ui [6]
che è equivalente alla relazione [2]. L'equazione non lineare [5] è utilizzata in economia dove rappresenta il modello che spiega il livello dei salari reali (yi) in funzione del tasso di disoccupazione (zi). Si tratta di una relazione non lineare, poiché man mano che la disoccupazione si riduce aumenta più che proporzionalmente l'incremento dei salari provocato da tale riduzione, che può essere analizzata utilizzando questo modello statistico.
Analogamente, le relazioni di tipo polinominale:
yi=b0+b1 xi+b2 xi2+b3 xi3+...+bs xis
[7]
non sono lineari, ma ponendo:
si ottiene una relazione equivalente alla [3].
Un'ulteriore forma di non linearità che non impedisce l'utilizzo del m.l. sopra definito, per l'analisi delle relazioni tra fenomeni, è definita dall'equazione:
log zi=a+bxi+ui [8]
in cui chiaramente z non è funzione lineare di x, ma è sufficiente utilizzare la trasformazione:
yi=log zi
per ottenere una relazione equivalente alla [2], che può quindi essere agevolmente stimata con la tecnica statistica ottenuta dalla soluzione della [3].
La trasformata logaritmica è utilizzabile per ricondurre nell'alveo di applicabilità del m.l. anche relazioni non lineari nei parametri. Per es., la relazione
pi=a lb kc ui [9]
che trova largo impiego per analizzare i legami fra la produzione (rappresentata dalla variabile p) e gli impieghi di lavoro (l) e di capitale (k), pur essendo non lineare nei parametri (a, b, c), può essere analizzata col modello statistico lineare, poiché definendo le trasformazioni
la [9] può scriversi:
yi=a+b xi+c zi+vi [10]
e può essere analizzata utilizzando il m.lineare.
L'ipotesi di linearità non limita quindi significativamente il campo di applicabilità del modello, poiché l'aggettivo riguarda solo la linearità nei parametri, e opportune manipolazioni algebriche della relazione fenomenica originale consentono spesso trasformazioni che riconducono anche le non linearità nei parametri, che caratterizzano il fenomeno oggetto di studio, in relazioni lineari fra trasformate algebriche delle variabili che rappresentano tali fenomeni. È invece più complesso l'insieme dei vincoli che deriva da quell'altro insieme di ipotesi del m.l. che concerne la v.c. ui, cioè la parte stocastica del modello. In particolare, le ipotesi specifiche del modello classico − non sistematicità delle variabili x, indipendenza e non sistematicità delle v.c. ui − sono sicuramente più restrittive della linearità e in alcune situazioni concrete sono fortemente inadeguate.
Tali assunzioni stocastiche sono infatti coerenti con le caratteristiche dei dati quando questi sono ottenuti in contesti sperimentali, ove la variabile x è controllata dallo sperimentatore e può quindi essere effettivamente fissa (non stocastica) nei diversi campioni, corrispondenti ai differenti casi sperimentali, ma non sono altrettanto valide nelle scienze sociali in cui i dati sono tratti dall'osservazione della realtà storica e il campione è quindi irripetibile (come la vicenda umana); le v.c. ui, esprimenti gli elementi d'indeterminatezza, in tal caso non sono indipendenti, talora anche le variabili x sono stocastiche e possono quindi essere correlate con le v.c. ui. Pertanto, mentre nelle scienze sperimentali può essere sufficiente il riferimento al metodo dei minimi quadrati per ottenere le stime dei parametri del m.l. (classico), nelle scienze sociali è necessario andare oltre: occorre, in primo luogo, delineare il modello con riferimento alle caratteristiche specifiche del processo che nel reale genera le osservazioni e, in secondo luogo, definire stimatori dei parametri coerenti con tali caratteristiche.
I due aspetti principali del m.l. che devono essere riformulati nel contesto delle osservazioni non sperimentali sono pertanto l'ipotesi di esogenità e non stocasticità delle variabili x, da un lato, e le assunzioni d'indipendenza e omoschedasticità delle v.c. u, dall'altro.
Nel m.l. [1] un complesso di variabili viene spiegato congiuntamente da un sistema di relazioni (lineari e stocastiche) nelle variabili stesse (oltre che nei parametri): le variabili esogene compaiono pertanto come esplicative e le endogene sono ovviamente stocastiche e non indipendenti dalle v.c. u.
Il sistema di equazioni [1] deve soddisfare in primo luogo condizioni logiche formali: completezza e identificazione. Il sistema è completo se è costituito da un numero di equazioni pari alle variabili endogene, cioè pari al numero dei fenomeni i cui valori sono determinati all'interno del sistema, attraverso le interazioni descritte appunto dalle equazioni; la completezza dipende quindi dalla teoria in base alla quale sono specificate la relazione fra le variabili del sistema (economico, sociale, demografico, ecc.).
L'identificazione dipende invece dalla possibilità d'imporre, attraverso la teoria stessa, vincoli a priori sulle relazioni che rendono univoca la relazione fra modello, dati e teoria. Un modello è identificato quando l'informazione teorica consente una rigorosa interpretazione dei parametri stimati per il fenomeno oggetto d'indagine.
La stima dei parametri, in questo caso, richiede il riferimento ad altri metodi di stima e, talora, anche a un criterio più generale di quello dell'accostamento, che abbiamo visto per i casi particolari analizzati nella prima parte, quale quello detto della massima verosimiglianza. Tale criterio, che consiste nell'attribuire a parametri i valori che rendono massima la funzione di verosimiglianza, cioè che massimizzano la probabilità, subordinata al modello, delle osservazioni empiriche, può essere applicato a ciascuna equazione separatamente, oppure unitariamente e contemporaneamente al modello nel suo complesso: i primi metodi sono detti della massima verosimiglianza a informazione limitata, mentre i secondi sono detti a informazione completa.
L'applicazione del criterio dell'accostamento con particolari adattamenti e in forma iterata fornisce approssimazioni interessanti che costituiscono casi particolari dello stimatore delle variabili strumentali: i metodi più noti sono i minimi quadrati a due stadi (a informazione limitata) e i minimi quadrati a tre stadi (a informazione completa). Questi metodi sono fondati sulla sostituzione delle variabili effettive del modello con altre variabili, dette strumentali, che non hanno i limiti di stocasticità e non indipendenza dalle corrispondenti variabili stocastiche e che, di conseguenza, forniscono stime dei parametri aventi proprietà statistiche ottimali e consentono quindi rigorose analisi empiriche dei fenomeni oggetto d'indagine.
Bibl.: N. R. Draper, H. Smith, Applied regression analysis, New York 1966; C. Daniel, F. S. Woods, Fitting equations to data, ivi 1971; M. Faliva, Stimatori lineari efficienti nel modello di regressione lineare, in Statistica, 1972, pp. 415-52; T. W. Anderson, Estimation of linear functional relationships, in Journal of the Royal Statistical Society, s. B, 38 (1976), pp. 1-36; A. Zanella, La prova di ipotesi per modelli lineari misti: funzionali e di regressione, in Statistica, 1979, pp. 241-68; D. A. Belsley, E. Kuh, R. E. Welsch, Regression diagnostic, New York 1980; T. W. Anderson, An introduction to multivariate statistical analysis, ivi 1984; Specification analysis in the linear model, a cura di M. L. King e D. E. A. Giles, Londra 1987; Surveys in econometrics, a cura di L. T. Oxley, C. J. Roberts, D. A. R. George, S. T. Sayers, Oxford 1993.