collinearita
collinearità Situazione in cui i regressori in un modello di regressione lineare sono caratterizzati da una forte dipendenza lineare. Una delle assunzioni basilari che consentono la stima dei minimi quadrati (➔ minimi quadrati, metodo dei) è che la matrice X (➔ matrice), contenente i valori delle covariate, abbia rango colonna pieno, ossia nessuna delle sue k colonne può essere ottenuta come combinazione lineare delle altre.
Si ha c. perfetta se una qualsiasi delle colonne della matrice X, corrispondente a una qualsiasi delle covariate nel modello, può essere ottenuta come combinazione lineare delle altre colonne. In questo caso la matrice X′X non è invertibile e quindi non è possibile calcolare lo stimatore dei minimi quadrati in maniera univoca. In genere, la c. perfetta si verifica quando una o più variabili sono ridondanti. Un esempio particolarmente rilevante è costituito da un modello lineare che comprenda tra le covariate una o più variabili categoriche, ossia variabili il cui valore indica l’appartenenza a una categoria, o modalità (➔ variabile categorica). L’inserimento di una variabile categorica, che assume q diverse modalità, si effettua attraverso altrettante variabili binarie, dette variabili dummy (➔ dummy, variabili), D1,..., Dq, tali che Dj è uguale a 1 soltanto se la variabile osservata appartiene alla j-esima modalità. Poichè ciascuna unità può appartenere a una e una sola categoria, segue immediatamente dalla definizione delle variabili dummy che D1+...+Dq=1. Di conseguenza, se il modello di regressione lineare comprende un’intercetta, ossia include tra i regressori una variabile X0, costante e uguale a 1 per tutte le unità osservate, si ha che X0=D1+...+Dq e quindi la matrice X, che comprende sia la colonna relativa alla variabile X0 sia le q colonne relative alle variabili dummy, non ha rango colonna pieno. In questo caso è sufficiente eliminare l’intercetta, oppure una delle variabili dummy, per eliminare il problema di collinearità.
È un caso più insidioso in cui, pur avendo X rango colonna pieno, la matrice X′X è quasi-singolare, ossia il suo determinante (➔) è prossimo a 0. In questo caso, sebbene lo stimatore dei minimi quadrati sia determinato univocamente, le stime risultano essere molto instabili: a piccole variazioni dei dati possono corrispondere sensibili variazioni dei valori stimati. Uno scalare (➔) che evidenzia la presenza di questo problema è il numero di condizionamento della matrice X′ X, uguale alla radice quadrata del rapporto tra il più grande e il più piccolo autovalore della matrice. Se X′ X non è invertibile, il più piccolo autovalore (➔ autovettore) è nullo, il che porta a un numero di condizionamento infinito. L’estremo opposto si ha quando tutti gli autovalori sono uguali tra loro (numero di condizionamento uguale a 1), che corrisponde al caso in cui tutti i regressori sono tra loro ortogonali e hanno uguale varianza. In caso di forte quasi-c., si può procedere eliminando la variabile o le variabili, che più di tutte contribuiscono al problema, oppure usando metodi alternativi di stima, come lo stimatore ‘ridge’ o il metodo delle componenti principali (➔ componente principale).