stimatore
Statistica (➔), ossia trasformazione dei dati campionari, definita allo scopo di stimare un parametro ignoto di un modello statistico (➔), sia esso uno scalare (➔), un vettore (➔) o una funzione. Il valore di uno s. in corrispondenza di un campione dato è chiamato stima (➔). Uno s. è sempre definito con riferimento al parametro oggetto di stima, quindi è opportuno dire che una statistica T è uno s. per un determinato parametro θ. Un esempio è la media campionaria, T(X)=(X1+... Xn)/n, che è uno s. per la media della popolazione da cui il campione X1,...,Xn è stato estratto (➔ anche kernel density).
Per uno stesso parametro θ possono essere definiti s. diversi, seguendo criteri e principi di induzione differenti (➔ induzione). Per es., se il parametro di interesse è la media della popolazione, il principio dell’analogia suggerisce di utilizzare come s. il suo corrispettivo empirico, ossia la media campionaria. Un’altra possibilità è il criterio dei minimi quadrati ordinari (➔ minimi quadrati, metodo dei) che, in questo caso specifico, porta alla medesia scelta. Se la decisione si basa invece sul criterio della minimizzazione della deviazione media assoluta, allora lo s. indicato sarà la mediana campionaria (➔ mediana). Altri criteri possono portare a scegliere come s. una media ponderata del tipo ΣiwiXi, dove i pesi sono nonnegativi e sommano a 1, oppure una media troncata, per es. quella ottenuta eliminando dal campione l’osservazione più piccola e quella più grande e prendendo poi la media dei valori rimasti. Infine, se il modello statistico consiste di una particolare famiglia di distribuzioni di probabilità (per es., la normale, l’esponenziale ecc.), allora è possibile scrivere la funzione di verosimiglianza (➔) e stimare la media della popolazione con lo s. di massima verosimiglianza (➔ verosimiglianza massima, metodo della). Tale s. coincide in alcuni casi con la media campionaria, come nel caso di un modello gaussiano.
Nel valutare la bontà di uno s., un ruolo essenziale svolgono le proprietà statistiche di cui esso gode. Tali proprietà riguardano aspetti della sua distribuzione campionaria esatta (➔ distribuzione campionaria), cioè per campioni finiti, oppure di quella asintotica (➔ asintotica, distribuzione), cioè della distribuzione per campioni di numerosità arbitrariamente elevata. Quando si parla di proprietà di uno s. per campioni finiti si fa in genere riferimento alla correttezza (o non distorsione) e all’efficienza. Uno s. T=T(X) si dice corretto, o non distorto, per un parametro θ se la sua distribuzione campionaria ha media uguale a θ, cioè se E(T)=θ. Nel caso di campionamento casuale semplice, la media campionaria è uno s. non distorto per la media della popolazione. Lo è anche una qualsiasi media ponderata ΣiwiXi tale che Σiwi=1. L’efficienza di uno s. è una proprietà che ne indica una maggiore precisione rispetto a uno s. alternativo. Una definizione di efficienza frequentemente utilizzata è legata all’errore quadratico medio o MSE (Mean Squared Error). Se T e T′ sono due s. alternativi di uno stesso parametro θ, si dice che T è più efficiente di T′ se MSE(T)<MSE(T′). In particolare, se T e T′ sono entrambi corretti per θ, allora T è più efficiente di T′ se ha una varianza inferiore rispetto a T′. Per es., dato un campione di n>1 osservazioni, tra i due s. T=X̄ e T′=Xi (1≤i≤n arbitrario), entrambi non distorti per la media della popolazione, è più efficiente il primo poiché Var(T)=σ2/n<σ2=Var(T′), dove σ2=Var(Xi). Quando si parla di proprietà asintotiche di uno s., si fa in genere riferimento alla consistenza, alla normalità, alla correttezza e all’efficienza asintotiche. ● Uno s. si dice consistente per un parametro θ se converge a θ in un appropriato senso probabilistico. Questo accade, per es., se lo s. è corretto e la sua precisione cresce all’aumentare della numerosità campionaria. ● Uno s. si dice asintoticamente normale se la sua distribuzione campionaria è ben approssimata in grandi campioni da una distribuzione gaussiana con varianza finita e non nulla. Tale distribuzione è detta la distribuzione asintotica dello s., e la sua varianza è detta la varianza asintotica dello stimatore. ● Uno s. asintoticamente normale si dice asintoticamente corretto per un parametro θ se la sua distribuzione asintotica ha media uguale a θ. ● Uno s. asintoticamente normale si dice asintoticamente efficiente in una certa classe di s. se è asintoticamente corretto e la sua varianza asintotica è uguale o inferiore a quella di qualunque altro s. nella stessa classe. ● Un’ulteriore proprietà che viene a volte richiesta a uno s. è la robustezza (➔ robustezza statistica), cioè la proprietà che la sua distribuzione campionaria cambi poco a fronte di piccole perturbazioni del modello statistico considerato (➔ modello statistico).