statistica (trasformazione di dati)
statistica (trasformazione di dati) Particolare modifica dei dati. Partendo da un qualunque campione statistico (X1,...,Xn), si indichi con T=T(X1,...,Xn) tale trasformazione. Un esempio di s. è la media campionaria X̄=n−1Σni=1Xn. Una s.T è detta stimatore (➔) se il suo scopo è quello di fornire una stima puntuale di un parametro (➔) o di un insieme di parametri di interesse. Una s. T è invece detta s. test se è utilizzata per la verifica di un’ipotesi s. (➔ ipotesi statistica). Così, la media campionaria è uno stimatore della media della popolazione μ, mentre la s. test √2n(X̄−μ0) può essere usata per verificare l’ipotesi che μ=μ0. Essendo un’arbitraria trasformazione del campione, una s. T può essere un numero, un vettore, o addirittura una funzione. Per es., dato un particolare campione (x1,...,x10)=(2,3,5,4,2,2,3,3,4,2), si ottiene il numero T(x1,...,x10)=3 se la s. è la media campionaria, T(X1,...,Xn)=X̄. Se invece la s. è la coppia T(X1,...,Xn)=(X̄,Σi(Xi−X̄)2/n) si ha, per lo stesso campione, il vettore T(x1,...,x10)=(3,1). Infine, la funzione di ripartizione empirica (➔ distribuzione empirica) è una statistica che a ogni campione di n osservazioni associa una funzione ‘a gradini’, come rappresentato in figura. Una s. T, in quanto funzione del campione X=(X1,...,Xn), è essa stessa una variabile aleatoria (➔), un vettore (come per es. la s.T(X)=(X̄,Σi(Xi−X̄)2/n), o un processo aleatorio (➔), a seconda della natura di T.
Dato un modello parametrico (➔ modello statistico) per la distribuzione dei dati X, nell’ambito del problema di stima puntuale del parametro θ (anche vettoriale) che indicizza il modello parametrico, si dice che una s. T(X) è sufficiente per θ se T racchiude tutta l’informazione contenuta nel campione circa il parametro oggetto di interesse. Formalmente, T è sufficiente per θ, se la funzione di verosimiglianza (➔ verosimiglianza) associata al modello può essere scomposta come L(θ;X)=g(T(X);θ)h(X), e quindi dipende dal parametro θ soltanto attraverso il termine g(T(X);θ). Intuitivamente, quando T(X) è nota, i dati non contengono informazione aggiuntiva circa θ.
Sono chiamate statistiche d’ordine associate al campione (X1,...,Xn), e sono indicate con (X(1),…,X(n)), le n osservazioni campionarie ordinate in modo crescente, cioè tali che X(1)≤X(2)≤...≤X(n). Si chiama rango di un elemento Xi di un campione non ordinato la sua posizione nel vettore delle statistiche ordinate. Così, se Xi=X(1), allora il rango ri=r(Xi)=1, se Xi=X(2) allora ri=2 e così via. Si può dire, in modo equivalente, che ogni Xi è l’analogo campionario dei quantili (➔ quantile) di ordine ri/n, dove ri/n è chiamato rango percentuale, oppure che le statistiche d’ordine sono l’analogo campionario dei quantili di ordine j/n, j=1,...,n.