predittore
Una statistica, cioè una funzione dei dati, definita allo scopo di effettuare previsioni su una o più variabili. Dovendo predire un fenomeno rappresentato da una variabile aleatoria Y, la scelta di un p. si basa tipicamente su un criterio di ottimalità, che spesso corrisponde alla minimizzazione della perdita attesa associata all’uso del p. stesso. Sotto condizioni generali, tale perdita può infatti essere misurata da una funzione non-negativa, detta funzione di perdita (➔ perdita, funzione di), che è nulla se il valore predetto ŷ è esattamente uguale alla realizzazione y di Y, cioè se l’errore di predizione è nullo, ed è non-negativa altrimenti.
Esempi di funzioni di perdita sono la funzione quadratica l(y, ŷ)=(y−ŷ)2, la funzione di perdita assoluta l(y, ŷ)=∣y−ŷ∣2 e la funzione di perdita costante l(y, ŷ)=0 se ŷ=y, l(y, ŷ)=c>0 se ŷ≠y. Poiché l’errore di predizione dipende, oltre che dal valore predetto ŷ, dalla variabile aleatoria Y, è essa stessa una variabile aleatoria (➔ variabile aleatoria). Per questo motivo, per ottenere il p. ottimale si considera di solito una caratteristica della distribuzione della perdita, tipicamente il suo valore medio r(ŷ)=E(l(Y,ŷ)), detto anche rischio del predittore. A funzioni di perdita diverse sono in genere associati p. diversi. Per es., se si sceglie la funzione di perdita quadratica, il p. ottimale minimizza r(ŷ)=E(l(Y,ŷ)) ed è uguale a ŷ=μY, essendo E(Y−ŷ)2=Var(Y)+E(μY−ŷ)2. Le proprietà matematiche della media e la sua facile interpretazione in termini intuitivi sono uno dei punti forti della perdita quadratica, che è in assoluto tra le più usate. Un’alternativa è la funzione di perdita assoluta, a cui corrisponde come p. ottimale ŷ=med(Y), la mediana di Y (➔ mediana). La perdita assoluta penalizza valori elevati dell’errore in maniera proporzionale: se raddoppia la distanza tra ŷ e y, anche questa raddoppia. La penalizzazione è invece più che proporzionale nel caso dell’uso della funzione quadratica. Il valore del rischio ottenuto è r(μY)=σ2γ nel primo caso e EY−med(Y)∣ nel secondo. Per ridurre il rischio di predizione, si possono considerare p. che sfruttano l’insieme di informazioni disponibili, in genere rappresentate da un vettore X di variabili aleatorie. Queste possono comprendere, nel caso di una serie storica, anche valori passati della variabile Y. Per ciascun valore x di X, la minimizzazione della perdita attesa, r(ŷ)=E(l(Y, ŷ)) definisce il valore del p. ŷ=h(x). Così, se si considera la perdita quadratica l(y,h(x))=(h(x)−y)2, il p. ottimale è la media condizionata h(x)=E(Y∣X=x) (➔ media), il cui rischio è uguale alla varianza condizionata di Y dato X=x, σ2(x). Se si considera, invece, la perdita assoluta, il p. ottimale è la mediana condizionata med(Y∣X=x). L’obiettivo di una predizione basata sull’uso di un insieme di variabili X è in genere quello di determinare, più che un singolo valore h(x), la regola che a un qualunque vettore x associa il p. ottimale corrispondente h(x). Per es., nel caso della perdita quadratica, il p. ottimale è la variabile aleatoria h(X)=E(Y∣X) e il rischio a essa associato è E(σ2(X)). Un caso particolare si ha quando h(x) è una funzione lineare del tipo h(x)=α+βx. In tal caso la soluzione del problema di minimo rispetto a α e β definisce il miglior p. lineare di Y.
In pratica, un p. dipende dalla distribuzione di probabilità di Y o dalla sua distribuzione condizionata a X (➔ distribuzione di probabilità). Pertanto, se questa non è nota, è necessario stimarla. Per farlo si usa generalmente un campione casuale di osservazioni dalla variabile Y (o dalla distribuzione di Y e X). Per es., nel caso della perdita quadratica, il p. ottimale μ può essere stimato con la media campionaria, mentre la stima del predittore ottimale h(x) dipende dallo stimatore scelto per la media condizionata E(Y∣X=x). In un contesto di dati seriali, in cui l’informazione disponibile è costituita da una porzione finita di una serie storica {Yt}(➔ serie storiche), si può per es. predire il valore della variabile Y al tempo T+1 tramite una funzione dei valori passati yT−1, yT−2,.... In particolare, il modello autoregressivo di ordine 1 (➔ autoregressivo, modello) assume che tutta l’informazione necessaria per predire il valore di Y al tempo T sia contenuta nel valore di Y al tempo T−1, cioè il p. è della forma h(yT−1,yT−2,...)=α+β1yT−1, dove α e β sono stimati usando i dati disponibili. Oltre a un valore puntuale, è spesso utile avere un intervallo di confidenza per la previsione, cioè un intervallo di valori che, con elevata probabilità, racchiuda il valore da predire. Per la costruzione di tale intervallo, è necessario tenere conto del fatto che l’incertezza derivante dalla previsione dipende simultaneamente da due fattori: dalla variabilità indotta dall’aleatorietà della variabile Y, che si intende predire, e dalla variabilità delle osservazioni campionarie, che determinano il valore del p. ottimale.