BIOMETRIA (VII, p. 52)
Cenni di storia e fondamenti metodologici. - Le origini. - La parola fu impiegata per la prima volta da K. Pearson (1857-1936) nel primo numero di Biometrika, la rivista nata a Londra nel 1901, che per prima pose il problema di un'elaborazione quantitativa dei dati biologici e che si pubblica tuttora. L'origine della b. quale disciplina autonoma è tuttavia da considerarsi anteriore e si suole ricondurre ai contributi fondamentali della scuola inglese genetico-statistica, da F. Galton (1822-1911) fino a R. A. Fisher (1890-1962).
Un problema ricorrente che ha preoccupato Galton fin dal 1877 e che si trova poi coerentemente espresso nel suo saggio Natural Inheritance del 1889, è stato quello delle relazioni statistiche tra i caratteri fisici facilmente misurabili quali per esempio la statura, in genitori e figli. Supponendo la concorrenza di una componente ereditaria e di una distribuzione di probabilità gaussiana (o normale) del fenomeno statura, Galton giunse alle seguenti conclusioni: a) esiste una "regressione" dalla statura dei genitori a quella dei loro figli che è lineare, cioè le due serie di misure della statura in genitori e figli sono funzioni lineari una dell'altra (di qui il nome regressione dato al capitolo della b. che tratta problemi di questo tipo); b) la statura di genitori e figli si distribuisce secondo una distribuzione di probabilità caratteristica (distribuzione binormale); c) più generalmente ogni distribuzione binormale può essere caratterizzata da un parametro r, detto coefficiente di correlazione, che misura il grado di associazione di due variabili in modo indipendente dal numero delle osservazioni. Senza seguire le conseguenze di ordine genetico ed evolutivo che Galton intendeva (erroneamente) trarre dai suoi risultati, è importante riconoscere nel suo metodo di lavoro quello che sta alla base di ogni indagine di biometria. Più precisamente la b. "è l'applicazione alla biologia dei metodi statistici" (Biometrika, 1901), e come tale rivolge il suo studio alle popolazioni d'individui che non piuttosto agl'individui stessi. Anche Pearson, che come si è detto è stato il primo a divulgare il termine b. associandolo a una rivista, dedicò i suoi sforzi maggiori di matematico come Galton alla "teoria matematica dell'evoluzione", pubblicando dal 1894 al 1905 ben 96 lavori sull'argomento. La b. viene così intesa riduttivamente come la scienza che studia l'ereditarietà e l'evoluzione con procedimenti statistici.
A monte della produzione scientifica di Pearson, sta la sua concezione social-darwinista dell'ordine sociale, secondo la quale il socialismo avrebbe dovuto essere la forma sociale di organizzazione di massimo valore "adattativo" (fitness), in una società meritocratica e collettivista, strutturata per la massima efficienza nazionale nel quadro di una competizione internazionale. Una visione di questo tipo - ancorata al problema dell'ereditarietà dei caratteri "migliori" quale problema cruciale della b. - si è traslata scientificamente nei problemi generali della correlazione e dell'adattamento (fitting) di curve teoriche a dati sperimentali, punti di forza, e nello stesso tempo di debolezza, della scuola pearsoniana; una scuola che alla b. ha portato i contributi importanti di una sistemazione rigorosa del concetto di correlazione e della sua misura, e un indice - la distribuzione del χ2 - assai utile per giudicare la "bontà dell'adattamento" (goodness offit) di un istogramma sperimentale a una curva di probabilità teorica. Alla genetica ha lasciato una polemica di cui ancor oggi non si son perse le tracce, e che precedentemente alla prima guerra mondiale ha visto contrapposti i "biometri" di scuola pearsoniana ai seguaci del riscoperto Mendel. Ai primi, darwiniani di stretta osservanza che leggevano l'evoluzione quale un processo di graduale cambiamento di intere popolazioni mediante la selezione di caratteri che cambiano di generazione in generazione in modo continuo, i secondi opponevano la riscoperta delle leggi di Mendel, per le quali l'unità del processo evolutivo è la variazione discontinua, di tipo sì o no, dei caratteri elementari. L'esattezza della posizione mendeliana fa parte della storia della genetica e non della b., ma è interessante sottolineare come la soluzione della disputa sta in una memoria oggi famosa (On the correlation between relatives on the supposition of Mendelian inheritance) presentata alla Royal Society nel 1916 da uno dei maggiori genetisti e certo il più grande biometra del nostro secolo, R. A. Fisher (1890-1962). Lo studio dell'evoluzione biologica delle popolazioni e i fondamenti teorici della b. convergono ancora nella sua opera, per poi assumere posizioni autonome, rivendicando spazi scientifici diversi. I fondamenti metodologici della b. moderna si collocano in modo definitivo nella storia scientifica di quest'uomo dal carattere difficile e a modo suo generoso, spesso intollerante nelle controversie scientifiche e tendenzialmente conservatore negli atteggiamenti politici.
I tests d'inferenza. - Una parte rilevante dei contributi che Fisher ha portato alla metodologia statistica è rivolta a coprire un aspetto particolarmente lacunoso nell'edificio statistico di Pearson e della sua scuola. Si tratta di un problema di notevole rilevanza pratica: come si devono distribuire i vari tests d'inferenza statistica nel caso di campioni di piccole dimensioni?
La soluzione esatta per il test di significatività della media per un campione di piccole dimensioni tratto da una popolazione con distribuzione normale, è stata trovata da W. S. Gosset (che si firmava con lo pseudonimo di "Student") già nel 1908, ma fu merito di Fisher averla portata a conoscenza di una più vasta comunità scientifica nel 1925 con una trattazione più rigorosa. In sintesi, la statistica:
(dove ù, s, n, sono rispettivamente la media, la deviazione standard, il numero di individui del campione, e μ è la media della popolazione distribuita normalmente da cui il campione è tratto) è una misura in unità standardizzate della differenza tra media osservata di un campione e media teorica di una popolazione, e l'aver trovato la distribuzione esatta della sua densità di probabilità:
ha significato poter inferire con quale probabilità un campione di piccole dimensioni (n è arbitrario) può considerare nulla tale differenza.
Già nel 1875 F. R. Helmert notò che, definite xi (i = 1, 2, ..., n) n variabili indipendenti distribuite normalmente attorno a una media comune zero e con varianza σi, la quantità
ha una distribuzione di probabilità data da:
che esprime la probabilità che il valore x2 calcolato da un campione di n misure cada nell'intervallo dx2. Γ (..) è la funzione Gamma.
La distribuzione (3) detta comunemente del "chi-quadrato" (χ2) dipende solo dal numero di osservazioni indipendenti n e fu riscoperta da Pearson nel 1900, che la utilizzò per saggiare la bontà dell'adattamento di una distribuzione di frequenze sperimentali a una distribuzione di frequenze teoriche.
Supponendo ora che gli n valori xi siano estratti casualmente da una sola popolazione normale di varianza σ2, si può dimostrare che la quantità:
è distribuita come un χ2 costituito non da n ma da n − 1 osservazioni indipendenti (o con linguaggio più tecnico, gradi di libertà).
L'intuizione geniale di Fisher è stata quella di utilizzare la distribuzione della quantità (4) per inferire con quale probabilità due campioni di piccole dimensioni con varianza s²1 e s²2 possono considerarsi estratti da una stessa popolazione con varianza σ2, e l'aver posto tale test d'inferenza a base di una tecnica statistica molto usata in b., che va sotto il nome di "analisi della varianza". Il concetto associato a tale tecnica è che se una popolazione è omogenea rispetto a un determinato fattore di classificazione, cioè il fattore non influisce sulla suddivisione in classi, allora le differenti classi avranno proprietà statistiche comuni, per esempio media e varianza uguali, e ogni campione risulterà omogeneo rispetto alle classi quale la popolazione da cui è estratto. Poiché la suddivisione in classi rispetto a qualsiasi criterio può ricondursi alla valutazione di un'espressione del tipo (4) dove σ2 è la varianza della popolazione da cui il campione è tratto ed n varia a seconda della suddivisione adottata, il problema è ricondotto a quello di confrontare più espressioni del tipo (4) e riconoscere con quale probabilità un criterio di classificazione ponga in evidenza una disomogeneità del campione nei confronti della popolazione da cui è tratto. Tale riconoscimento può effettuarsi mediante il rapporto tra coppie di varianze. Siano s²1 e s²2 due varianze stimate da due campioni di dimensioni nI e n2, e2 stratti da una popolazione con varianza o2. Tenendo presente la (4) possiamo scrivere il rapporto:
dove ν1 = n1 − 1 e ν2 = n2 − 1 sono i gradi di libertà dei due campioni. La distribuzione di probabilità della (5) fu descritta da Fisher nel 1924, impiegando la trasformazione
ed è data dalla formula:
La distribuzione z precedente riassume tutti i tests d'inferenza esaminati ed è perciò del massimo interesse. Infatti se ν1 (o ν2) è infinito si ottiene la distribuzione del x2. Se ν1 (o ν2) è uguale all'unità si ottiene la distribuzione di Student t2. Se ν1 = 1 e ν2 = ∞ (o viceversa) si ottiene la distribuzione normale. Infine se ν1 = n − 1, ν2 = n, la distribuzione del coefficiente di correlazione r, calcolato da campioni di n individui, si ottiene mediante la trasformazione:
I quattro casi particolari della distribuzione z e le loro corrispondenti applicazioni coprono la maggior parte dei tests d'inferenza usati in pratica, come si può osservare dalla tabella riassuntiva.
Il problema della stima dei parametri. - Il criterio fondamentale che caratterizza il problema della stima può essere così formulato: la statistica (di un campione) impiegata per stimare il corrispondente parametro (della popolazione), deve coincidere con il valore del parametro, quando viene applicata alla popolazione. Tale criterio di estendibilità è chiamato "consistenza" della stima ed è in genere soddisfatto nella costruzione stessa della statistica. Il passo decisivo nello sviluppo della teoria della stima fu compiuto ancora da Fisher nel 1920 con la scoperta della proprietà della "sufficienza" di una stima: si dice che una statistica (per es. una media, una varianza, ecc.) calcolata da un campione è sufficiente, quando essa racchiude tutta l'informazione che il campione può fornire sul corrispondente parametro incognito della popolazione. Si può dimostrare che se una statistica è sufficiente, essa è anche efficiente, il che significa che quando è calcolata su campioni di grandi dimensioni, tende a comportarsi come una distribuzione normale e ha la minima varianza possibile. Il criterio della sufficienza di per sé non aiuta a risolvere il problema della stima. Infatti in primo luogo è necessario conoscere la statistica e la sua distribuzione, poi conoscerne infinite altre, e infine dal confronto con la prima, valutarne la sufficienza. Il metodo della massima verosimiglianza, proposto da Fisher nel 1922 conduce a una stima che è sufficiente (se ne esiste una), e in ogni caso efficiente. In breve, se la probabilità che l'osservazione x cada nell'intervallo dx si scrive f (x, θ) in cui θ è il parametro da stimare, e se si definisce la funzione di verosimiglianza:
dove S indica la somma su tutte le osservazioni del campione, il valore più probabile di θ, ϑ???, si ottiene risolvendo l'equazione:
e tale si assume come stima del parametro. La varianza della stima è data dall'espressione:
e quando è calcolabile, è la minima possibile.
Il metodo, nella sua semplicità e nella sua generalità, rappresenta uno dei contributi più rilevanti della metodologia statistica alle scienze applicate. Per quel che attiene alla b., il campo della genetica è forse quello che ne ha tratto le applicazioni più numerose: si pensi alle stime delle frequenze geniche, dei parametri che caratterizzano la ricombinazione e la segregazione dei caratteri nelle famiglie, ecc. Si noti infine che il metodo dei minimi quadrati di Gauss costituisce un caso particolare del metodo della massima verosimiglianza.
Il disegno sperimentale e la risposta biologica. - Non vi è forse modo migliore di accennare a questo importante capitolo della b., che con le parole ormai famose scritte da Fisher nel suo libro sull'argomento: "Una gentildonna asserisce che sorseggiando una tazza di tè con il latte, è in grado di riconoscere se è stata l'infusione di tè o il latte a essere versata per prima. Considereremo il problema di disegnare un esperimento con il quale verificare la verità o meno di questa asserzione". L'uso delle tecniche statistiche è rivolto alla progettazione ottimale di un esperimento al fine di saggiare un'ipotesi o verificare l'efficacia di una risposta. Si consideri l'esempio seguente: si vuole saggiare l'effetto di diversi campioni d'insulina sul contenuto di zucchero nel sangue di un animale. Si chiamino "trattamenti" le diverse dosi d'insulina, "blocchi" gruppi diversi di animali classificati secondo criteri di omogeneità da stabilire di volta in volta, "repliche" il numero di animali entro ciascun blocco, e "risposte" i vari contenuti di zucchero per ogni individuo saggiato. "Disegnare" l'esperimento significa in questo esempio: a) assegnare, in modo che ne garantisca la casualità (nel numero, nell'ordine, nell'allocazione), ciascun trattamento a ciascun individuo entro ciascun blocco; b) valutare l'errore di campionamento e discriminare le eventuali fonti di variazione associate alla suddivisione in blocchi e alla ripartizione in trattamenti (chiamati anche "fattori", da cui il nome di disegni "fattoriali"). Le tecniche statistiche usate sono essenzialmente tre: l'analisi della varianza, l'analisi della regressione - già menzionate - e quella della covarianza, che è un'analisi combinata e simultanea delle prime due. Lo stesso esperimento di cui sopra si usa più precisamente definire "saggio biologico", se l'interesse del disegno sperimentale non è tanto quello di valutare gli effetti di dosi diverse d'insulina sulla risposta livello di zucchero nel sangue: ma quello di usare la distribuzione congiunta dose-risposta per valutare la potenza e l'efficacia della dose d'insulina rispetto a una scala standard. La metodologia impiegata coincide con quella del disegno sperimentale, ma l'accento che in quest'ultimo è soprattutto rivolto ai tests d'inferenza viene spostato sul problema della stima. Il problema del saggio biologico è soprattutto quello di stimare dei parametri che descrivano correttamente l'efficacia di un preparato biologico rispetto a un preparato standard. Per maggiori dettagli si consulti il classico trattato di D. J. Finney, che insieme con Bliss, Burn, Irwin, Gaddum e molti altri in tempi più recenti, ha contribuito in modo determinante allo sviluppo di questo capitolo della biometria.
La biometria negli anni Settanta. - La metodologia statistica che la b. ha fatto propria al principio del secolo, e di cui s'è detto in precedenza, è improntata fondamentalmente alla scuola di Fisher, per il quale ogni problema statistico si riconduceva in sostanza a una distribuzione di campionamento e al corrispondente test d'inferenza. Un approccio di questo tipo, sebbene di grande importanza per il suo ruolo di sintesi, è andato ridimensionandosi nel decennio 1960-70, per orientarsi a un uso più articolato degli strumenti statistici e matematici. Da una parte la rivoluzione tecnologica degli elaboratori elettronici ha aperto la strada a tutto uno spettro di analisi impensabili prima degli anni Cinquanta. Dall'altra, l'attenzione rivolta sempre più alla struttura dei dati e sempre meno alla possibilità (fondata per altro su assunzioni spesso non verificabili) di provarne la significatività statistica; hanno portato allo sviluppo di algoritmi matematici e numerici che potremmo definire "indicatori" di sintesi e di struttura, piuttosto che "statistiche" nel senso classico del termine. Un capitolo della b. cui l'avvento dell'elaboratore elettronico ha dato l'impulso più avvertibile, si colloca sotto il nome di "analisi multivariata". Una caratteristica propria dei fenomeni biologici è che essi coinvolgono molte variabili e molti individui. Tale complessità può essere "filtrata" mediante l'uso di tecniche di elaborazione statistica che si prefiggono vari scopi:
1) Semplificare la struttura dei dati. Si tratta di esaminare se, con un'opportuna trasformazione delle variabili, la rappresentazione dei dati diventa più trasparente. La tecnica usata è usualmente l'analisi delle componenti principali: costituisce l'elaborazione preliminare per individuare le variabili più informative e quelle ridondanti.
2) Individuare, là dove possibile, una classificazione degl'individui. Il problema è quello d'identificare eventuali gruppi d'individui tali che la variabilità per più caratteri all'interno di un gruppo sia minore di quella tra gruppi. Se la discriminazione tra i gruppi d'individui può essere assegnata secondo un criterio esterno ai dati, la tecnica usata è l'analisi discriminante. Diversamente possono essere applicati tutta una serie di algoritmi che si collocano sotto il nome di "analisi dei clusters". Sono usati sopratutto in tassonomia, quella parte della b. - ormai disciplina autonoma - che si occupa della classificazione delle specie animali e vegetali.
3) Raggruppare le variabili. Si tratta dello stesso problema della classificazione applicato alle variabili e non agl'individui. Oltre all'analisi dei clusters e a quelle delle componenti principali, si usa spesso l'analisi dei fattori, il cui spirito è quello d'imporre un numero prefissato di variabili - minore di quello reale - e analizzare il valore di sintesi di ognuna di queste variabili prefissate rispetto a quelle originali.
4) Analizzare l'interdipendenza delle variabili. La tecnica usata consiste in un'estensione a più variabili della misura di correlazione e prende il nome di "analisi delle correlazioni canoniche".
5) Analizzare la dipendenza di una o più variabili dalle rimanenti. Si usa lo strumento della regressione multipla, nella sua varietà di modelli a seconda dei legami di dipendenza ipotizzati.
Le tecniche statistiche sommariamente passate in rassegna non esauriscono la fioritura di modelli matematici offerti oggi alla biologia: si pensi, a titolo di esempio, all'importanza del modello matematico e statistico nell'ambito di una disciplina relativamente recente, quale l'ecologia. Ma vi sono almeno tre atteggiamenti di pensiero che la b. sta in questi anni elaborando e offrendo all'attenzione degli statici e dei matematici per ulteriori occasioni di lavoro comune:
a) La ricerca di statistiche robuste, qualificando con questo aggettivo le statistiche che non siano sensibili a valori aberranti dei dati e non presuppongano la normalità della loro distribuzione, oggi più che ieri essendo disposti a pagare il prezzo di non saper costruire un test d'inferenza, per ottenere in cambio indicatori di posizione e di variabilità distributionfree.
b) L'attenzione devoluta all'analisi dei dati qualitativi (quelli cioè con risposta del tipo sì-no) e alla formulazione di modelli multidimensionali corrispondenti.
c) La rivalutazione dell'ausilio statistico quale strumento per esplorare i dati.
È forse quest'ultimo orientamento quello che avrà implicazioni più profonde nell'ambito della biometria. Come in altre discipline che coinvolgono l'uomo e la sua evoluzione - si pensi per es. alla linguistica, alla geografia umana, all'etologia, all'antropologia, alla genetica di popolazioni umane, alla psicologia, ecc. - quello che interessa capire è la struttura dei fenomeni, la loro interrelazione globale più che i loro valori puntuali. Anche la b., che ha trovato la sua ragione scientifica nel passaggio dall'esame dell'individuo all'esame del gruppo d'individui, dovrà prima o poi affrontare il problema di creare operatori di sintesi più potenti rivolti a incatenare strutture di relazioni, ancor più che a saggiare uguaglianze di medie e omogeneità di varianze.
Bibl.: F. R. Helmert, Über die Berechnung des wahrscheinlichen Fehlers aus einer endlichen Anzahl warher Beobachtungsfehler, in Zeit. für Math. und Physik, 1875, 20, pp. 300-03; F. Galton, Natural inheritance, Londra 1889; K. Pearson, Mathematical contributions to the theory of evolution. III. Regression, heredity and panmixia, in Phil. Trans. Roy. Soc., 1896, 187A, pp. 253-318; id., On the criterion that a given system of deviations from the probable, in the case of a correlated system of variables, is such that is can be reasonably supposed to have arisen from random sampling, in Phil. Mag., 1900, 50, pp. 157-75; id., Mathematical contributions to the theory of evolution. XII. On a generalized theory of alternative inheritance, with special reference to Mendel's law, in Phil. Trans. Roy. Soc., 1904, 203, pp. 53-86; Student [W. S. Gosset], The probable error of a mean, in Biometrika, 1908, 6, pp. 1-25; R. A. Fisher, On the correlation between relatives on the supposition of Mendelian inheritance, in Trans. Roy. Soc. Edinburgh, 1918, 52, pp. 399-433; id., A mathematical examination of the methods of determining the accuracy of an observation by the mean error, and by the mean square error, in Mon. Not. Roy. Ast. Soc., 1920, 80, pp. 758-70; id., On the mathematical foundations of theoretical statistics, in Phil. Trans., 1922, A22, pp. 309-68; id., A distribution yielding the error functions of several well known statistics in Proc. Int. Cong. Math. Toronto, 1924, 2, pp. 805-13; id., Applications of "Student's" distribution, in Metron, 1925, 5, pp. 80-104; id., The designs of experiments, Edimburgo 1935; K. Mather, Statistical analysis in biology, Londra 1943 (trad. it. Torino 1974); A. J. Lotka, Elements of mathematical biology, New York 1956; W. G. Cochran, G. H. Cox, Experimental designs, ivi 1957; H. Scheffé, The analysis of variance, ivi 19659; D. J. Finney, Statistical methods in biological assay, Londra 1964; C. I., Bliss, Statistics in biology, New York 1967; C. Chiang, Introduction to stochastic processes in biostatistics, ivi 1968; C. R. Rao, advanced statistical methods in biometric research, ivi 1969; R. R. Sokal, F. J. Rohlf, Biometry: the principles and practice of statistics in biological research, San Francisco 1969; J. Tukey, Exploratory data analysis (limited preliminary edition), Wesley, Reading, 1970; P. Armitage, Statistical methods in medical research, New York 1971 (trad. it. Milano 1975); S. J. Press, Applied multivariate analysis, New York 1972; M. G. Kendall, A. Stuart, The advanced theory of statistics, 3 voll., Londra 1973; P. H. A. Sneath, R. R. Sokal, Numerical Taxonomy, San Francisco 1973; Y. M. M. Bishop, P. W. Holland, G. Fienberg, Discrete multivariate analysis: theory and practice, Cambridge (SUA) 1975; J. A. Hartigan, Clustering algorithms, New York 1975; S. I. Rubinow, Introduction to mathematical biology, ivi 1975.