cluster analysis
Tecnica di analisi multivariata che consente di raggruppare gli elementi statistici in modo tale da minimizzare la distanza interna a ciascun gruppo e massimizzare quella tra gruppi. Con analisi multivariata si intende l’insieme delle tecniche usate nello studio della variazione simultanea di due o più variabili. L’analisi di un sistema di dati può essere condotta valutando la covariazione tra gruppi (per oggetti appartenenti a più di una popolazione) oppure entro gruppi (per oggetti appartenenti a un’unica popolazione). Le tecniche usate nel primo caso mettono in evidenza un’eventuale disomogeneità dei campioni, determinando se i vettori medi delle popolazioni siano o meno uguali (MANOVA, Multivariate analysis of variance), oppure trovando combinazioni lineari delle variabili che massimizzino le differenze tra gruppi preesistenti (analisi discriminante). I metodi che consentono invece di raggruppare gli oggetti a seconda del grado di somiglianza che essi presentano vanno generalmente sotto il nome di analisi dei cluster (cluster analysis) e hanno come scopo principale la risoluzione di una raccolta eterogenea e unica di oggetti in una serie di suddivisioni omogenee al loro interno. Per classificare per es. gli organismi viventi si possono dapprima identificare dei sottogruppi tra loro omogenei (cluster) e poi sistemarli in una struttura gerarchica che evidenzi le somiglianze e le differenze esistenti tra essi. Così facendo si potrebbe arrivare a tracciare l’evoluzione di differenti specie o sottospecie. In linea di principio è anche possibile costruire una funzione che sia in grado di differenziare al massimo i diversi gruppi e rendere quindi possibile l’attribuzione di un individuo al proprio gruppo specifico con il minimo errore. Se gli oggetti da esaminare sono tratti da un’unica popolazione, occorre anzitutto semplificare la struttura dei dati. Così, mentre la cluster analysis tende a raggruppare quelle variabili che sono altamente correlate, vi sono altre tecniche che consentono di risolvere le correlazioni tra variabili nelle loro cause determinanti (analisi dei fattori), oppure che puntano a rappresentare la variabilità del campione, riducendo il numero di variabili coinvolte a quelle maggiormente informative (analisi delle componenti principali). La disponibilità di calcolatori elettronici sempre più potenti ha incentivato il ricorso ai metodi propri dell’analisi multivariata da parte di molte discipline sperimentali, prima tra tutte la biologia.