Teoria degli errori e fondamenti di statistica/12.2.3

Da Wikisource.
12.2.3 Test di omogeneità per dati raggruppati

../12.2.2 ../12.2.4 IncludiIntestazione 2 settembre 2022 100% Da definire

12.2.2 12.2.4

[p. 210 modifica]

12.2.3 Test di omogeneità per dati raggruppati

Supponiamo di avere a disposizione campioni di dati, indipendenti l’uno dall’altro e composti da elementi rispettivamente; e, all’interno di ognuno di tali campioni, i dati siano suddivisi nei medesimi gruppi: indichiamo infine col simbolo il numero di dati appartenenti al gruppo -esimo all’interno del campione -esimo.

Per fare un esempio, i campioni si potrebbero riferire alle regioni italiane e i gruppi al livello di istruzione (licenza elementare, media, superiore, laurea): così che i rappresentino il numero di persone, per ogni livello di istruzione, residenti in ogni data regione; oppure (e questo è un caso che si presenta frequentemente nelle analisi fisiche) si abbiano vari istogrammi all’interno di ognuno dei quali i dati siano stati raggruppati secondo le medesime classi di frequenza: allora i saranno il numero di osservazioni che cadono in una determinata classe in ogni istogramma.

Il problema che ci poniamo è quello di verificare l’ipotesi che tutti i campioni provengano dalla stessa popolazione e siano perciò compatibili tra loro (test di omogeneità). Indichiamo con il simbolo il numero totale di dati a disposizione; e con (con ) il numero totale di dati che cadono nell’-esimo gruppo in tutti i campioni a disposizione.


Tabella 12.1 - Un esempio delle cosiddette tabelle delle contingenze.


Campioni
Gruppi

È consuetudine che dati di questo genere siano rappresentati in una tabella del tipo della 12.1, che si chiama tabella delle contingenze; e risulta [p. 211 modifica]ovviamente

;
;
.

Vogliamo ora dimostrare che la variabile casuale

(12.14)

è distribuita come il a gradi di libertà: a questo scopo supponiamo innanzi tutto sia valida l’ipotesi che i dati provengano tutti dalla medesima popolazione, ed indichiamo con i simboli e le probabilità che un componente di tale popolazione scelto a caso cada rispettivamente nel gruppo -esimo o nel campione -esimo; e sappiamo inoltre che (ammessa però vera l’ipotesi che tutti i campioni provengano dalla stessa distribuzione) questi due eventi sono statisticamente indipendenti: per cui ognuno dei dati ha probabilità complessiva di cadere in una delle caselle della tabella delle contingenze.

Possiamo stimare i valori a partire dai dati sperimentali: si tratta in realtà solo di stime indipendenti, perché, una volta ricavate le prime probabilità, l’ultima di esse risulterà univocamente determinata dalla condizione che la somma complessiva valga 1. Analogamente possiamo anche stimare i valori dai dati sperimentali, e si tratterà in questo caso di effettuare stime indipendenti.

Le stime di cui abbiamo parlato sono ovviamente

e (12.15)

e, applicando le conclusioni del paragrafo precedente (l’equazione (12.9)), la [p. 212 modifica]variabile

deve essere distribuita come il .

Sostituendo in quest’ultima espressione i valori (12.15) per e , essa si riduce alla (12.14); il numero di gradi di libertà è pari al numero di contributi sperimentali indipendenti, (c’è il vincolo che la somma totale sia ), diminuito del numero di parametri stimato sulla base dei dati: ovverosia proprio come anticipato.