Teoria degli errori e fondamenti di statistica/12.2.1

Questo testo è stato riletto e controllato.

Maurizio Loreti - Teoria degli errori e fondamenti di statistica (2006)

12.2.1 Compatibilità dei dati con una distribuzione

Informazioni sulla fonte del testo

◄

12.2

12.2.2

►

[p. 203 modifica]

12.2.1 Compatibilità dei dati con una distribuzione

Supponiamo di avere dei dati raccolti in un istogramma, e di voler verificare l’ipotesi che i dati provengano da una certa distribuzione; ad esempio, dalla distribuzione normale. Ora, per una misura, la probabilità $p_{i}$ di cadere nell’intervallo i-esimo (di ampiezza prefissata $\Delta x$ e corrispondente alla generica classe di frequenza usata per la realizzazione dell’istogramma) è data dal valore medio della funzione densità di probabilità nell’intervallo stesso moltiplicato per $\Delta x$ .

Il numero di misure effettivamente ottenute in una classe di frequenza su N prove deve obbedire poi alla distribuzione binomiale: il loro valore medio è quindi $N\,p_{i}$ , e la loro varianza $N\,p_{i}(1-p_{i})$ ; quest’ultimo termine si può approssimare ancora con $N\,p_{i}$ se si ammette che le classi di frequenza siano sufficientemente ristrette da poter trascurare i termini in $p_{i}^{2}$ rispetto a quelli in $p_{i}$ (cioè se $p_{i}\ll 1$ ).

In questo caso il numero di misure in ciascuna classe segue approssimativamente la distribuzione di Poisson; questa è infatti la funzione di frequenza che governa il presentarsi, su un grande numero di osservazioni, di eventi aventi probabilità trascurabile di verificarsi singolarmente in ognuna: distribuzione nella quale l’errore quadratico medio è effettivamente dato dalla radice quadrata del valore medio, $\sigma ={\sqrt {N\,p_{i}(1-p_{i})}}\simeq {\sqrt {N\,p_{i}}}$ .

Nei limiti in cui il numero di misure attese in una classe è sufficientemente elevato da poter confondere la relativa funzione di distribuzione con [p. 204 modifica]la funzione normale, la quantità

X\;=\;\sum _{i=1}^{M}{\frac {(n_{i}-Np_{i})^{2}}{Np_{i}}}\;=\;\sum _{i=1}^{M}{\frac {(O_{i}-A_{i})^{2}}{A_{i}}}

(12.9)

cioè la somma, su tutte le classi di frequenza (il cui numero abbiamo supposto sia $M$ ), del quadrato della differenza tra il numero di misure ivi attese ( $A_{i}=Np_{i}$ ) ed ivi effettivamente osservate ( $O_{i}=n_{i}$ ), diviso per la varianza del numero di misure attese (approssimata da $Np_{i}=A_{i}$ ), ha approssimativamente la distribuzione del $\chi ^{2}$ , con $M-1$ gradi di libertà; il motivo di quest’ultima affermazione è che esiste un vincolo sulle $O_{i}$ , quello di avere per somma il numero totale di misure effettuate $N$ (che viene usato nella formula (12.9), mediante la quale abbiamo definito $X$ , per calcolare il numero $A_{i}$ di misure attese in ogni intervallo).

La condizione enunciata si può in pratica supporre verificata se le $A_{i}$ in ogni intervallo sono almeno pari a 5; o, meglio, se il numero di classi di frequenza in cui ci si aspetta un numero di misure minore di 5 è trascurabile rispetto al totale (meno del 10%). In realtà, se le classi di frequenza si possono scegliere arbitrariamente, la cosa migliore consiste nel definirle di ampiezze differenti: in modo tale che quegli intervalli dove cadono poche misure vengano riuniti assieme in un’unica classe più ampia, ove $n_{i}$ valga almeno 5 (ma nemmeno troppo ampia, per soddisfare al vincolo di avere ${p_{i}}^{2}\ll p_{i}$ ; in genere si cerca di riunire assieme più classi in modo da avere degli $n_{i}\sim 5\div 10$ ).

Tornando al problema iniziale, per la verifica dell’ipotesi statistica che i dati vengano dalla distribuzione usata per il calcolo delle $A_{i}$ basta:

fissare arbitrariamente un livello di probabilità che rappresenti il confine tra eventi ammissibili nell’ipotesi della pura casualità ed eventi invece tanto improbabili da far supporre che il loro verificarsi sia dovuto non a fluttuazioni statistiche, ma al non essere verificate le ipotesi fatte in partenza (il provenire i dati dalla distribuzione nota a priori): ad esempio il 95% o il 99%.
Cercare nelle apposite tabelle¹ il valore di taglio corrispondente alla coda superiore della distribuzione del $\chi ^{2}$ ad $M-1$ gradi di libertà avente area pari al livello di confidenza desiderato; ossia quell’ascissa $\xi$ che lascia alla propria sinistra, sotto la curva della distribuzione del $\chi ^{2}$ ad $M-1$ gradi di libertà, un’area pari a tale valore. [p. 205 modifica]
Calcolare $X$ ; ed infine rigettare l’ipotesi (al livello di confidenza prescelto) perché incompatibile con i dati raccolti, se $X$ risultasse superiore a $\xi$ (o, altrimenti, considerare l’ipotesi compatibile con i dati al livello di confidenza prescelto e quindi accettarla).

Quanto detto a proposito della particolare distribuzione del $\chi ^{2}$ da usare per la verifica della nostra ipotesi, però, è valido solo se le caratteristiche della distribuzione teorica con cui confrontare i nostri dati sono note a priori; se, invece, $R$ parametri da cui essa dipende fossero stati stimati a partire dai dati, il numero di gradi di libertà sarebbe inferiore e pari ad $M-R-1$ .

Così se le $p_{i}$ sono state ricavate integrando sulle classi di frequenza una distribuzione normale la cui media e la cui varianza siano state a loro volta ottenute dal campione istogrammato, il numero di gradi di libertà, essendo $R=2,$ sarebbe pari a $M-3$ .

Per dare un’idea dei valori del $\chi ^{2}$ che corrispondono al rigetto di una ipotesi (ad un certo livello di confidenza), e senza ricorrere alle tabelle numeriche, nella figura 12b sono riportati in grafico i valori $P$ dell’integrale da $x$ a $+\infty$ della funzione di frequenza del $\chi ^{2}$ (ovvero il complemento ad uno della funzione di distribuzione), per alcuni valori del parametro $N$ .

Le curve della figura 12c permettono invece di identificare (per differenti scelte del livello di confidenza $\varepsilon$ ) i corrispondenti valori di taglio del $\chi ^{2}$ ridotto — ovvero del rapporto $\chi ^{2}/N$ tra esso ed il numero di gradi di libertà $N$ . Insomma, ogni punto di queste curve al di sopra di un’ascissa (intera) $N$ ha come ordinata un numero $X/N$ tale che l’integrale da $X$ a $+\infty$ della funzione di frequenza del $\chi ^{2}$ ad $N$ gradi di libertà sia uguale ad $\varepsilon$ .

Note

↑ Alcuni valori numerici di questo tipo sono tabulati nell’appendice G. È bene anche ricordare che quando il numero di gradi di libertà $N$ è superiore a 30 si può far riferimento alla distribuzione normale con media $N$ ed errore quadratico medio ${\sqrt {2N}}$ ; e che, già per piccoli $N$ , ${\sqrt {2\chi ^{2}}}$ è approssimativamente normale con media ${\sqrt {2N-1}}$ e varianza 1.

[1] Alcuni valori numerici di questo tipo sono tabulati nell’appendice G. È bene anche ricordare che quando il numero di gradi di libertà $N$ è superiore a 30 si può far riferimento alla distribuzione normale con media $N$ ed errore quadratico medio ${\sqrt {2N}}$ ; e che, già per piccoli $N$ , ${\sqrt {2\chi ^{2}}}$ è approssimativamente normale con media ${\sqrt {2N-1}}$ e varianza 1.

1