Teoria degli errori e fondamenti di statistica/12.1

Da Wikisource.
12.1 La distribuzione del χ²

../12 ../12.2 IncludiIntestazione 1 settembre 2022 100% Da definire

12 12.2

[p. 195 modifica]

12.1 La distribuzione del

Se le N variabili casuali , tra loro statisticamente indipendenti, sono variabili normali standardizzate (ovverosia distribuite secondo la legge normale con media 0 e varianza 1), si può dimostrare che la nuova variabile [p. 196 modifica]casuale

(ovviamente non negativa) è distribuita con una densità di probabilità data dalla

(12.1)

(distribuzione del chi quadro); la costante viene fissata dalla condizione di normalizzazione, ed il parametro prende il nome di numero di gradi di libertà della distribuzione.

La funzione caratteristica della si può trovare facilmente considerando che, se la è una variabile normale standardizzata, il suo quadrato ha una funzione caratteristica

(si è eseguita la sostituzione di variabile ; l’integrale definito è quello di una distribuzione normale e vale dunque 1). Di conseguenza, applicando l’equazione (6.11), la funzione caratteristica della vale

. (12.2)

Per dimostrare che la funzione di frequenza della è effettivamente la (12.1), si parte poi dall’espressione (12.2) della funzione caratteristica e le si applica la trasformazione inversa di Fourier già definita nella (6.10).

Con simili passaggi si potrebbe ricavare la funzione generatrice dei momenti, che vale

[p. 197 modifica]
Figura 12a - La distribuzione del per alcuni valori del parametro N.

[p. 198 modifica]e, da queste, si ottiene infine che il valore medio e la varianza di una variabile casuale distribuita come il

a gradi di libertà sono

e

mentre i coefficienti di asimmetria e di curtosi valgono

e .

La distribuzione del tende asintoticamente ad una distribuzione normale con la stessa media e la stessa varianza ; infatti la funzione caratteristica della variabile standardizzata

vale, ricordando la (6.17),

.

Passando ai logaritmi naturali,

e, sviluppando in serie di McLaurin il logaritmo,

da cui

che è appunto la funzione caratteristica di una distribuzione normale standardizzata.

In definitiva:

  • Quando assume valori sufficientemente grandi, la distribuzione del è ben approssimata da una distribuzione normale avente la stessa media e la stessa varianza ; tale approssimazione si può ritenere in pratica già buona quando è superiore a 30. [p. 199 modifica]
  • Inoltre si potrebbe analogamente dimostrare che la variabile casuale , anche per valori relativamente piccoli di , ha una distribuzione che è assai bene approssimata da una funzione normale con media e varianza 1; l’approssimazione è già buona per .

Dalla definizione (o dalla funzione caratteristica (12.2)) discende immediatamente la cosiddetta regola di somma del ossia che, se ed sono due variabili casuali statisticamente indipendenti entrambe distribuite come il , con ed gradi di libertà rispettivamente, la loro somma è una variabile casuale ancora distribuita come il ; però con gradi di libertà.

Ovviamente, se le (con ) sono variabili casuali statisticamente indipendenti tra loro e provenienti da una stessa distribuzione normale con media e varianza , discende da quanto detto che la nuova variabile casuale

è distribuita come il a gradi di libertà. Indichiamo ora, al solito, con la media aritmetica delle : vogliamo dimostrare che la variabile casuale

è distribuita ancora come il , ma con gradi di libertà.

A questo scopo facciamo dapprima alcune considerazioni, indipendenti dalle ipotesi prima fatte sulle e che risultano quindi valide per variabili casuali qualunque: supponiamo di definire nuove variabili come generiche combinazioni lineari delle , con coefficienti che indicheremo col simbolo ; in modo insomma che risulti

.

La somma dei quadrati delle è data da

è possibile che questa somma risulti uguale alla somma dei quadrati delle qualunque sia il valore di queste ultime? Ovviamente questo avviene se e [p. 200 modifica]solo se vale la

(12.3)

(il simbolo , che assume il valore 1 quando gli indici sono uguali e 0 quando sono invece diversi, si chiama simbolo di Kronecker o delta di Kronecker).

Consideriamo gli come gli elementi di una matrice quadrata di ordine ; gli e le si possono invece considerare come le componenti di due vettori ed definiti in uno spazio -dimensionale — ossia come gli elementi di due matrici rettangolari con righe ed 1 colonna.

La trasformazione che muta in si può scrivere, in forma matriciale, come ; la somma dei quadrati delle o delle altro non è se non il prodotto scalare, di ed rispettivamente, per loro stessi: ovverosia la loro norma, il quadrato della loro lunghezza nello spazio a dimensioni. Quella che abbiamo ricavato adesso è la condizione perché una trasformazione lineare applicata ad un vettore ne conservi la lunghezza: occorre e basta che la matrice sia ortogonale. Infatti la (12.3) si può scrivere

ossia

( è la matrice trasposta di , di elementi ; è la matrice unità, di elementi ; è la matrice inversa di ; ed una matrice per cui si dice, appunto, ortogonale).

Consideriamo adesso una trasformazione lineare definita dalle seguenti relazioni:

(12.4)

e per la quale la matrice di trasformazione abbia, insomma, elementi [p. 201 modifica]definiti come

Non è difficile controllare che la matrice è ortogonale; inoltre la prima riga è stata scelta in modo tale che

e quindi

Inoltre risulta (per )

(12.5)

e, per ogni ,

. (12.6)

Tornando al nostro problema, supponiamo ora che tutte le siano variabili aventi distribuzione normale; che abbiano tutte valore medio e varianza ; ed inoltre che siano tra loro tutte statisticamente indipendenti. Una qualsiasi loro combinazione lineare, quindi anche ognuna delle legate alle da quella particolare matrice di trasformazione (12.4) che abbiamo prima definita, è anch’essa distribuita secondo la legge normale; inoltre risulta [p. 202 modifica]

.

Applicando alle le formule per la media e la varianza delle combinazioni lineari di variabili casuali statisticamente indipendenti già ricavate nel capitolo 5, si trova facilmente (tenendo presenti la (12.5) e la (12.6)) che la varianza di ognuna di esse è ancora ; e che, per , il loro valore medio è 0. Di conseguenza, per le sono variabili casuali normali aventi media 0 e varianza 1: e questo implica che

(12.7)

sia effettivamente distribuita come il a gradi di libertà.

È interessante confrontare questo risultato con quello precedentemente ricavato, e riguardante la stessa espressione — in cui però gli scarti erano calcolati rispetto alla media della popolazione . Nel primo caso la distribuzione era ancora quella del , ma con gradi di libertà: riferendoci invece alla media aritmetica del campione, i gradi di libertà diminuiscono di una unità. Questo è conseguenza di una legge generale, secondo la quale il numero di gradi di libertà da associare a variabili che seguono la distribuzione del è dato dal numero di contributi indipendenti: ovvero il numero di termini con distribuzione normale sommati in quadratura (qui , uno per ogni determinazione ) diminuito del numero di parametri che compaiono nella formula e che sono stati stimati dai dati stessi (qui uno: appunto la media della popolazione, stimata usando la media aritmetica delle misure).

Un’ultima notevole conseguenza del fatto che la variabile casuale definita dalla (12.7) sia distribuita come il a gradi di libertà è la seguente: la stima della varianza della popolazione ottenuta dal campione, , vale

(12.8)

e, essendo proporzionale a , è anch’essa distribuita come il a gradi di libertà; quindi la sua densità di probabilità è data dalla (12.1) e dipende [p. 203 modifica]solamente da N; non dipende, in particolare, dalla media del campione . Quindi:

Il valore medio e la varianza campionaria , calcolati su valori estratti a caso da una stessa popolazione normale, sono due variabili casuali statisticamente indipendenti tra loro.

Questo risulta anche intuitivamente comprensibile; se infatti ci è noto che un certo campione di dati ha una dispersione più o meno grande, questo non deve alterare la probabilità che il suo valore medio abbia un valore piuttosto che un altro; né, viceversa, il fatto che il campione sia centrato attorno ad un certo valore deve permetterci di prevedere in qualche modo la sua dispersione.