Teoria degli errori e fondamenti di statistica/B

Da Wikisource.
B L'errore della varianza

../A.7 ../C IncludiIntestazione 3 settembre 2022 100% Da definire

A.7 C
[p. 249 modifica]

Appendice B

L’errore della varianza



Può a volte essere utile valutare l’errore della stima della varianza ricavata da un campione di dati sperimentali. Facendo un esempio concreto, supponiamo di disporre di un ampio insieme di valutazioni della stessa grandezza fisica: misure ripetute . Dividiamo questi valori in sottoinsiemi costituiti da dati ciascuno, e per ognuno di questi sottocampioni calcoliamo la media aritmetica dei dati; otterremo così medie parziali, che indicheremo con i simboli .

Lo scopo di queste operazioni può essere quello di verificare che le medie di questi sottocampioni sono distribuite su un intervallo di valori più ristretto di quello su cui si distribuisce l’insieme dei dati originali: in sostanza, per verificare che le medie di dati hanno errore quadratico medio inferiore a quello dei dati di partenza.

L’errore delle medie dei sottocampioni può essere stimato sperimentalmente calcolandone la varianza:

(sperimentale)

intendendo con la media delle medie parziali, che coinciderà necessariamente con la media complessiva dell’intero campione di dati.

Questo valore può essere poi confrontato con quello previsto dalla teoria per la varianza della media di un gruppo di dati, allo scopo di verificare in pratica l’adeguatezza della teoria stessa; tale previsione teorica è come sappiamo data dal rapporto tra la varianza di ognuno dei dati che [p. 250 modifica]contribuiscono alla media ed il numero dei dati stessi:

(teorico).

Come stima di si può usare l'errore quadratico medio dell'insieme di tutti gli dati; ma, naturalmente, perché il confronto tra questi due numeri abbia un significato, occorre conoscere gli errori da cui sia la valutazione sperimentale che la previsione teorica di sono affette.

Consideriamo (come già fatto precedentemente) una popolazione a media zero per semplificare i calcoli:

;

i risultati si potranno in seguito facilmente estendere ad una popolazione qualsiasi, tenendo presente il teorema di pagina 52 ed i ragionamenti conseguenti. La varianza di una qualsiasi variabile casuale , indicata di seguito come , si può scrivere come

e, usando questa formula per calcolare la varianza della varianza di un campione di misure , avremo

.

Ora

Sviluppiamo uno per volta i tre termini a secondo membro; per il primo risulta

.
[p. 251 modifica] La prima sommatoria comprende addendi distinti; la seconda è estesa a tutte le possibili combinazioni dei valori distinti di e presi a due a due: è costituita quindi da

addendi distinti.

Il fattore 2 che compare davanti ad essa è dovuto al fatto che una coppia di valori degli indici si presentava nella sommatoria su una volta come e un’altra come , termini diversi per l’ordine ma con lo stesso valore. In definitiva, passando ai valori medi e tenendo conto dell’indipendenza statistica di e quando è , risulta

.

Con simili passaggi, si ricava per il secondo termine

dove gli indici aventi simboli diversi si intendono avere anche valori sempre diversi tra loro nelle sommatorie.

Il valore medio del terzo e del quarto termine si annulla essendo ; inoltre gli addendi nella prima sommatoria sono in numero di e quelli nella seconda in numero di e vanno moltiplicati per un fattore 2. Pertanto anche

.

Infine avremo, con la medesima convenzione sugli indici,

.

I valori medi del secondo, quarto e quinto termine (che contengono potenze dispari delle ) sono nulli. Gli addendi nella prima sommatoria sono [p. 252 modifica]in numero di ; nella terza vi sono termini distinti: ma ciascuno appare in 6 modi diversi solo per l’ordine, corrispondenti al numero di combinazioni dei quattro indici originari , , ed presi a due a due. Allora

;

e, riprendendo la formula di partenza,

Per il valore medio di , già sappiamo come risulti per la varianza del campione

inoltre

(essendo ) e

da cui abbiamo ottenuto a suo tempo la

.

Per la varianza di , che vogliamo determinare:

.
[p. 253 modifica]

Questa relazione ha validità generale. Nel caso poi che la popolazione ubbidisca alla legge normale, potremo calcolare il valore medio di usando la forma analitica della funzione di Gauss: per distribuzioni normali qualsiasi, i momenti di ordine pari rispetto alla media sono dati dalla formula (8.5), che qui ricordiamo:


Per la varianza di se ne ricava

e, sostituendo,

insomma l’errore quadratico medio della varianza del campione vale

.

La varianza, invece, della stima della varianza della popolazione

vale

;

ed infine l’errore quadratico medio della stima della varianza della popolazione ricavata dal campione è

Sottolineiamo ancora come queste formule che permettono di calcolare, per una popolazione avente distribuzione normale, gli errori quadratici medi sia della varianza di un campione di misure che della stima della varianza della popolazione ricavata da un campione di misure, siano esatte. [p. 254 modifica]

Se si vuole invece calcolare l’errore da attribuire agli errori quadratici medi, cioè alle quantità e radici quadrate delle varianze di cui sopra, non è possibile dare delle formule esatte: la ragione ultima è che il valore medio di non può essere espresso in forma semplice in termini di grandezze caratteristiche della popolazione.

Per questo motivo è sempre meglio riferirsi ad errori di varianze piuttosto che ad errori di scarti quadratici medi; comunque, in prima approssimazione, l’errore di si può ricavare da quello su usando la formula di propagazione:

cioè

(B.1)

(il fatto che questa formula sia approssimata risulta chiaramente se si considera che la relazione tra e è non lineare).

Una conseguenza dell’equazione (B.1) è che l’errore relativo di dipende solo dal numero di misure; diminuisce poi all’aumentare di esso, ma questa diminuzione è inversamente proporzionale alla radice quadrata di e risulta perciò lenta.

In altre parole, per diminuire l’errore relativo di di un ordine di grandezza occorre aumentare il numero delle misure di due ordini di grandezza; è (circa) il 25% per 10 misure, il 7% per 100 misure ed il 2% per 1000 misure effettuate: e questo è sostanzialmente il motivo per cui, di norma, si scrive l’errore quadratico medio dando per esso una sola cifra significativa.

Due cifre significative reali per corrisponderebbero infatti ad un suo errore relativo compreso tra il 5% (se la prima cifra significativa di è 1, ad esempio ) e lo 0.5% (); e presupporrebbero quindi che siano state effettuate almeno 200 misure nel caso più favorevole e quasi 20·000 in quello più sfavorevole.