Teoria degli errori e fondamenti di statistica/E

Da Wikisource.
E La funzione di verosimiglianza

../D ../F IncludiIntestazione 4 settembre 2022 100% Da definire

D F
[p. 283 modifica]

Appendice E

La funzione di verosimiglianza



Si supponga di aver compiuto osservazioni indipendenti relative ad una grandezza fisica , e di aver trovato i valori , con . Ciascuna delle variabili casuali abbia poi densità di probabilità data da una funzione nota ; funzione che supponiamo dipenda da un parametro di valore vero ignoto, e definita in un intervallo dell’asse reale delle con estremi indipendenti da (che potremo assumere essere ponendo eventualmente esternamente all’intervallo di definizione).

Una stima di una generica funzione nota del parametro, , che supporremo con derivata non nulla, è una funzione dei soli valori osservati ; dunque a sua volta una variabile casuale, con associata una funzione densità di probabilità che indicheremo con . La stima si dice imparziale (o indistorta) quando il suo valore medio

è uguale al rispettivo valore vero:

.

Il caso particolare della stima del parametro stesso corrisponde alla funzione , che soddisfa evidentemente alla richiesta di possedere derivata prima non nulla . [p. 284 modifica]

Una importante proprietà della stima è la sua varianza, data (se essa è imparziale) da

perché la minima varianza sarà il nostro criterio di scelta fra diverse stime di .

Il teorema che segue (teorema di Cramér-Rao) mostra che esiste un limite inferiore per la varianza di una stima. Osserviamo per prima cosa che la densità di probabilità per la -pla risulta

per il teorema della probabilità composta; se in luogo del valore vero si pone il parametro variabile , si ottiene la funzione di verosimiglianza

.

La condizione di normalizzazione di ciascuna comporta che l’integrale della verosimiglianza su tutti i domini delle variabili valga 1:

indipendentemente dal valore di . Derivando sotto il segno di integrale rispetto a , dato che i domini delle non dipendono da detta variabile si ottiene

[p. 285 modifica]

da cui, dividendo e moltiplicando l’integrando per , risulta

ossia

(E.1)

Se è imparziale

da cui, derivando ambo i membri rispetto a ,

.

Dividendo e moltiplicando poi l’integrando per la verosimiglianza , risulta

e, in definitiva,

[p. 286 modifica]

Infine, sottraendo membro a membro da questa equazione la precedente (E.1) moltiplicata per , si ottiene

ovvero

.

Se ora si definiscono il rapporto

(che è una costante dipendente da ; osserviamo anche che deve risultare ) e la variabile casuale

il cui quadrato risulta essere

prendendo il valore medio di si ottiene

ossia

[p. 287 modifica]ed infine
.

Ma il valore medio del quadrato di una qualsiasi variabile casuale non può essere negativo, e dunque

ed infine

cioè:

Nessuna funzione dei valori osservati , che sia stima imparziale di una funzione del parametro , può avere varianza inferiore ad un limite determinato.

La varianza minima si raggiunge se e soltanto se è nullo, il che è possibile solo se è nulla ovunque, cioè se

o, altrimenti detto, se la derivata logaritmica della verosimiglianza è proporzionale alla variabile casuale :

(E.2)
[p. 288 modifica]

Nel caso particolare che tutte le provengano dalla stessa popolazione, e che quindi abbiano la stessa densità di probabilità ,

e, tenuto conto della (E.1), questo implica che

. (E.3)

Ora

(tenendo conto del fatto che le sono indipendenti); l’ultimo termine si annulla in conseguenza della (E.3), ed infine, in questo caso, il minorante della varianza della stima si può scrivere

Col metodo della massima verosimiglianza si assume, come stima del valore vero del parametro , quel valore che rende massima la verosimiglianza per i valori osservati delle variabili, .

Ora, nel caso esista una stima di minima varianza per la funzione , tenendo conto della (E.2) la condizione perché la funzione di verosimiglianza abbia un estremante diviene

[p. 289 modifica]

e le soluzioni sono tutte e sole quelle dell’equazione

.

La derivata seconda di è in tal caso

ma se è anche e risulta

;

cioè per tutte le soluzioni la verosimiglianza è massima.

Ora, se la funzione è regolare, tra due massimi deve esistere un minimo; dato che non esistono minimi, ne consegue che il massimo è unico ed in corrispondenza al valore della funzione inversa di e calcolata in :

.

La statistica (come viene anche indicata una funzione dei dati) di minima varianza è un caso particolare di statistica sufficiente per il parametro , come è chiamata una funzione dei valori osservati, se esiste, che riassume in sé tutta l’informazione che i dati possono fornire sul valore del parametro.

Se sono i valori osservati di variabili casuali normali con lo stesso valore medio e varianze rispettive supposte note, la verosimiglianza è

il suo logaritmo

[p. 290 modifica]

e la sua derivata rispetto al parametro

.

Pertanto la media dei dati, pesati con coefficienti inversamente proporzionali alle varianze, è una stima di minima varianza per . Se le varianze sono poi tutte uguali tra loro e di valore , risulta

ed in tal caso la media aritmetica del campione è una stima di minima varianza per . Sempre in tal caso è poi

con

e

dunque

come d’altra parte già si sapeva.

Qui la media del campione è un esempio di statistica sufficiente per ; infatti non ha alcuna importanza quali siano i singoli valori : ma se le medie di due diversi campioni sono uguali, le conclusioni che si possono trarre sul valore di sono le medesime.

Supponendo di conoscere il valore medio , la stima della varianza si ottiene cercando lo zero della derivata logaritmica

la quale ha la forma richiesta perché la soluzione

[p. 291 modifica]

sia una stima di con minima varianza, data da

essendo , e : questo risultato è lo stesso trovato nell’appendice B.

Il valore di tuttavia non è generalmente noto, e l’uso della media aritmetica del campione comporta una distorsione che si corregge, come si è visto, ponendo in luogo di .