Teoria degli errori e fondamenti di statistica/13.4

Questo testo è stato riletto e controllato.

Maurizio Loreti - Teoria degli errori e fondamenti di statistica (2006)

13.4 Il rapporto delle massime verosimiglianze

Informazioni sulla fonte del testo

◄

13.3

13.5

►

[p. 235 modifica]

13.4 Il rapporto delle massime verosimiglianze

Nel caso generale in cui sia l'ipotesi nulla che quella alternativa siano composte, la situazione è più complicata: non esiste normalmente un test di massima potenza uniforme, e, tra i vari criteri possibili per decidere tra le due ipotesi, bisogna capire quali abbiano caratteristiche (significanza e potenza) adeguate; un metodo adatto a costruire una regione di rigetto dotata asintoticamente (per grandi campioni) di caratteristiche, appunto, desiderabili, è quello seguente (metodo del rapporto delle massime verosimiglianze). [p. 236 modifica]

Sia una variabile casuale $x$ , la cui densità di probabilità supponiamo sia una funzione $f(x;\theta _{1},\theta _{2},\ldots ,\theta _{M})$ dipendente da $M$ parametri: indicando sinteticamente la $M$ -pla dei valori dei parametri come un vettore ${\boldsymbol {\theta }}$ in uno spazio a $M$ dimensioni (spazio dei parametri), consista $H_{0}$ nell'essere ${\boldsymbol {\theta }}$ compreso all'interno di una certa regione $\Omega _{0}$ di tale spazio; mentre $H_{a}$ consista nell'appartenere ${\boldsymbol {\theta }}$ alla regione $\Omega _{a}$ complementare a $\Omega _{0}$ : $\Omega _{a}\equiv {\bar {H}}_{0}$ , così che $(\Omega _{0}\cup \Omega _{a})$ coincida con l'intero spazio dei parametri ${\mathcal {S}}$ .

In particolare, $\Omega _{0}$ può estendersi, in alcune delle dimensioni dello spazio dei parametri, da $-\infty$ a $+\infty$ ; e, in tal caso, il vincolo sulle $\theta _{i}$ cui corrisponde l'ipotesi nulla riguarderà un numero di parametri minore di $M$ .

Scritta la funzione di verosimiglianza,

{\mathcal {L}}({\boldsymbol {x}};{\boldsymbol {\theta }})=\prod _{i=1}^{N}f(x_{i};{\boldsymbol {\theta }})

(13.8)

indichiamo con ${\mathcal {L}}({\widehat {S}})$ il suo massimo valore nell'intero spazio dei parametri; e con ${\mathcal {L}}({\widehat {R}})$ il massimo valore assunto sempre della (13.8), ma con i parametri vincolati a trovarsi nella regione $\Omega _{0}$ (quindi limitatamente a quei casi nei quali $H_{0}$ è vera). Il rapporto

\lambda ={\frac {{\mathcal {L}}({\widehat {R}})}{{\mathcal {L}}({\widehat {S}})}}

(13.9)

deve essere un numero appartenente all'intervallo $[0,1]$ ; se si fissa un arbitrario valore $k$ ( $0<k<1$ ), esso definisce una generica regione di rigetto, ${\mathcal {R}}_{k}$ , attraverso la

${\mathcal {R}}_{k}\;\equiv \;\left\{\;\lambda ={\frac {{\mathcal {L}}({\widehat {R}})}{{\mathcal {L}}({\widehat {S}})}}<k\;\right\}$

(ovvero si accetta $H_{0}$ quando $\lambda \geq k$ e la si rigetta quando $\lambda <k$ ). Nel caso si sappia determinare la densità di probabilità di $\lambda$ condizionata all'assunzione che $H_{0}$ sia vera, $g(\lambda |H_{0})$ , la probabilità di un errore di prima specie è data ovviamente da

$P_{I}\;=\;\alpha \;=\;\Pr {\bigl (}\lambda \in [0,k]|H_{0}{\bigr )}\;=\;\int _{0}^{k}g(\lambda |H_{0})\,\mathrm {d} \lambda$ .

L'importanza del metodo sta nel fatto che si può dimostrare il seguente

Teorema: se l'ipotesi nulla $H_{0}$ consiste nell'appartenenza di un insieme di $P\leq M$ dei parametri $\theta _{i}$ ad una determinata regione $\Omega _{0}$ , e se l'ipotesi alternativa $H_{a}$ consiste nel fatto che essi non vi appartengano ( $H_{a}\equiv {\bar {H}}_{0}$ ), allora $-2\ln \lambda$ , ove $\lambda$ è definito dalla (13.9), ha densità di probabilità che, ammessa vera l'ipotesi nulla, converge in probabilità (all'aumentare di $N$ ) alla distribuzione del $\chi ^{2}$ a $P$ gradi di libertà. [p. 237 modifica]che, dicendoci quale è (almeno nel limite di grandi campioni) la forma di

g(\lambda |H_{0})

, ci mette comunque in grado di calcolare la significanza del test.

Illustriamo il metodo con un esempio: disponendo ancora di un campione di $N$ determinazioni indipendenti, provenienti da una popolazione normale di varianza nota, vogliamo applicarlo per discriminare tra l’ipotesi nulla che il valore medio abbia valore 0 ( $H_{0}\equiv \{\mu =0\}$ ) e quella che esso abbia valore differente ( $H_{a}\equiv \{\mu \neq 0\}$ ).

Il logaritmo della funzione di verosimiglianza è ancora dato dalla (13.1); e già sappiamo, dal paragrafo 11.3, che ${\mathcal {L}}$ assume il suo massimo valore quando $\mu ={\bar {x}}$ , per cui

$\ln {\mathcal {L}}({\widehat {S}})=-N\,\ln {\bigl (}\sigma {\sqrt {2\pi }}{\bigr )}-{\frac {1}{2\sigma ^{2}}}\left(\sum _{i=1}^{N}{x_{i}}^{2}-N{\bar {x}}^{2}\right)$ .

Inoltre $\Omega _{0}$ si riduce ad un unico punto, $\mu =0$ ; per cui

$\ln {\mathcal {L}}({\widehat {R}})=-N\,\ln {\bigl (}\sigma {\sqrt {2\pi }}{\bigr )}-{\frac {1}{2\sigma ^{2}}}\sum _{i=1}^{N}{x_{i}}^{2}$ .

Dalla (13.9) si ricava

$\ln \lambda \;=\;\ln {\mathcal {L}}({\widehat {R}})-\ln {\mathcal {L}}({\widehat {S}})\;=\;-{\frac {1}{2\sigma ^{2}}}\,N{\bar {x}}^{2}$

e la regione di rigetto è definita dalla $\ln \lambda <\ln k$ ; ovvero (ricordando che $\ln k<0$ ) da

${\mathcal {R}}_{k}\;\equiv \;\left\{\;{\bar {x}}^{2}>-{\frac {2\sigma ^{2}\ln k}{N}}\;\right\}$

e, posto

$c=\sigma {\sqrt {-{\frac {2\ln k}{N}}}}$

si accetterà $H_{0}$ se $|{\bar {x}}|\leq c$ (e la si rigetterà se $|{\bar {x}}|>c$ ).

In questo caso il teorema precedentemente citato afferma che

$-2\ln \lambda ={\frac {{\bar {x}}^{2}}{\dfrac {\sigma ^{2}}{N}}}$

è distribuito asintoticamente come il $\chi ^{2}$ ad un grado di libertà (cosa che del resto già sapevamo, vista l’espressione di $-2\ln \lambda$ ); per cui, indicando [p. 238 modifica]con $F(t;N)$ la densità di probabilità della distribuzione del $\chi ^{2}$ a $N$ gradi di libertà, avremo

$P_{I}\;=\;\alpha \;=\;\int _{0}^{k}g(\lambda |H_{0})\,\mathrm {d} \lambda \;=\;\int _{-2\ln k}^{+\infty }F(t;1)\,\mathrm {d} t$

della quale ci possiamo servire per ricavare $k$ se vogliamo che la significanza del test abbia un certo valore: ad esempio un livello di confidenza del 95% corrisponde ad $\alpha =0.05$ e, dalle tabelle della distribuzione del $\chi ^{2}$ , ricaviamo

-2\ln k=3.84

e quindi

c=1.96{\frac {\sigma }{\sqrt {N}}}

.

Anche senza dover ricorrere al teorema sul comportamento asintotico di $-2\ln \lambda$ , allo stesso risultato si può pervenire per altra via: in questo caso si conosce infatti esattamente $\alpha$ , che vale

$P_{I}\;=\;\alpha \;=\;\Pr {\Bigl (}|{\bar {x}}|>c{\bigl |}H_{0}{\bigr .}{\Bigr )}\;=\;2\int _{c}^{+\infty }\!N\left(t;0,{\frac {\sigma }{\sqrt {N}}}\right)\,\mathrm {d} t$

e, dalle tabelle della distribuzione normale standardizzata, si ricava che un'area two-tailed del 5% corrisponde ad un valore assoluto dello scarto normalizzato $t_{0}=1.96$ ; per cui, ancora, si ricaverebbe $|{\bar {x}}|>1.96(\sigma /{\sqrt {N}})$ come test per un livello di confidenza del 95%.