Pagina:Codifica numerica del segnale audio.djvu/268

Da Wikisource.
250 Codifica numerica del segnale audio

Fig. 6.30 - Schema di codifica realizzato con un riconoscitore ed un sintetizzatore.

6.6.2 VAD (Voice Activity Detection)

Un elemento comune ai vari classificatori presentati precedentemente è costituito dall'algoritmo di discernimento tra voce attiva e inattiva. Tale classificazione, che in linea di principio potrebbe sembrare relativamente semplice, risulta invece complessa quando si considerano condizioni di funzionamento più critiche. In particolare, la classificazione risulta delicata qualora l’indicazione debba essere fornita per lunghezze di frame molto corte (10 o 5 ms). In questi casi infatti, le pause di silenzio tipiche di alcuni fonemi (quali le plosive) possono essere interpretate come porzioni di silenzio. Un altro elemento che rende l’operazione difficile è la presenza di rumore ambientale che oltre ad alterare il livello del segnale vocale, determina anche una variazione delle caratteristiche spettrali del segnale in questione.

Un algoritmo che ha avuto particolare successo è quello impiegato nel sistema DTX del GSM che è stato standardizzato sia per il canale Full-rate [ETSI6.32] che per il canale Half-rate.

Lo schema a blocchi completo dell’algoritmo è riportato in figura 6.31. Le caratteristiche principali di questo schema sono quelle di un sistema progettato “fail-safe” e cioè polarizzato nei casi dubbi a fornire una indicazione di voce attiva piuttosto che silenzio. Inoltre, dovendo essere abbinato allo schema full-rate GSM, l’algoritmo utilizza i parametri calcolati nello schema RPE-LTP, al fine di minimizzare l’aumento di complessità dovuto al sistema DTX.