Codifica della voce e dell'audio/Conversione analogico/digitale
Campionamento
[modifica | modifica sorgente]Il campionamento di un segnale tempo-continuo produce il segnale tempo-discreto , che è una sequenza equispaziata di campioni del segnale originario.
Il campionamento consiste nella moltiplicazione del segnale analogico per un treno di impulsi (delta):
Teorema del campionamento di Shannon
[modifica | modifica sorgente]Il teorema del campionamento di Shannon definisce come campionare un segnale tempo-continuo senza perdita di informazioni: Definizione
Sotto certe condizioni, un segnale tempo-continuo può essere perfettamente ricostruito a partire dai suoi campioni se la frequenza di campionamento è maggiore del doppio della banda del segnale:
Condizione 1
[modifica | modifica sorgente]La banda del segnale di partenza deve essere limitata.
La maggioranza dei segnali utilizzati in realtà ha banda illimitata: esiste un intervallo al di fuori del quale il segnale è significativamente vicino a zero, ma non è mai identicamente nullo → l'eliminazione delle parti ad alta frequenza porta a un'approssimazione, e il teorema di Shannon non è fisicamente realizzabile.
Condizione 2
[modifica | modifica sorgente]Il segnale campionato può essere ricostruito perfettamente se e solo se come filtro interpolatore viene usato il filtro passa-basso ideale, con frequenza di taglio pari alla banda , che corrisponde:
- nel dominio del tempo: alla convoluzione con la risposta all'impulso del filtro (ovvero la funzione sinc):
- nel dominio della frequenza: alla moltiplicazione con la funzione di trasferimento del filtro:
- piatta nella banda del segnale (non distorcente);
- a pendenza infinita in corrispondenza della frequenza di taglio;
- nulla al di fuori della banda del segnale.
Anche in questo caso il filtro ideale non è fisicamente realizzabile, e i filtri reali introducono approssimazioni:
Diagramma di uguale intensità sonora
[modifica | modifica sorgente]
- suono
- onde trasversali di pressione che si propagano in un mezzo (tipicamente l'aria)
- audio
- l'insieme dei suoni percepibili dal sistema uditivo umano
L'audio è caratterizzato da intensità e frequenza.[1]
Intensità (dB)
[modifica | modifica sorgente]La misura dell'intensità è il Sound Pressure Level (SPL):
dove è la pressione della sinusoide minimamente udibile alla frequenza di riferimento (1 kHz).
Il suono udibile è compreso tra la soglia di udibilità e la soglia del dolore:
- 0 dB = soglia di udibilità: suoni al di sotto di questa soglia non sono udibili dal sistema uditivo umano;
- 100 dB = soglia del danno irreversibile: suoni al di sopra di questa soglia possono ridurre la capacità uditiva in maniera permanente;
- 120 dB = soglia del dolore fisico: suoni al di sopra di questa soglia provocano danni fisici al timpano.
Frequenza (Hz)
[modifica | modifica sorgente]Il suono udibile è compreso tra 20 Hz e 20 kHz, per un'ampiezza pari a 10 ottave[2]. La curva di udibilità è fortemente non lineare:
- l'intervallo di frequenze tra 1 kHz e 4 kHz comprende i suoni a cui il sistema uditivo è maggiormente sensibile (soglia di udibilità molto bassa);
- a frequenze molto basse o molto alte, possono essere sentiti solo suoni a intensità molto alte (soglia di udibilità molto alta).
Voce
[modifica | modifica sorgente]La voce umana naturale è compresa:
- intensità: entro una dinamica ampia 60 dB (dal bisbiglio all'urlo);
- frequenza: nell'intervallo da 20 Hz a 12 kHz.
Tuttavia per la voce trasmessa via telefono si è visto empiricamente che è sufficiente una banda compresa tra 300 e 3400 Hz, detta banda telefonica, in modo da garantire:
- l'intelligibilità (indispensabile): capire la sequenza di fonemi che viene pronunciata dall'interlocutore;
- una sufficiente qualità (naturalezza): capire informazioni sul parlatore (come identità, sesso, età...).
La voce in banda telefonica (narrowband voice) deve essere campionata a una frequenza maggiore della minima frequenza di campionamento imposta dal teorema di Shannon → viene campionata alla frequenza di 8 kHz per tenere conto delle non idealità dei filtri.
Oggigiorno nuove tecnologie (ad es. VoIP) rendono possibile la voce a banda larga (wideband):
- larghezza di banda = 50-7000 Hz
- frequenza di campionamento = 16 kHz
Quantizzazione
[modifica | modifica sorgente]La quantizzazione permette di trasformare un segnale tempo-discreto in un segnale digitale (o numerico) .
La zona operativa (o dinamica, o fondo scala) è l'intervallo di valori che ogni campione può assumere sulla scala reale. Dati bit:
- la zona operativa viene suddivisa in intervalli, chiamati gradini (o step) di quantizzazione;
- ogni campione viene mappato su uno dei valori possibili, e in particolare al più vicino (secondo la distanza euclidea).
L'operazione di quantizzazione introduce un errore irreversibile, chiamato errore (o rumore) di quantizzazione , pari alla differenza fra un campione reale e la sua versione quantizzata :
dove è l'ampiezza del gradino di quantizzazione. Nel quantizzatore uniforme, tutti i gradini di quantizzazione hanno ampiezza costante .
Un campione può assumere tipicamente tutti i valori sulla scala reale → la zona di saturazione (o overload) comprende i valori al di fuori della zona operativa, in cui l'errore di quantizzazione può essere potenzialmente infinito.
Progetto di un quantizzatore
[modifica | modifica sorgente]Numero di bit per campione
[modifica | modifica sorgente]Il numero di bit per campione dipende da:
- ampiezza della zona operativa: a parità di qualità, il numero di livelli necessario cresce con l'ampiezza della zona operativa;
- errore di quantizzazione : a parità di ampiezza della zona operativa, il numero di livelli necessario cresce con la qualità (prestazioni) della quantizzazione.
- Valori tipici
- CD audio: 16 bit/campione
- voce telefonica: 12 bit/campione (minore qualità della musica + minore potenza del segnale)
- immagini in scala di grigi: 8 bpp (bit/pixel)
- immagini a colori: 24 bpp
Ampiezza della zona operativa
[modifica | modifica sorgente]A parità di numero di bit, la scelta dell'ampiezza della zona operativa deriva dal compromesso tra:
- zona stretta: più la zona operativa è stretta e i livelli sono fitti, più l'errore di quantizzazione è basso e le prestazioni del quantizzatore sono alte;
- zona ampia: la zona operativa deve includere i valori a probabilità più alta in modo da minimizzare la probabilità di overload, ossia la percentuale dei campioni il cui valore cade al di fuori della zona operativa.
Assumendo una distribuzione di probabilità gaussiana, si è visto empiricamente che la scelta di una zona operativa con un'ampiezza pari a comporta una percentuale di overhead pari allo 0,069% circa.
Rapporto segnale/rumore
[modifica | modifica sorgente]La qualità del segnale quantizzato è espressa in termini del rapporto segnale/rumore SNR, definito come il rapporto tra la potenza del segnale non ancora quantizzato e la potenza dell'errore di quantizzazione :
dove la potenza di un segnale avente una funzione densità di probabilità è:
Quantizzatore ottimo
[modifica | modifica sorgente]Un quantizzatore si dice ottimo per un certo segnale se la sua distribuzione di livelli è tale che:
- tutti i livelli di quantizzazione vengono utilizzati con pari probabilità, cioè nessun livello è utilizzato più di altri;
- l'energia dell'errore di quantizzazione viene minimizzata;
- il rapporto segnale/rumore SNR viene massimizzato.
Il quantizzatore ottimo si ottiene facendo "combaciare" la distribuzione dei livelli e la funzione PDF del segnale. Il teorema di Max-Lloyd permette di ricavare la distribuzione ottima di livelli a partire dall'espressione analitica della funzione PDF del segnale.
Il quantizzatore uniforme è un quantizzatore ottimo per segnali distribuiti uniformemente sulla zona operativa, ma i segnali audio tipicamente hanno una distribuzione di probabilità non uniforme.
Note
[modifica | modifica sorgente]- ↑ I valori di SPL e di frequenza riportati di seguito sono convenzionali, ma dipendono in realtà da fattori legati alla persona come l'età, la salute, ecc.
- ↑ Si raddoppia circa 10 volte:
- 20 → 40 → 80 → 160 → 320 → 640 → 1080 → 2160 → 4320 → 8620 → 17740