In un precedente articolo ho esposto alcune informazioni di massima per potersi orientare con le specifiche tecniche delle cuffie. Vorrei adesso parlare degli aspetti tecnici da valutare per una corretta scelta delle cuffie, e più nello specifico per orientarsi nel mondo della musica digitale ad alta qualità: negli ultimi anni il mondo della “musica liquida” ha compiuto enormi passi avanti, e credo sia utile conoscere gli aspetti tecnici del campionamento digitale dell’audio analogico.

Di cosa parleremo

Temi trattati: caompionamento, frequenze, compressioni lossless Ho già accennato ai due concetti di “risposta in frequenza” e di “impedenza” ; il primo parametro non può essere apprezzato fino in fondo se non si parla anche di formati e risoluzioni adottati per la musica digitale. L’impedenza invece deve essere affiancata da maggiori informazioni dal punti di vista dell’amplificatore con cui si vorrà usare le cuffie. 

Faremo anche una rapida carrellata dei due elementi che hanno una importanza fondamentale nella filiera audio di qualità, cioè l’amplificatore ed il DAC, in modo da avere un quadro (quasi) completo.

I temi sono troppi per un singolo post quindi saranno spezzati in più puntate trattando un mattoncino alla volta, da usare per costruire la visione di insieme.

Cominciamo.

La musica “liquida”: il campionamento digitale dell’audio analogico

In origine fu l’MP3.
Non è vero: in origine fu il telefono o, più in generale, la comunicazione vocale. Per la trasmissione della voce, già fin dagli anni ’70 del secolo scorso sono stati creati degli standard di digitalizzazione che permettessero di trasformare un segnale audio analogico in un segnale digitale. Senza entrare troppo nel dettaglio, sappiate che si affermò l’uso del metodo PCM “pulse-code modulation”: il segnale audio analogico viene “campionato” con “parole” di bit e ad una frequenza tale da poter ricostruire il segnale originale con fedeltà sufficiente.

In origine fu il telefono, dicevamo: si voleva ricostruire un segnale vocale considerando “sufficiente” un risultato che permettesse di riconoscere la persona dalla voce anche dopo la ricodifica in digitale; dato che la nostra specie è particolarmente brava a riconoscere le voci, per ottenere questo risultato furono sufficienti valori che oggi consideriamo inapplicabili per la musica. Adesso vediamo perché.

Per prima cosa è opportuno spiegare come avviene questo “campionamento”.
Attenzione: il ragionamento seguente non deve essere inteso come spiegazione fedele del campionamento digitale, ma solo come strumento logico per comprenderne le caratteristiche principali senza fare uso di formule matematiche.

Un segnale audio analogico…

Accettando una comoda semplificazione, considerate il segnale audio come una curva che si alza e si abbassa nel tempo:

Campionamento digitale dell'audio analogico: il segnale di partenza

L’asse orizzontale rappresenta il tempo che passa; sull’asse verticale è rappresentata l’altezza dell’onda sonora.

… diventa un segnale digitale!

Immaginiamo adesso di dividere l’asse orizzontale in tante parti uguali, per esempio 100: ad ogni passo si incrocia la curva ad un certo valore quindi si individuano 100 punti (100 valori) che rappresentano la curva iniziale. Questi punti rappresentano il “campionamento” della nostra curva iniziale, quindi il campionamento digitale dell’audio analogico.

Campionamento del segnale audio analogico

Adesso proviamo a disegnare solo i punti. Come vedete si può intuire la forma della curva che li ha generati:

Punti del campionamento digitale del segnale anlaogico

Ma alcuni sono più uguali degli altri

Se i punti sono stati scelti molto distanti tra di loro l’approssimazione è poco fedele: possiamo disegnare infinite curve che passano da tutti i punti ma che hanno forme diverse tra di loro:

Campionamento digitale dell'audio analogico: esempio di campionamento troppo rado

Se invece i punti sono molto ravvicinati diventa più facile avere idea della curva iniziale: esistono ancora molte curve con forma diversa e che toccano tutti i punti del campionamento, ma intuitivamente ce ne sono “meno di prima” (sappiate che se parliamo di musica suonata con strumenti non elettronici ci sono dei limiti fisici che impediscono variazioni estreme di quel valore per brevi unità di tempo, ma questo è un altro discorso):

campionamento digitale dell'audio analogico: esempio di campionamento fitto

Potete facilmente intuire che tanto più fitti sono i punti, tanto più fedelmente potremo ricostruire la curva iniziale: questo parametro di “fittanza” (termine che ho appena inventato, non cercatelo sui libri) rappresenta la frequenza del campionamento. Effettuare un campionamento a 10Hz (Hertz) significa individuare 10 punti su una linea lunga “un secondo”, quindi: 10 valori al secondo. Se il nostro disegno iniziale rappresentava un’onda sonora di 1s, avendo raccolto 100 punti abbiamo fatto un campionamento a 100Hz.
Per quanto abbiamo intuito precedentemente, aumentare la frequenza di campionamento digitale dell’audio analogico permette di ricostruire il segnale iniziale con maggiore fedeltà.

Una questione di profondità (di campionamento)

Adesso è necessario introdurre un altro parametro importante, cioè la “profondità” del campionamento. Stavolta il paragone è meno intuitivo ma proviamoci ugualmente.

Torniamo all’esempio precedente, dove abbiamo individuato 100 punti quindi cento “valori”. Se vogliamo trasmettere l’informazione della curva dovremo trasmettere i valori ; per semplicità diamo per assodato che i punti sono tutti equidistanti tra di loro, cioè stiamo facendo un campionamento “a frequenza costante”, e che questa distanza è nota al ricevitore.

Il problema allora si trasforma nel come rappresentare questi valori. Immaginiamo di avere un alfabeto limitato per rappresentare i valori originali, ad esempio 256 valori possibili: ognuno dei punti (valori) iniziali sarà quindi rappresentato con il punto (valore) più vicino tra i 256 disponibili. Se vi sembra strano, considerate che nella vita quotidiana questo avviene continuamente: nessuno vi dirà che è alto 1m e 75,87738748768763876481867187628771231213cm, preferendo dirvi che è alto 1m e 75cm (beato lui). Per chi è abituato ad usare software di modellazione come AutoCAD: è come quando viene usato lo snap che permette solo spostamenti “quantizzati” degli oggetti.

Torniamo al nostro esempio: è facile intuire che tanto più ampio è l’insieme dei valori che possiamo usare, tanto minore sarà l’approssimazione dei valori da trasmettere quindi, nuovamente, tanto più “fedele” sarà la trasmissione. Per rappresentare questi valori si usa una “parola” lunga N bit: nell’esempio precedente abbiamo scelto una profondità di campionamento a 8bit (va inteso in questo modo: un numero binario di 8 bit può rappresentare 256 valori, dato che 2exp8 = 256). Riassumendo, anche aumentare la profondità del campionamento digitale dell’audio analogico permette di ricostruire il segnale iniziale con maggiore fedeltà.

E’ altrettanto facile intuire che per una rappresentazione fedele del segnale, è necessario che entrambe frequenza e profondità siano “sufficientemente” elevate.
Per simmetria con il mondo video la frequenza di campionamento congiuntamente alla profondità è generalmente indicata come “risoluzione” audio: quindi se sentite parlare di audio digitale “ad alta risoluzione” si intende audio digitale ottenuto con elevate frequenza e profondità di campionamento.

Che campionamento digitale ci serve?

Una volta capito cosa sono frequenza e profondità di campionamento, vediamo di che numeri stiamo parlando.
Come detto inizialmente il campionamento fu usato per trasmettere la voce; il segnale audio che rappresenta la voce è enormemente più semplice di quello che rappresenta la musica: basti pensare che in un singolo segnale sono contenute le informazioni di tutti gli strumenti musicali di una band o di una orchestra, ed ogni strumento ha la propria timbrica e relativo range di frequenze caratteristiche con estensione molto più ampia della voce umana.
Per ricostruire fedelmente una voce umana si è considerato sufficiente un range di frequenza di circa 4000-8000Hz, che indicheremo come 4kHz-8kHz (in questo scenario k = 1000). Per la profondità poteva essere sufficiente una “parola” da 8bit.

Poi arrivò il CD audio, e tutto si fece più complicato: la musica, come detto, è enormemente più complicata da rappresentare rispetto alla semplice voce umana quindi fu necessario usare frequenze di campionamento molto più elevate: il campionamento usato per i CD audio, considerato oggi la qualità “standard”, viene realizzato con frequenza 44.1kHz e profondità di 16bit. Notate che tra 8bit e 16bit la differenza è enorme, dato che si parla di numeri esponenziali: si passa infatti da 256 a 65.536 valori.

I’m feeling High

La qualità CD è definita standard (SD, standard definition), quindi i campionamenti ottenuti a frequenza/profondità minori sono definiti “low definition” (LD) mentre quelli con valori maggiori sono definiti “high definition” (HD). Nel mondo della musica digitale ad alta definizione, nella fascia HD si usano tipicamente valori da 24bit/96kHz in su, fino a 24/192 o valori ancora più stratosferici.

Come riportato sopra, l’esempio che ho usato per spiegare il campionamento digitale dell’audio analogico non corrisponde rigorosamente a quello che avviene in realtà. Per comprendere meglio i prossimi argomenti è necessario un approfondimento.

In origine era una chitarra

(…) pensavo è bello che dove finiscono le mie dita
debba in qualche modo incominciare una chitarra.

Amico fragile – F. De André

In origine, l’audio è analogico: l’orecchio umano percepisce segnali analogici, cioè “micro-variazioni nella densità dell’aria” (cit.). Queste micro-variazioni di pressione vengono percepite dal timpano, che è una sottilissima membrana che vibra in risposta alle variazioni di pressione, e questa vibrazione produce a sua volta un segnale che arriva fino al cervello, dove risiede il nostro “EAC biologico” (Environmental to Analogue Converter: non cercate nemmeno questo nei libri, non lo troverete).

campionamento digitale dell'audio analogico: ascolto diretto del suono

La registrazione analogica dei suoni usa un meccanismo simile: stavolta a vibrare non è il timpano ma una membrana, che vibrando produce un segnale elettrico che viene registrato su un supporto fisico (magnetico, vinile, o altro). Il percorso inverso prevede che questo segnale elettrico sia “estratto” dal supporto e usato per fare vibrare una differente membrana: quella del diffusore audio (la cassa, ad esempio) che quindi ricrea nell’aria le stesse micro-variazioni di densità allo scopo di spararle verso l’orecchio dell’ascoltatore.

campionamento digitale dell'audio analogico: riproduzione dei suoni

La digitalizzazione del segnale richiede un meccanismo per passare dal regno analogico (il segnale elettrico di cui sopra) al regno digitale, quindi rappresentando la curva con una lunga sequenza di 0 e 1. Questa magia avviene in accordo ad un bellissimo teorema matematico dal nome “teorema del campionamento di Nyquist-Shannon”.

Qui non si butta via niente

Abbiamo capito che è necessario che il campionamento sia “abbastanza stretto”: la magia del teorema di Nyquist-Shannon sta nel fatto che si può campionare il segnale senza perdita di informazione purché il campionamento avvenga ad una frequenza almeno doppia rispetto alla frequenza massima che si vuole preservare. Poiché l’orecchio umano non percepisce frequenze superiori ai 20kHz (in realtà molte di meno: 16-18kHz sono già una buona performance, e i valori si riducono con l’età: un minuto di silenzio per le decine di cellule ciliate che ci abbandonano ogni anno) se vogliamo preservare tutte le frequenze entro i 20kHz basterà fare un campionamento ad almeno 40kHz. Abbiamo inventato il campionamento “lossless” cioè, appunto, “senza perdita”.

Qui si potrebbe aprire un discorso infinito: è veramente senza perdita di dati utili? Ne parlerò meglio in un’altra occasione, ma accontentiamoci di dire che superando i 40kHz garantiamo la presenza di tutta o quasi l’informazione utile per l’orecchio umano. E’ il motivo per cui si scelse di usare per i CD un formato PCM a 44,1kHz a 16 bit, in modo da “non perdere niente di utile”.

Un paio di fun facts: il 16 si scelse perché al tempo erano comuni le CPU a 16bit; il 44.1 invece si dice che sia stato scelto al posto del più sensato 48kHz (per le frequenze si è soliti usare potenze di 2) perché altrimenti lo spazio disponibile sui supporti del tempo (i CD, ancora non esistevano i DVD o i Blu-Ray) non sarebbe stato sufficiente per contenere determinate registrazioni; in particolare non ci sarebbe entrata la 9a sinfonia di Beethoven (notoriamente una delle sinfonie più lunghe) e questo avrebbe causato l’opposizione di Herbert von Karajan: la Philips preferì accontentarlo. Quindi ho un altro motivo per avere von Karajan in antipatia. La leggenda potrebbe anche essere vera: il primo CD prodotto sul mercato è uscito nell’agosto 1982, ed era la Sinfonia delle Alpi di R. Strauss, eseguita dalla Berliner Philharmoniler diretta da un certo H. von Karajan.

Per concludere

L’audio ad alta risoluzione adotta frequenze di campionamento molto maggiori di quelle standard, in modo da contenere un range esteso dell’informazione audio originale. Se da questo ne consegue un reale beneficio o meno, è tema che affronterò altrove. Inoltre oggi difficilmente si usa un formato PCM “puro”, ma quasi esclusivamente dei formati di compressione che, nel caso della musica HD, sono sempre lossless; il discorso delle frequenze però si applica allo stesso identico modo.

Di recente si sta affermando l’uso del formato DSD, che è una alternativa rispetto al PCM e consente valori molto elevati di risoluzione: il formato è utile solo se la registrazione avviene già ad alta risoluzione, possibilmente già in formato DSD. Questo formato è supportato ad oggi solo da dispositivi (player e DAC) di livello medio alto, anche se ormai la diffusione è in rapida crescita.

Ma questa è un’altra storia.