Suono, formazione del
Il suono è la sensazione che si manifesta a livello cerebrale allorché un'onda di pressione ‒ ossia il propagarsi di un'alternanza di alta e bassa pressione ‒ incide sulla membrana timpanica. L'onda implica un'oscillazione delle molecole costituenti il mezzo ambiente, impartita loro da qualsiasi corpo soggetto a vibrazione. I suoni naturali che rivestono interesse nella fonazione e nella musica sono sempre complessi, vale a dire costituiti da una sovrapposizione di suoni armonici puri, detti parziali del suono, che consistono in onde aventi andamento sinusoidale, sia nello spazio sia nel tempo, con precisi valori della frequenza e con eventuali reciproci sfasamenti; un'onda pura può essere generata soltanto elettronicamente o per il tramite di un calcolatore. Il reciproco del periodo T fornisce la frequenza fondamentale dell'onda, ffond =1/T, che determina l'altezza percepita della nota.
Le principali sorgenti di vibrazioni sonore sono le corde, le membrane, le barre, le ance (meccaniche o a labbra). In molti casi, affinché la vibrazione produca un'apprezzabile onda sonora nell'ambiente esterno, così da essere percepita a distanza, la sorgente è accoppiata a un sistema capace di risonare con essa. L'insieme delle parziali che emergono dal sistema sorgente-risonatore determina il timbro caratteristico del suono complesso, senza dipendenza dagli sfasamenti. Al timbro contribuisce anche l'inviluppo (profilo temporale) del suono: pianoforte e violoncello hanno timbro differente perché la percussione e lo strofinamento di una corda creano un diverso inviluppo. In un dato strumento, il timbro varia in genere lungo la gamma suonata, divenendo tanto più povero (meno parziale) quanto più la nota diviene acuta.
Un'onda sonora in un mezzo confinato, come una corda a capi fissi, viene riflessa avanti e indietro, sovrapponendosi a sé stessa. Se ciò avviene in modo che si abbia interferenza costruttiva, si produce un'onda stazionaria, o modo normale di vibrazione: si hanno punti che non oscillano mai (i nodi) e altri che presentano un massimo di oscillazione (i ventri). Un'onda armonica pura in propagazione è descritta da
[1] formula,
dove x è lo spazio, t il tempo, y(x,t) la deviazione dalle condizioni di riposo, A l'ampiezza, φ la fase, f la frequenza e λ la lunghezza d'onda (il segno − vale per onde progressive e il + per quelle regressive). Per un'onda stazionaria, invece, si ha la relazione
[2] formula,
dove spazio e tempo compaiono come argomento di due funzioni sinusoidali distinte. La stazionarietà ha luogo per opportuni valori di λ (ossia di f=v/λ, con v velocità del suono sulla corda), che si ricavano imponendo il vincolo secondo cui ai capi fissi della corda si abbiano nodi. I modi normali sono anche detti armoniche della corda o, in musica, armonici. Le vibrazioni che non siano modi normali subiscono rapidamente smorzamento per interferenza distruttiva.
Il modo, o tono, fondamentale ha lunghezza d'onda pari al doppio della lunghezza della corda (λfond=2L), quindi la sua frequenza è ffond=v/λfond. Le lunghezze d'onda degli altri modi, detti ipertoni, sono sottomultipli interi di quella del tono fondamentale (λn=2L/n, dove λn è la lunghezza d'onda dell'n-esimo tono e n=1,2,3,…) e le rispettive frequenze sono multipli interi della fondamentale. L'ampiezza dei modi varia come 1/n, ossia in ragione inversa al numero d'ordine. La deformazione complessiva della corda si ha dalla somma di tutti i modi normali, presi con le dovute ampiezze e fasi. Nel suonare uno strumento a corda, è possibile inibire taluni modi stazionari toccando la corda in punti adatti: si parla di suonare per armonici e il timbro dello strumento risulta alterato. Nel caso delle colonne gassose degli strumenti a fiato, il discorso non muta, salvo che a oscillare sono le molecole dell'aria. Per una canna cilindrica sottile, si pongono per le onde stazionarie condizioni analoghe a quelle valide nel caso delle corde: se un estremo della canna è chiuso, come negli strumenti con bocchino ad ancia, le molecole a contatto con la parete non possono oscillare e si ha un nodo, analogamente a quanto avviene al capo fisso di una corda; all'estremo aperto, invece, l'oscillazione delle molecole ha luogo senza costrizioni e, quindi, si ha un ventre.
Negli strumenti a fiato, si preferisce far riferimento, piuttosto che al moto delle molecole, alla pressione gassosa oscillante (ossia alle variazioni di pressione locale rispetto a quella ambiente), grandezza a cui sono sensibili gli strumenti di rilevazione, quali microfoni e fonometri. Tra ampiezza di oscillazione delle molecole e pressione vi è una corrispondenza inversa, nel senso che, là dove le molecole rimangono bloccate, si ha un massimo di densità gassosa, e viceversa. La pressione, perciò, presenta un ventre a un estremo chiuso, un nodo in corrispondenza di un estremo aperto: a differenza delle corde, nelle canne chiuse a un estremo vi è un'asimmetria, che rende possibili soltanto modi normali di ordine dispari; matematicamente è, con n=0,1,2,3, λn=4L/(2n+1). Diverso è il comportamento delle canne a sezione conica o tronco-conica, come nell'oboe, nella tuba e nei saxofoni, oppure a sezione cilindrica che si apre a campana verso lo sbocco, come negli ottoni. La forma non cilindrica rimette in gioco le armoniche pari, dando luogo a una serie completa, come è nelle corde e nelle canne aperte a entrambe le estremità. Le canne, in realtà, agiscono da risonatori, in quanto la sorgente è soltanto la parte che pone in agitazione la colonna d'aria, come, per esempio, lo spigolo o taglio che, nelle canne d'organo dette ad anima, delimita l'ampia apertura inferiore. I modi stazionari che si insediano sono determinati dalla lunghezza della canna.
Nel caso delle corde, è possibile intonare la nota emessa agendo sulla loro lunghezza: tanto è minore, tanto più alta è la frequenza. Le varie note, in uno strumento come il pianoforte, il cembalo, l'arpa o la cetra, si producono agendo su altrettante corde di diversa lunghezza ‒ oltre che di diversa grossezza e tensione, dal momento che per la velocità del suono sulla corda vale la legge di Mersenne
[3] formula,
dove τ è la tensione e μ la densità lineare della corda, relazione che si trasmette sulla frequenza. In altri casi, ogni corda produce più note, a seconda di dove l'esecutore preme il dito per fissare la posizione del secondo capo fisso. Negli strumenti muniti di tastatura ‒ traversine nella chitarra, lacci di budello in strumenti antichi ‒ le note sono prefissate ai valori della scala musicale; senza questo accorgimento, è possibile variare con continuità la frequenza di emissione ed eseguire dei glissando.
Lo stesso può dirsi degli strumenti a fiato. Organo e flauto andino hanno una molteplicità di canne, mentre gli strumenti a canneggio singolo sfruttano l'aggiustabilità della lunghezza: essa può essere variata per tramite di una coulisse, come nel trombone a tiro, oppure mediante prolunghe controllate con pistoni o valvole, come in altri ottoni. Una terza possibilità, utilizzata nei legni, è quella di praticare lungo la canna fori tonali, normalmente chiusi da una valvola: quando la si apre, in quel punto la pressione all'interno del canneggio raggiunge il valore ambiente e viene a prodursi un nodo; di fatto, la lunghezza della canna risulta accorciata e la nota diventa più acuta. Negli strumenti a fiato, oltre ai fori tonali, sono presenti uno o più fori di registro, che permettono di passare a un registro più acuto. Nel clarinetto, per esempio, la creazione di un nodo a un terzo della lunghezza della canna triplica la frequenza del tono fondamentale. Con il foro chiuso, il clarinetto suona nel registro detto di chalumeau, caratterizzato dal fatto che le armoniche pari sono deboli o assenti. Le armoniche pari sono invece presenti nel registro alto, perché l'apertura del foro di registro rende il clarinetto meno dissimile da uno strumento che abbia entrambi gli estremi aperti.
Le canne e le corde, le cui parziali hanno frequenze che sono multipli interi di quella del tono fondamentale, sono emettitori di suono complesso armonico. Nello spettro, le parziali sono equidistanti in frequenza e la separazione è uguale alla frequenza del tono fondamentale, cosicché possiamo affermare che l'altezza percepita corrisponde alla distanza in frequenza tra le parziali. Per ciò che riguarda la percezione, un suono a strutturazione armonica costituisce un tutto unico, con frequenze perfettamente amalgamate, secondo il cosiddetto principio di armonicità. Nel caso in cui invece le componenti di frequenza superiore non siano esprimibili secondo multipli della fondamentale, si parla di suono inarmonico. È il caso della maggioranza dei suoni prodotti per percussione, dal tavolo colpito con le nocche, alle barrette di un Glockenspiel, ai tamburi. Se non sono usati particolari accorgimenti costruttivi, i suoni emessi da strumenti a carattere inarmonico non sono intonati, hanno cioè altezza indeterminata. I timpani e le campane tubolari sono relativamente intonabili, ma l'altezza percepita non corrisponde alla frequenza del modo vibrazionale di frequenza più bassa.
Nella fig. 2 è mostrato lo spettro di un colpo di cucchiaino metallico su un tavolo di legno e su due bicchieri. Nel caso del tavolo sono presenti tutte le frequenze, il suono è sordo e si estingue subito. Nel bicchiere di vetro scadente si nota una serie non armonica di frequenze discrete, corrispondenti a modi di vibrazione alquanto radi. Nel calice di cristallo di elevata qualità si osserva un gran numero di picchi stretti (indice di uno scarso smorzamento interno), ma scorrelati dal punto di vista armonico; il suono si presenta come un tintinnio caratteristico e si spegne soltanto dopo un intervallo di tempo molto più lungo rispetto al caso del bicchiere scadente. Il grado di fusione di un suono complesso inarmonico è solitamente inferiore a quello di un suono armonico. Con l'ausilio di un calcolatore si possono fare diversi esperimenti atti a rilevare questa e altre differenze. Per esempio, si può partire da un suono a struttura armonica e intervenire in modo da spostare in frequenza una parziale con gradualità. Si trova che, quando lo spostamento supera una certa soglia, la parziale è udita come una nota distinta dall'insieme delle altre.
Un effetto di notevole rilevanza è la possibilità che più suoni, combinandosi fra loro nel sistema orecchio-cervello, suscitino la percezione di suoni aggiuntivi, assenti dalla sorgente. Il caso più noto è il terzo suono, o suono di Tartini, dal nome del violinista che nel Settecento ne fece la scoperta. Una verifica di tale effetto si può fare suonando il tema God save the Queen in tonalità di do maggiore, sovrapposto allo stesso tema in sib maggiore: con buona approssimazione si percepisce lo stesso tema in sib maggiore tre ottave più in basso. Dal punto di vista matematico, questo genere di effetti è legato a note formule trigonometriche secondo cui, se si mescolano per somma o per prodotto due onde sinusoidali, si ottengono onde la cui frequenza è somma o differenza delle due primitive (la somma tuttavia risulta molto più debole della differenza). Tale è appunto il tipo di combinazione operato dal sistema orecchio-cervello. Inoltre, poiché la risposta di tale sistema non è proporzionale ai segnali ricevuti (soprattutto per suoni intensi), gli stessi due suoni di partenza si arricchiscono di parziali ‒ i cosiddetti armonici aurali ‒ e sono percepiti in modo alterato; il fenomeno è noto come distorsione armonica. Tale effetto comporta variazioni nel timbro di uno strumento a mano a mano che il suono sale di intensità.
In molti strumenti il tono fondamentale, e talvolta anche le prime componenti di frequenza superiore, sono più deboli di armonici elevati. Se il tono fondamentale risulta pressoché assente, l'altezza percepita è virtuale. È il caso delle note più profonde in strumenti di grandi dimensioni, quali il pianoforte e il contrabbasso. Essi hanno difficoltà a trasmettere la vibrazione della cassa all'aria, a causa di un'elevata impedenza di trasferimento. L'altezza della nota percepita permane quella del tono fondamentale, in quanto il suo periodo è un multiplo di quelli delle componenti di frequenza superiore, che pertanto ne garantiscono la dominanza. A ciò contribuisce naturalmente anche l'effetto Tartini. Oltre al problema del trasferimento cassa-aria, i registri bassi incontrano anche l'inconveniente che per essi l'orecchio ha scarsa sensibilità. Le armoniche elevate attivano con maggiore facilità il sistema orecchio-cervello, al cui interno è ricostruita la percezione del tono fondamentale. Negli strumenti inarmonici, per esempio le campane tubolari, la nota percepita può non avere alcuna relazione con le parziali del suono emesso. Essa corrisponde, grosso modo, alla separazione in frequenza tra terza e quarta e tra quarta e quinta parziale; la frequenza dell'ottava parziale (situata in zona di alta sensibilità uditiva) a un multiplo 10 di tale separazione. È dalla combinazione di queste intense parziali che trae origine l'altezza virtuale percepita. A differenza del caso armonico, la forma d'onda complessiva non offre caratteristiche di esatta periodicità, il che conferisce al timbro un sapore particolare, discorso che vale anche per le normali campane.
In molti casi, la sorgente di suono richiede la presenza di un risonatore che intensifichi la perturbazione dell'ambiente gassoso e che conferisca allo strumento il timbro caratteristico. È anch'esso un sistema oscillante, che agisce in accoppiamento con il vibratore primario ed è attivato dall'energia meccanica che questo gli trasmette. Negli strumenti a fiato, il risonatore è la canna, negli strumenti a corde, la cassa, e segnatamente, la tavola armonica. Variabile per forma, materiale, spessore, qualità della vernice, la tavola armonica ha risonanze proprie che determinano in misura precipua le caratteristiche dello strumento. Nel violino essa è resa solidale alla tavola di fondo dall'anima, un piccolo cilindro in legno: sollecitate a vibrare attraverso il ponticello, le due tavole eccitano sia l'aria esterna sia quella interna alla cassa, generando in essa onde stazionarie. Anche queste contribuiscono al suono, emergendo attraverso opportune aperture ‒ i fori a f nei violini, la buca circolare nella chitarra. La cassa di risonanza deve poter risuonare sull'intera gamma di frequenze alle quali vibrano le corde e, affinché ciò sia possibile, occorre che abbia una forma sinuosa. Gli elementi che concorrono a formare lo spettro di emissione di uno strumento a corde derivano pertanto dall'insieme dei seguenti fattori: modi normali della corda; caratteristiche di trasferimento del ponticello alle varie frequenze; spettro delle risonanze della cassa (determinabile per eccitazione alle singole frequenze mediante vibratori piezoelettrici). In genere, avviene che alcune tra le armoniche basse risultano attenuate e che la massima emissione abbia luogo nella zona della risonanza principale della cassa.
Lo spettro di emissione è un dato quantitativo caratterizzante uno strumento. Lo si determina sperimentalmente suonando tutta la gamma delle note di cui esso è capace (nel caso degli archi, per es., si produce una serie di glissando da cima a fondo di ciascuna corda) ed eseguendo l'analisi di Fourier della registrazione complessiva. Per un buon violino si trova tipicamente una curva del tipo mostrato nella fig. 4. Le bande più intense, o frequenze formanti, sono situate presso 500 Hz e 1000 Hz, mentre diverse altre sono raggruppate tra i 1500 e i 3500 Hz. Queste ultime conferiscono al violino la caratteristica voce sonora e argentina. La risonanza dell'aria a circa 300 Hz, dovuta al gas che fluisce attraverso i fori a f, è decisiva nel rafforzare le note basse dello strumento. Negli altri componenti della famiglia degli archi, le formanti e le frequenze di taglio risultano scalate rispetto a quelle del violino, in proporzione alle rispettive estensioni; per esempio, per la risonanza fondamentale della tavola si ha: violino ≈500 Hz, viola ≈450 Hz, violoncello ≈200 Hz, contrabbasso ≈60 Hz.
Per trasferire energia da una sorgente di suono a un altro sistema oscillante occorre un dispositivo di accoppiamento, quale il ponticello negli strumenti ad arco. Il sistema, o mezzo, che è forzato a oscillare per accoppiamento con una sorgente di suono oppone alla forza agente una resistenza caratteristica di ogni sistema oscillante, detta impedenza acustica, dovuta per esempio alla propria inerzia. Il trasferimento di energia meccanica da un mezzo a un altro è favorito al massimo quando le due impedenze sono eguali. Se i due mezzi hanno impedenze molto diverse ‒ come avviene per una corda, che ha impedenza piccola, e una cassa, con impedenza alquanto maggiore ‒, il trasferimento di energia è modesto e si ha una forte riflessione delle vibrazioni verso la sorgente. Tale inconveniente può essere ovviato interponendo tra i due sistemi un terzo elemento, detto adattatore di impedenza. Un adattatore che abbia impedenza intermedia tra quella dei due costituisce già un miglioramento, ma la soluzione ottimale si realizza con un adattatore la cui impedenza vari con gradualità tra i due estremi: nel caso del ponticello, un'impedenza che alla cima eguagli quella delle corde e alla base quella della cassa. È questo il motivo per cui il materiale di cui il ponticello è fatto, la sua forma e il suo posizionamento sulla tavola armonica sono cruciali.
L'impedenza di una corda è in genere tanto maggiore quanto più quest'ultima è pesante, mentre nel caso della tavola armonica essa cresce con l'estensione della superficie e con il quadrato dello spessore. Ecco perché, da un lato, le tavole armoniche sono rese quanto più sottili possibile e, dall'altro, il loro accoppiamento con l'ambiente esterno, mezzo caratterizzato da un'impedenza virtualmente nulla, diviene problematico quando le tavole sono ampie e robuste. Negli strumenti a fiato, nei quali si ha a che fare con onde di pressione, l'impedenza acustica è data dal rapporto tra la pressione oscillante e la portata gassosa della canna. Poiché tale portata aumenta con la sezione, l'impedenza è tanto più alta quanto più il condotto è sottile. Nello spazio esterno l'impedenza è invece virtualmente nulla, per cui si pone il problema di un forte rigetto delle onde verso l'interno della canna con una scarsa efficienza di emissione. Ciò è vero soprattutto negli ottoni, che lungo la parete del canneggio non hanno fori tonali atti a offrire uno sfogo all'onda sonora. Si ricorre in questo caso all'espediente di modellare lo sbocco della canna secondo la forma di campana, in modo che l'impedenza eguagli quella della canna all'estremo stretto, ma si riduca di molto allo sbocco.
Si è dato per scontato, finora, che i suoni abbiano durata infinita, ma il fatto che essi abbiano invece un principio e una fine causa, come per ogni altro tipo di onda, una certa indeterminazione tonale, data dalla condizione:
[4] Δt ∙Δf ≈ 1
dove Δt è la durata del suono e Δf è la larghezza della banda di frequenze presenti nel pacchetto centrato attorno alla frequenza f. Tale condizione diventa critica nel caso di rapidi transienti nell'intensità sonora, come l'attacco di note ottenute per percussione o pizzicato: la vasta gamma di frequenze presenti si traduce in un 'toc' o 'clic'. Con una chitarra è facile verificare, passando dal polpastrello al plettro, che la presenza del clic è tanto più marcata quanto più breve è la durata della pizzicata.
Gli strumenti a fiato si dividono in legni e ottoni. Al primo gruppo appartengono il clarinetto, l'oboe e il fagotto. Il clarinetto è uno strumento ad ancia singola costituito da un tubo cilindrico aperto a un estremo, dove presenta una leggera svasatura; la colonna gassosa è attivata da un'ancia singola, linguetta vibrante in legno di canna. Nel registro basso, o di chalumeau, il clarinetto è capace di notevole potenza acustica. Al crescere del livello di suono, l'ancia agisce sul timbro dello strumento, arricchendolo di armoniche alte. L'oboe ha una doppia ancia meccanica accoppiata a un tubo tronco-conico a sbocco svasato. La conicità interna del canneggio, il cui diametro presso il bocchino è circa quattro volte minore che non presso la campana di sbocco, garantisce l'attivazione anche dei modi pari benché una delle estremità della canna sia chiusa dall'ancia come nel clarinetto. Il timbro dell'oboe è più penetrante di quello del clarinetto, ma più legnoso e nasale. Il fagotto, anch'esso ad ancia doppia, ha una canna conica ripiegata, di lunghezza un po' superiore ai 2,5 m, ciò che gli consente di scendere a note prossime ai 60 Hz. Tra i legni sono abitualmente annoverati anche i flauti diritto e traverso e il gruppo dei saxofoni. Il flauto traverso è uno strumento ad anima, con camera cilindrica aperta ad ambo le estremità, il che consente allo strumento di coprire un registro più alto e garantisce la presenza naturale di armoniche sia pari sia dispari; l'energia acustica è però largamente concentrata nell'armonica fondamentale, e ciò tanto più quanto più la nota è acuta. L'ottavino, o flauto piccolo, è lo strumento che nell'orchestra produce le note più alte. Il saxofono è uno strumento ad ancia singola, accoppiata con una camera di conicità più pronunciata che non nell'oboe e nel fagotto e terminante in una svasatura. La famiglia dei saxofoni è costituita da sette componenti ‒ sopranino, soprano, contralto, tenore, baritono, basso e contrabbasso. Soltanto i primi due sono a canna diritta, tutti gli altri hanno una flessura di 180° che fa volgere la parte svasata verso l'alto. La lunghezza globale della canna ripiegata è circa 1 m nel contralto e 1,40 m nel tenore.
Negli ottoni il ruolo dell'ancia è svolto dalle labbra. Essendo queste assai più massicce e morbide delle ance, la loro frequenza caratteristica di vibrazione, a differenza di quanto avviene nei legni, è inferiore a quella dei modi normali della canna, ciò che rende importante l'interazione con la colonna gassosa. Il suonatore modifica la tensione delle labbra in modo tale che la loro frequenza di vibrazione favorisca nella colonna d'aria l'insediamento della nota desiderata, così che la colonna e le labbra cooperano nel produrla. In questo meccanismo un ruolo cruciale è giocato dal bocchino e dalle variazioni di pressione in seno a esso. Gli ottoni si dividono essenzialmente in due famiglie: una prima, della quale fanno parte tromba e trombone, in cui il canneggio è costituito da un tubo cilindrico terminante in una campana marcatamente svasata (il padiglione), geometria che comporta un timbro chiaro e brillante; una seconda, che comprende i flicorni e le tube, in cui il canneggio ha invece un andamento conico per l'intera lunghezza, con un'ulteriore svasatura allo sbocco, geometria che rende il timbro più scuro. Il corno è un ibrido, avendo il tratto delle prolunghe a sezione cilindrica.
Suonando un semplice tubo metallico di sezione cilindrica, si otterrebbero soltanto tre note, la terza, la quinta e la settima armonica del tono fondamentale. Ma se allo sbocco del tubo si inserisce un imbuto, compaiono anche delle armoniche pari. Tale è il ruolo della campana negli ottoni. Il suo compito è cruciale non soltanto perché, eliminando il brusco salto di impedenza all'uscita del canneggio, permette che parte dell'energia acustica emerga dallo strumento, ma anche perché riflette le onde a diverse profondità per le varie frequenze: quelle più alte penetrano nella campana maggiormente e sono riflesse vicino allo sbocco; quelle più basse si riflettono invece presso la base della campana, e dunque per loro lo strumento risul-ta di fatto accorciato. Ciò comporta un innalzamento in frequenza, con un conseguente addensamento dei modi normali. La serie esatta delle armoniche si ottiene con un paziente aggiustamento del profilo della campana (oltre che del bocchino e del canneggio). Esiste comunque una frequenza detta di taglio, sopra la quale l'emissione si indebolisce. Tale frequenza, e con essa la sonorità e la qualità timbrica, può essere variata ponendo un ostacolo ‒ tappo di sordina ‒ nell'incavo della campana (nel corno, per es., una mano infilata nel padiglione innalza la frequenza di taglio, favorendo l'emissione di armonici più elevati). Per ciò che riguarda la geometria, dal punto di vista teorico la campana ha il profilo di un tubo di Bessel, il cui raggio è descritto dall'equazione
[5] r(x) = b(x + x0)−γ
dove x0 corrisponde al bordo esterno della campana e l'ascissa x cresce verso l'interno, b e γ sono parametri da scegliere in modo da fornire per r(x) i raggi noti all'inizio e alla fine della campana. Il profilo descritto dalla [5] è rappresentato nella fig. 5 per diversi valori del parametro di svasatura γ, avendo fissato a 10 il rapporto tra i diametri massimo e minimo della campana. Il suono risulta tanto più squillante quanto più piccolo è γ. Valori ridotti (tipicamente attorno a 0,7) sono propri della tromba e del trombone, grandi γ sono rappresentativi dei generi cornetta, corno e tuba.
La voce compendia in sé le caratteristiche sia del violino, per il fatto che la fonte del suono è costituita da corde in oscillazione (le pieghe vocali), sia degli strumenti a fiato, per il fatto di avere una cavità risonante (la cavità oro-faringea), determinante non solamente nel caratterizzare le diverse voci ‒ maschile, femminile, infantile, nasale, falsetto, di persone differenti ‒ ma anche nel plasmare le varie vocali. La versatilità deriva dal fatto che le parti del nostro apparato vocale sono suscettibili di grandi modificazioni, ciò che non può aversi in uno strumento. Quando il flusso d'aria proveniente dai polmoni passa attraverso le pieghe vocali, queste entrano in oscillazione secondo il seguente meccanismo. A pieghe vocali serrate, l'aria si accumula sotto di esse fino a che la sua pressione è in grado di farle divaricare, con un improvviso sfogo verso la cavità orale; poiché un gas in scorrimento su una superficie (nel nostro caso l'interno delle pieghe vocali) esercita su di essa un risucchio, prodotto dal cosiddetto effetto Bernoulli, le pieghe sono attratte verso la posizione di chiusura e il ciclo si riproduce. L'intensità del flusso gassoso ha massimi e minimi asimmetrici. Mediante la trasformata di Fourier, si osserva che un segnale di tal genere è rappresentabile come un'estesa serie di armoniche del tono fondamentale, decadenti in intensità per circa 12 dB ogni qualvolta la frequenza raddoppia. Il timbro è dunque di carattere armonico. Il tono fondamentale è tanto più grave quanto più le pieghe vocali sono lunghe. Nel normale parlato, la sua frequenza cade attorno ai 150 Hz per la voce maschile, un po' sopra i 200 Hz per quella femminile, e ancora più in alto nei bambini. Per rendere più acuto il suono emesso, si aumenta la tensione delle corde agendo sulla muscolatura preposta.
Se le pieghe vocali operassero nello spazio aperto, il suono sarebbe debole, aspro e privo di variabilità; tuttavia, nell'attraversare il tratto laringe-faringe-bocca-labbra il suono si trasforma: le armoniche di frequenza prossima a quella dei modi normali di oscillazione della colonna d'aria ivi contenuta vengono rafforzate, mentre le altre si attenuano. Se il tratto vocale fosse un cilindro curvo di sezione costante, chiuso alla laringe e aperto alla bocca, i suoi modi di risonanza sarebbero gli stessi di una canna d'organo tappata, ossia i modi dispari. Per una lunghezza di 17 cm ‒ valor medio maschile ‒ il modo fondamentale cadrebbe a 500 Hz e i due successivi a 1500 Hz e 2500 Hz. Per il tratto vocale femminile essi risulterebbero un po' più alti. Questa diversità accentua le differenze tra i timbri maschile, femminile e infantile. Nella fig. 6 è schematizzato l'apparato fonatorio.
In realtà, la sezione del tratto vocale non è costante, anzi, può essere alterata da punto a punto. Come risultato, le frequenze di risonanza ‒ dette formanti della voce ‒ variano di molto, dando luogo a un'ampia gamma di possibili timbri. L'assetto del tratto vocale non si discosta troppo da quello cilindrico nel caso si pronunci una 'e' pendente verso 'ö' (francese feu). L'abbassamento della mascella, con ampia apertura della bocca, sposta le formanti in modo da portare all'emissione della vocale 'a'. La chiusura delle labbra, invece, fatta in concomitanza con il sollevamento della lingua verso il palato, corrisponde alla 'i', mentre la 'u' si ottiene chiudendo ulteriormente le labbra e limitando la strozzatura al solo fondo della bocca. La riconoscibilità di una vocale è largamente determinata dalle due formanti di frequenza più bassa. Si dice piano formantico quello individuato da assi su cui sono rappresentate le frequenze delle suddette formanti. Un esempio di parlato di soprano è illustrato nella fig. 7. Voci diverse portano a figure diverse, ma la vocale rimane riconoscibile se le deviazioni dai valori riportati nella figura non sono eccessive. È possibile sagomare la bocca in modo da percorrere con continuità il circuito tracciato. Lo stesso si può fare lungo percorsi come quello a tratteggio, passanti per la vocale perno 'ö'.
I cantanti professionisti sanno esercitare un controllo volontario sul meccanismo formantico, così da plasmare il proprio timbro. In genere, essi fanno in modo che la prima formante si sposti in frequenza e si porti a coincidere con quella della nota cantata, sonorizzandola. Con tale operazione, le differenze formantiche tra le varie vocali tendono a svanire e ciò implica una crescente perdita di riconoscibilità, soprattutto ai limiti superiori del registro, dove anche la seconda formante e altre superiori possono andare a confluire nell'uno o nell'altro degli armonici delle pieghe vocali. Le voci di baritono e di basso, avendo formanti profonde, tendono a essere coperte da una grande orchestra, la quale, nella zona di frequenze tra 100 e 2000 Hz, è più potente del cantante. L'allargamento della faringe, combinato con l'abbassamento della laringe, altera la cavità vocale in modo da originare una nuova formante più alta: la formante dei cantanti. Essa è situata verso i 2400 Hz e conferisce alla voce maggior vigore, permettendole di svettare sopra l'orchestra.
Cingolani, Spagnolo 2005: Acustica musicale e architettonica, a cura di Sergio Cingolani, Renato Spagnolo, Torino, UTET, 2005.
Fletcher, Rossing 1990: Fletcher, Neville H. - Rossing, Thomas D., The physics of musical instruments, New York, Springer, 1990.
Frova 1999: Frova, Andrea, Fisica nella musica, Bologna, Zanichelli, 1999.
Pierce 1988: Pierce, John R., La scienza del suono, Bologna, Zanichelli, 1988.
Rossing 1990: Rossing, Thomas D., The science of sound, New York, Addison-Wesley, 1990.
Sundberg 1987: Sundberg, Johan, The science of the singing voice, Dekalb (Ill.), Northern Illinois University Press, 1987.