fonetica acustica, nozioni e termini di
Come si analizza il segnale acustico
La fonetica acustica è lo studio dei segnali acustici complessi diretto a scomporli nelle loro componenti semplici. Essa si serve principalmente della spettrografia, la tecnica di analisi che permette la scomposizione, mediante il procedimento matematico denominato trasformata di Fourier. Lo spettrogramma è la rappresentazione grafica di tale procedimento.
Un’onda è detta semplice se è prodotta da un corpo che oscilla in ogni sua parte a una stessa frequenza. In natura non esistono sorgenti sonore in grado di produrre onde semplici; l’unico oggetto in grado di farlo, il diapason, deve essere appositamente costruito in modo tale che, quando messo in vibrazione, oscilli in ogni sua parte a una e a una sola frequenza. Anche nel caso di una corda tesa vincolata alle due estremità, come, ad es., la corda di una chitarra, il segnale generato è un segnale complesso, costituito dalla somma di più frequenze, una multipla dell’altra. Tali frequenze vengono dette armoniche: la frequenza più bassa è detta fondamentale (o prima armonica) e corrisponde sul piano percettivo all’altezza (o tono) del suono prodotto. Per restare all’esempio della chitarra, se si mettono in vibrazione contemporaneamente due corde, si continuerà a sentire un singolo suono, diverso da quello prodotto dalla vibrazione dell’una o dell’altra corda. La ragione è che le onde sonore hanno la proprietà di sommarsi tra loro. La frequenza dell’onda complessa risultante equivale alla frequenza della sua componente più bassa. Se alla corda vibrante si aggiunge un risonatore, come la cassa armonica della chitarra, alle onde prodotte dalle vibrazioni della corda si aggiungono quelle prodotte dal risonatore, che si mette a oscillare a frequenze che dipendono dalla sua forma e dal materiale di cui è costituito.
L’apparato fonatorio è molto più complicato di una semplice corda vibrante accoppiata a un risonatore a volume fisso: la sorgente sonora, costituita dalle corde (o pliche) vocali, varia rapidamente grazie alla contrazione di alcuni muscoli laringei, in particolare del muscolo tensore (il cricotiroideo) che tende in misura maggiore o minore le due corde facendole vibrare a frequenza diversa. Per quanto riguarda il risonatore, esso genera frequenze differenti a seconda della forma assunta dalle diverse cavità (laringale, faringale, orale, nasale), dell’elasticità dei tessuti, della loro conformazione e dimensione.
Anche tali frequenze variano molto rapidamente nel tempo grazie alla grande motilità degli organi articolatori e ciò comporta significative variazioni del segnale prodotto che, anche se dell’ordine di pochi millisecondi, risultano rilevanti sul piano percettivo. Il risultato di tutta questa complessa attività è la voce, un’onda sonora le cui caratteristiche variano istante per istante in dipendenza dei movimenti articolatori.
Il tracciato spettrografico è il tentativo di rappresentare graficamente tutto questo. L’applicazione della tecnica spettrografica all’analisi della voce risale al 1951, anno in cui viene prodotto e messo in commercio dalla Kay Electrics il primo modello di sound spectrograph. Oggi sono disponibili vari modelli di spettrografi, sia hardware, come il CSL (Computerized speech lab) della Kaypentax, sia software, come il Multi-Speech, commercializzato dalla stessa società, o il Praat, elaborato presso l’università di Amsterdam e scaricabile dalla rete. Gli spettrogrammi riportati nelle figure seguenti sono stati prodotti con WaveSurfer 1.8.5, un software open source elaborato dal CTT (Centre for speech technology) del KTH (Kungliga tekniska Högskolan; in ingl., Royal Institute of technology) di Stoccolma.
Lo spettrogramma è il tracciato tridimensionale ottenuto mediante la scomposizione del segnale complesso nelle sue varie componenti semplici.
Sull’asse delle ascisse viene rappresentato il tempo, sull’asse delle ordinate le frequenze. La terza dimensione è quella dell’intensità, rappresentata dal maggiore o minore annerimento del tracciato. A seconda del diverso procedimento utilizzato nel filtrare il segnale complesso, lo spettrogramma assume caratteristiche diverse (fig. 1).
I due filtri passabanda comunemente utilizzati hanno una larghezza di 45 Hz (spettrogramma a banda stretta) e di 300 Hz (spettrogramma a banda larga). Il primo mette in evidenza il comportamento delle corde vocali, in quanto separa le singole armoniche che vengono rappresentate da una serie di striature orizzontali. La distanza tra due striature contigue, misurata in Hz sulla scala delle frequenze, dà il valore della frequenza di vibrazione della glottide o frequenza fondamentale (F0). Il secondo mette in risalto le cosiddette formanti (frequenze di risonanza generate dalle cavità sopralaringali) evidenziate da zone di maggiore annerimento, senza che vengano perdute le informazioni sul comportamento della sorgente glottidale: le aperture e chiusure delle corde vocali sono infatti rappresentate da striature verticali periodiche. L’altezza di una formante, misurata nel punto centrale della banda annerita, dipende non solo dalla forma del risonatore ma anche dalla sua dimensione: in generale si può dire che più piccola è la cavità, più alta è la frequenza alla quale risuona.
Sia la frequenza fondamentale che le altezze formantiche variano in relazione alle caratteristiche fisiche del parlante. La frequenza fondamentale di un parlato conversazionale è mediamente compresa tra 70 e 150 Hz per una voce maschile, tra 150 e 250 Hz per una voce femminile, tra 250 e 350 Hz per una voce di bambino. Tali differenze sono dovute alla diversa lunghezza e al diverso spessore delle corde vocali, più lunghe e spesse nell’uomo, più corte e sottili nella donna, ancora più corte nel bambino. Per quanto riguarda le altezze formantiche, il canale epilaringeo, dalla glottide alla labbra, è mediamente lungo 17,5 cm nell’uomo, più corto di circa il 15% nella donna e del 50% nel bambino: questo comporta, a parità di conformazione, formanti più basse nella voce maschile rispetto alla voce femminile e a quella infantile.
Oltre all’analisi di tipo segmentale, lo spettrogramma consente anche un’indagine di tipo soprasegmentale (fig. 2), in quanto dal tracciato è possibile ricavare la durata dei singoli foni, la loro intensità e l’andamento intonativo dell’enunciato. Infine l’analisi spettrografica permette di evidenziare i numerosi effetti di coarticolazione che caratterizzano il parlato.
Le ➔ vocali sono foni prodotti con un canale fonatorio libero, che non presenta chiusure né restringimenti. La loro produzione è quindi caratterizzata da una gran quantità di flusso d’aria espiratoria per tutta la loro durata e ciò, in termini acustici, corrisponde a un segnale molto intenso. Inoltre l’assenza di impedimenti permette alle cavità sopralaringali di vibrare liberamente alle proprie frequenze di risonanza, per cui le formanti saranno, sullo spettro, ben definite e marcate.
Per l’individuazione delle vocali è sufficiente far riferimento all’altezza delle prime due formanti (F1 e F2) la cui dislocazione cambia a seconda della vocale: in generale si può dire che, per le vocali anteriori, più la vocale è chiusa più le due formanti sono distanti l’una dall’altra; per le vocali posteriori protruse, più la vocale è chiusa più le due formanti sono basse e vicine. Nella determinazione del grado di apertura della vocale vanno tenute presenti le seguenti corrispondenze articolatorio-acustiche:
(b) un restringimento nella cavità faringale determina, rispetto ai valori formantici di [ə], l’innalzamento della F1 e l’abbassamento della F2; maggiore è la costrizione, maggiore è l’effetto sulla formante;
(c) l’arrotondamento e la protrusione delle labbra determinano l’abbassamento di tutte le formanti; maggiore è la labializzazione, maggiore è l’effetto sulle formanti.
L’unica vocale ad avere tutte le formanti equidistanti l’una dall’altra è la vocale centrale [ə], il cui tracciato costituisce un utile punto di riferimento nell’operazione di lettura spettrografica. Infatti se la distanza in Hz tra due formanti consecutive (Fn+1 – Fn) è uguale a 1000 Hz, il canale epilaringeo è lungo 17,5 cm. Per valori diversi di Fn+1 – Fn è possibile ricavare la lunghezza della distanza glottide-labbra del locutore secondo la formula x = 17,5 ‧ 1000 / k, dove x è la lunghezza cercata e k è la distanza Fn+1 – Fn misurata in Hz. Avendo come riferimento la vocale centrale è possibile determinare con precisione le caratteristiche articolatorie dei segmenti vocalici e, in base ai valori di F1 e F2 di ciascuno di essi, assegnare il corrispondente simbolo IPA. I valori medi di F1 e F2 delle sette vocali dell’italiano pronunciate da voce adulta maschile e femminile sono riportati nello specchietto che segue (ricavato da Ferrero & Magno Caldognetto 1986):
vocale F1 - F2 F1 - F2
voce maschile voce femminile
[i] 280 - 2240 320 - 2750
[e] 360 - 2040 400 - 2500
[ɛ] 560 - 1840 620 - 2400
[a] 800 - 1280 920 - 1400
[ɔ] 520 - 900 640 - 1200
[o] 420 - 800 400 - 920
[u] 280 - 720 360 - 760
La fig. 3 mostra i pattern formantici delle sette vocali dell'italiano pronunciate da voce maschile.
Sul piano articolatorio i parametri che individuano una consonante sono tre: la sua natura sorda o sonora, il modo e il luogo di articolazione (➔ nozioni e termini di fonetica articolatoria).
Riguardo al primo punto, lo spettrogramma permette immediatamente di distinguere i tratti sonori da quelli sordi: le consonanti sonore sono caratterizzate da striature verticali periodiche corrispondenti alle aperture e chiusure glottidali, le consonanti sorde da assenza di periodicità del segnale. In fig. 4 sono evidenziati i tratti sordi e quelli sonori.
Per quanto riguarda il modo di articolazione consonantico, il pattern spettrografico di ciascun modo deriva dalla meccanica articolatoria che lo contraddistingue. Qui di seguito sono riassunte le caratteristiche acustiche e spettrografiche dei singoli modi di articolazione.
(a) consonanti occlusive
correlati acustici: silenzio per tutta la durata della consonante seguito da forte rumore momentaneo
pattern spettrografico: spazio bianco (nel caso di occlusiva sonora, striature periodiche alla base) seguito da striature molto marcate di breve durata
(b) consonanti nasali
correlati acustici: mormorio nasale per tutta la durata della consonante
pattern spettrografico: striature verticali periodiche (in quanto sempre sonore), formanti marcate intorno ai 250 Hz e sbiadite tra i 250 Hz e i 2000 Hz
(c) consonanti fricative
correlati acustici: fruscio per tutta la durata del fono
pattern spettrografico: striature verticali irregolari (nel caso di fricative sonore si aggiungono striature periodiche)
(d) consonanti affricate
correlati acustici: silenzio seguito da fruscio
pattern spettrografico: spazio bianco seguito da un tratto caratterizzato da striature irregolari (nel caso di affricate sonore si aggiungono striature periodiche)
(e) consonanti vibranti
correlati acustici: rapido alternarsi di silenzio e rumore
pattern spettrografico: successione di brevi spazi bianchi e striature verticali periodiche (le vibranti sono sempre sonore)
(f) consonanti laterali
correlati acustici: suono continuo di tipo vocalico, ma meno intenso
pattern spettrografico: striature verticali periodiche (le laterali sono sempre sonore) con formanti marcate e distinte
Alcuni esempi di modi consonantici sono mostrati in fig. 5. Si notano i tratti tipici delle consonanti fricative [f] e [ʃ], della nasale [n], dell’occlusiva [t].
Il luogo di articolazione delle consonanti è spettrograficamente ricavabile dall’altezza della F2. Quando, come nel caso delle occlusive, la F2 non è visibile, è possibile ricavare il luogo dalle deviazioni, ascendenti o discendenti, delle seconde formanti delle vocali a contatto (la «teoria dei loci», formulata per la prima volta da Delattre, Liberman & Cooper 1955, e successivamente ripresa da vari studiosi). Tali deviazioni convergono verso un locus che rappresenta il corrispettivo acustico del luogo articolatorio: 700 Hz per un luogo labiale, 1800 Hz per un luogo dentale o postalveolare, 2000 Hz per un luogo palatale. Per un luogo velare vi sono due diversi loci: al di sopra dei 2200 Hz se la vocale a contatto è aprocheila, intorno ai 700 Hz se la vocale è procheila. Tali valori si riferiscono a una voce maschile (per una voce femminile è sufficiente aumentarli del 15%). Infine va detto che anche la F1 varia al variare del luogo articolatorio. Infatti se la F1 è inferiore ai 500 Hz la costrizione è localizzata nella cavità orale, se la F1 supera i 500 Hz la costrizione è nella cavità faringale.
In fig. 6, a titolo riassuntivo, è riportato lo spettrogramma della frase quell’assolo di tromba. Per quanto riguarda i loci delle consonanti occlusive si può notare come la velare iniziale [k] presenti un locus al di sotto dei 1000 Hz per effetto della vocale procheila a contatto, e come le alveolari [d] e [t] abbiano entrambe un locus di F2 intorno ai 1800 Hz. Inoltre, il tracciato evidenzia molti fenomeni di coarticolazione. Si nota, ad es., che le due consonanti laterali [l] presentano una diversa F2: intorno ai 1800 Hz la prima, intorno ai 1200 Hz la seconda. L’abbassamento è evidentemente dovuto alla labializzazione: nel primo caso la consonante è in contesto non labializzato, nel secondo si trova a contatto con vocali protruse e arrotondate. La labializzazione quindi, già presente nella prima [o], per economia articolatoria permane durante la produzione della laterale e continua nella vocale che segue.
Effetti di coarticolazione sono visibili anche nel tratto corrispondente alla fricativa [s]. Notiamo infatti che il segnale più intenso si trova inizialmente nella zona compresa tra i 5 e i 7 kHz, ma a partire da un certo istante, circa a metà del tratto, il segnale si abbassa bruscamente. L’abbassamento di tutto il segnale indica che anche questa volta la causa della variazione acustica va ricercata nello spostamento delle labbra, che iniziano ad arrotondarsi durante la consonante, anticipando la labializzazione della vocale che segue. Tale punto segna il confine tra un’unità articolatoria di programmazione (detta anche sillaba articolatoria) e la successiva (su questo, cfr. Koževnikov & Chistovich 1965). Interessante è anche il nesso [mb], in quanto si può notare come la nasalità (caratterizzata dal segnale poco intenso ma diffuso) continui anche durante l’occlusiva, evidentemente per un ritardo della chiusura del diaframma rinovelare (il velo pendulo ha una velocità intrinseca minore rispetto agli altri organi articolatori).
L’analisi spettrografica consente, in definitiva, di rivelare molti dettagli articolatori che non potrebbero in alcun modo essere individuati se non mediante tecniche di indagine più o meno invasive (radiografiche, cineradiografiche, palatografiche), le quali, peraltro, impediscono la spontaneità e la normalità dell’eloquio. L’indagine spettrografica resta quindi uno strumento essenziale per lo studio della voce e del suono linguistico.
Albano Leoni, Federico & Maturi, Pietro (20023), Manuale di fonetica, Roma, Carocci (1a ed. Roma, NIS, 1995).
Borden, Gloria J., Harris, Katherine S. & Raphael, Lawrence J. (1994), Speech science primer. Physiology, acoustics, and perception of speech, Philadelphia, Lippincott Williams & Wilkins.
Delattre, Pierre C. (1958), Les indices de la parole: premier rapport, «Phonetica. International journal of phonetic science» 2, pp. 108-118.
Delattre, Pierre C. (1962), Le jeu des transitions des formants et la perception des consonnes. Proceedings of the fourth international congress of phonetic sciences held at the University of Helsinki (4-9 September 1961), edited by A. Sovijärvi & P. Aalto, The Hague, Mouton, pp. 407-417.
Delattre, Pierre C., Liberman, Alvin M. & Cooper, Franklin S. (1955), Acoustic loci and transitional cues for consonants, «Journal of the Acoustical Society of America» 27, 4, pp. 769-773.
Fant, Gunnar (2004), Speech acoustics and phonetics, Dordrecht - London, Kluwer Academic Publishers.
Ferrero, Franco E. & Magno Caldognetto, Emanuela (1986), Elementi di fonetica acustica, in Trattato di foniatria e logopedia, a cura di L. Croatto, Padova, La Garangola, 1983-1988, 4 voll., vol. 3° (Aspetti fonetici della comunicazione), pp. 155-196.
Giannini, Antonella & Pettorino, Massimo (1992), La fonetica sperimentale, Napoli, Edizioni Scientifiche Italiane.
Koževnikov, Valeriĭ R. & Chistovich, L. (1965), Speech: articulation and perception, translated by Joint Publications Research Service, Washington D.C.
Pickett, James M. (1980), The sounds of speech communication. A primer of acoustic phonetics and speech perception, Baltimore, University Park Press.
Zue, Victor W. (1989), Speech spectrogram reading (May 29 - June 2, 1989), University of Edinburgh Centre for Speech Technology Research, Edinburgh, University of Edinburgh, 2 voll.