fonetica articolatoria, nozioni e termini di

di Massimo Pettorino - Enciclopedia dell'Italiano (2010)

Massimo Pettorino

Come si producono i suoni

Fonazione e articolazione

Nella produzione del parlato si distinguono due azioni parallele e distinte, quella della fonazione e quella dell’articolazione. Per fonazione si intende la produzione della voce in quanto tale, vale a dire la creazione di un segnale acustico mediante una corrente d’aria egressiva (cioè in uscita), per lo più proveniente dai polmoni, e della sua modificazione a livello della laringe mediante l’azione delle pliche (o corde) vocali. Le vibrazioni periodiche delle pliche, con il loro alternarsi di chiusure e aperture, lasciano fluire l’aria a impulsi periodici: ciò determina, per il fenomeno della risonanza, la vibrazione delle pareti del canale fonatorio.

Il segnale vocale viene così rinforzato e diventa udibile. È un suono continuo, modulabile sia nel tono (grazie alla maggiore o minore tensione delle pliche) sia nell’intensità (grazie alla maggiore o minore quantità d’aria espiratoria). Se nessuna azione muscolare interviene a modificare la struttura del canale epilaringeo spostando gli articolatori, il condotto può essere paragonato a un tubo di sezione uniforme chiuso a un’estremità (la glottide) e aperto all’altra (le labbra). Il suono risultante da questa configurazione è quello classificato come vocale centrale e in IPA trascritto col simbolo [ǝ].

Durante il passaggio dell’aria fonatoria attraverso le cavità sopralaringali ha luogo l’azione dell’articolazione, che consiste nel creare un impedimento al flusso d’aria in uscita in modo da modificarne le proprietà. L’impedimento può essere di due tipi: il primo viene utilizzato per la produzione delle ➔ vocali, il secondo per la produzione delle ➔ consonanti. Per le vocali l’azione articolatoria consiste nel modificare la struttura del canale senza bloccare il flusso della corrente d’aria. La lingua si sposta verso la parete opposta senza oltrepassare la linea vocalica, limite al di là del quale il flusso entrerebbe in turbolenza a causa della ridotta sezione dell’area.

fig. 1

I foni che ne risultano (vocali) sono classificati in base a tre parametri: grado di avanzamento (o rispettivamente arretramento) della lingua: si hanno così vocali anteriori, centrali o posteriori; grado di sollevamento (o rispettivamente abbassamento) della lingua: si hanno così vocali chiuse, semichiuse, semiaperte o aperte; conformazione delle labbra, tese o arrotondate: si hanno allora vocali aprocheile o procheile. Secondo la classificazione di Jones (1957⁸), che è alla base di quella adottata dall’IPA (➔ alfabeto fonetico), l’area vocalica è delimitata dalle vocali cardinali, che rappresentano i bersagli articolatori cui la lingua deve tendere per ottenere la migliore realizzazione di ciascuna vocale. Le vocali cardinali a loro volta si distinguono in principali (anteriori aprocheile e posteriori procheile) e secondarie (con coefficiente invertito di procheilia) in base alla maggiore o minore diffusione nelle varie lingue. La fig. 1 schematizza la conformazione del canale per la produzione delle vocali cardinali principali.

Nella produzione delle consonanti l’impedimento al flusso d’aria può essere totale (ostruzione del canale e conseguente interruzione del flusso d’aria) o parziale (ostruzione centrale e apertura laterale oppure restringimento e conseguente natura turbolenta del flusso d’aria). Grazie a questi due semplici meccanismi (chiusura e restringimento del canale in un punto o in un altro), attivati in un certo momento o in un altro, si è in grado di creare tutti i foni consonantici che si utilizzano. Oltre a ciò, il sincronismo o asincronismo dei movimenti sopralaringali con l’azione delle corde vocali permette di incrementare ulteriormente l’inventario fonetico.

L’ampia varietà di foni è dovuta in gran parte alle caratteristiche fisiologiche del canale epilaringeo, costituito da molte parti (le labbra, la lingua, il velo pendulo, la mandibola) che si muovono grazie all’azione di numerosi muscoli. In particolare la punta della lingua è estremamente mobile, sia spazialmente che temporalmente, e ciò, com’è ovvio, dà luogo a una grande potenzialità articolatoria. Tuttavia i movimenti articolatori non sono tutti ugualmente produttivi sul piano percettivo: in alcune zone del canale piccoli spostamenti articolatori corrispondono a grandi cambiamenti nel suono risultante e quindi a una grande varietà di foni; in altre, spostamenti anche ampi risultano percettivamente poco significativi.

Tale caratteristica dell’apparato, che ha dato origine alla Quantal Theory of Speech formulata da Kenneth Stevens nel 1972 e poi ripresa e riformulata da vari autori (Fant 1989; Fujimura 1989; Ladefoged & Lindau 1989), deriva dalle proprietà acustiche del risonatore epilaringale (v. oltre, scheda 2) e dalle caratteristiche anatomo-fisiologiche degli articolatori. Per fare un esempio, un restringimento che ha luogo nella zona che va dagli incisivi superiori al prepalato (non più di 1 cm di estensione in senso antero-posteriore), determina sul piano percettivo foni molto diversi: a livello dentale ([ð] [θ]), alveolare ([s] [z]), postalveolare ([ʃ] [ʒ]). Al contrario, con un restringimento faringale (in un’area di circa 5 cm di lunghezza) si producono soltanto [ħ] [ʕ], foni che, tra l’altro, sono presenti in poche lingue (la fricativa sorda compare in 19 delle 451 lingue analizzate dall’UPSID - UCLA Phonological Segment Inventory Database, pari al 4,2% del totale, la fricativa sonora in 10 lingue, pari al 2% del totale).

Non è un caso, dunque, che i foni più frequenti siano prodotti tutti in determinati punti del canale epilaringeo. Secondo la Quantal Theory, infatti, in certe regioni del canale epilaringeo gli articolatori possono spostarsi senza comportare cambiamenti nel suono prodotto, quindi quelle regioni sono più stabili sul piano acustico. Nelle zone di confine tra una regione e un’altra il segnale prodotto cambia in modo brusco e improvviso. Un esempio della natura quantica del canale fonatorio e della sua conseguente discontinuità acustica è dato dal passaggio da [ʃ] a [s]: se si sposta lentamente in avanti la punta della lingua all’interno della zona alveolopalatale il fono [ʃ] non subisce modifiche fino a che la lingua non raggiunge il margine alveolare. In quel punto il suono cambia repentinamente da [ʃ] a [s] per poi restare stabile fino al raggiungimento del margine degli incisivi superiori. Secondo la Quantal Theory, quindi, l’inventario fonetico di ciascuna lingua tiene conto, tra gli altri fattori, delle caratteristiche articolatorio-acustiche del canale fonatorio.

Caratteristiche articolatorie dell’italiano

L’italiano, da questo punto di vista, è una lingua tra le più ‘anteriori’, se consideriamo che, dei 21 foni che ne costituiscono il sistema consonantico, 17 si realizzano tra le labbra e i postalveoli (pari all’81% del totale) e 19 tra labbra e palato duro (90%). Le consonanti più ‘arretrate’ sono le due occlusive velari [k] e [g], che spesso, per motivi di adattamento al contesto, si realizzano come palatovelari.

Se infine consideriamo che dalle labbra all’ugola siamo pur sempre nella metà anteriore dell’intero canale epilaringeo, ci rendiamo conto di come l’italiano sia una lingua ‘avanzata’ rispetto ad altre, quali, ad es., il francese, il tedesco o l’arabo. Se il francese possiede almeno una consonante più arretrata delle velari, la vibrante uvulare [ʀ], il tedesco possiede, oltre alle occlusive velari [k] e [g], la fricativa velare sorda [x], la vibrante uvulare [ʀ] e la fricativa glottidale [h]. Per parte sua, l’arabo possiede una ricca serie di consonanti posteriori rispetto al luogo velare che, come abbiamo detto, rappresenta il limite articolatorio posteriore per il sistema consonantico dell’italiano: oltre alle fricative velari sorda e sonora [x] [ɣ], alle fricative faringali sorda e sonora [ħ] [ʕ], all’occlusiva uvulare sorda [q] e all’occlusiva glottidale [h], l’arabo ha una serie di 4 dentali caratterizzate da un diaframma aggiunto a livello faringale (le consonanti ‘enfatiche’ ṣ ḍ ṭ ẓ, trascritte in IPA utilizzando il diacritico aggiuntivo della faringalizzazione ʕ) e una dentale laterale velarizzata [ɫ]. Da un punto di vista puramente quantitativo non si può non riconoscere che l’aggiunta di un diaframma posteriore (velare o faringale) a una consonante di luogo dentale è estremamente produttiva, in quanto permette di raddoppiare l’inventario di fonemi proprio nel luogo già di per sé più adatto all’articolazione quale è quello dentale.

Luoghi e modi di articolazione

L’impedimento al passaggio dell’aria fonatoria che, come si è detto, costituisce la base del meccanismo articolatorio, si realizza in vari modi e in diversi punti (detti anche luoghi) del canale epilaringeo. La combinazione di un determinato modo di articolazione e di un determinato luogo di articolazione dà luogo di volta in volta a un diverso fono consonantico; questo a sua volta può essere sonoro o sordo secondo che, nella sua produzione, intervenga o no la vibrazione delle pliche vocali.

tab. 1

fig. 2

La tab. 1 riporta i possibili modi di articolazione (con colonne dedicate alla denominazione del fono, alla meccanica articolatoria, alle caratteristiche aerodinamiche e al derivato acustico) mentre la fig. 2 riporta i possibili luoghi di articolazione.

Non tutte le combinazioni di modo e luogo di articolazione sono concretamente possibili: i limiti di motilità degli articolatori, sia in termini spaziali che temporali, fanno sì che in alcuni punti del canale siano possibili soltanto uno o più modi articolatori. Per fare un esempio, una consonante vibrante può essere realizzata solo da un articolatore dai movimenti estremamente rapidi e puntuale (punta della lingua, ugola) e non da un articolatore lento e di grosse dimensioni (come il dorso della lingua). In determinati casi l’impossibilità articolatoria è dovuta al conflitto che si crea a livello muscolare: ad es., una consonante faringale comporta l’arretramento del velo pendulo con conseguente chiusura del diaframma rinovelare, cosicché non è possibile produrre una faringale nasale.

L’unico modo articolatorio che può essere prodotto in qualsiasi punto del canale fonatorio è quello delle ➔ fricative: la carta consonantica dell’IPA ne conta 22, 11 coppie di sorda / sonora dislocate lungo tutto il canale dalle labbra alla glottide. Il motivo di questa ricchezza del modo fricativo è duplice, e riguarda sia il piano articolatorio che quello acustico-percettivo. Dal punto di vista articolatorio il diaframma stretto, tipico delle fricative, non richiede una particolare conformazione dei due organi contrapposti: le due pareti possono non combaciare, basta che siano in grado di accostarsi e ridurre il passaggio dell’aria fino a farla entrare in turbolenza. Per comprendere l’importanza di tale requisito, basti pensare a una consonante labiodentale (come [f]), in cui il bordo degli incisivi superiori non combacia con il bordo del labbro inferiore, per cui non è possibile produrre una occlusiva labiodentale. Sul piano acustico il fruscio, tipico delle fricative, è costituito da segnale su tutto lo spettro di frequenze udibili: intensificarlo in una zona o in un’altra, con piccoli spostamenti del luogo articolatorio, determina cambiamenti rilevanti dal punto di vista percettivo.

Riguardo alla fricativa glottidale va detto che tale denominazione continua a essere universalmente accettata per motivi fonologici più che fonetici. Infatti il fenomeno dell’aspirazione, corrispondente fonologicamente alla fricativa glottidale, è in realtà dovuto a un allargamento della glottide più che a un suo restringimento (Kim 1970). L’ampio inventario di consonanti fricative non deve però far pensare a una particolare facilità di produzione. Al contrario, la realizzazione di una fricativa richiede un controllo dei movimenti articolatori molto più accurato di altri modi consonantici. In un’occlusiva è infatti sufficiente chiudere il diaframma: che lo si faccia con maggiore o minore forza articolatoria ha poco effetto sul fono risultante. Al contrario, in una fricativa la contrazione muscolare che consente all’articolatore di accostarsi alla parete contrapposta dev’es-sere controllata istante per istante, con un bilanciamento tra azione ‘chiudente’, per evitare che un passaggio troppo largo determini la perdita dello stato di turbolenza del flusso espiratorio, e azione ‘aprente’, in quanto il passaggio veloce dell’aria tende a creare un abbassamento di pressione in quel punto con conseguente chiusura del diaframma.

Per la loro particolare difficoltà di produzione, le fricative sono tra le ultime a comparire nell’inventario fonologico del bambino, comunque dopo che sono stati consolidati tutti i foni occlusivi, nel periodo intorno ai 24 mesi (Zmarich et al. 2005).

Aspetti particolari

Un’ultima considerazione riguardo alle consonanti fricative riguarda il comportamento del diaframma rinovelare: le fricative sono le sole consonanti in cui esso deve essere completamente chiuso, per impedire che l’aria espiratoria possa, anche parzialmente, defluire attraverso le cavità nasali.

L’incompatibilità tra il modo fricativo e quello nasale non deriva da un conflitto di tipo meccanico-muscolare (è fisiologicamente possibile creare un diaframma stretto e aprire il varco rinovelare), ma è dovuta alla natura stessa della consonante fricativa, in cui la condizione necessaria è che il flusso d’aria sia turbolento. Perché questo accada l’aria deve essere tutta convogliata all’interno della stretta articolatoria e quindi il passaggio rinovelare deve essere completamente chiuso. Negli altri modi consonantici, nonché in alcuni gradi vocalici, tale condizione non è sempre verificata, anche se il fono viene percepito come orale e non come nasale. Una parziale apertura del diaframma rinovelare è, per es., presente durante la fase di tenuta delle occlusive sonore, per consentire il mantenimento del flusso d’aria transglottidale, o durante le vocali aperte, per motivi di sinergia muscolare.

Nell’articolazione è estremamente importante il sincronismo o asincronismo delle diverse azioni che concorrono alla realizzazione di un fono e della catena parlata. La stessa contrazione muscolare, e quindi lo stesso spostamento articolatorio, può dar origine a foni diversi se attivato o disattivato in momenti diversi. Questo perché ciascun fono, che per comodità di classificazione viene considerato come combinazione di un modo e un luogo di articolazione, è il risultato di una successione ben definita di comandi motori, sicché alterare anche di poco l’esatta sequenza articolatoria può compromettere il risultato. Ad es., per pronunciare la sillaba [ba], costituita da una consonante occlusiva bilabiale sonora [b], una tra le più semplici sul piano della produzione e perciò tra le prime a essere apprese dal bambino, e una vocale anteriore aperta, è indispensabile effettuare nel giusto ordine una complessa serie di movimenti che possono essere così riassunti:

(a) contrazione del levator palatini e chiusura del diaframma rinovelare;

(b) contrazione dei muscoli adduttori e tensori della glottide (posizione di sonorità);

(d) lingua in posizione della vocale [a];

(e) mantenimento della differenza di pressione ipo- ed epiglottidale mediante ampliamento della cavità orale (rigonfiamento delle guance);

(f) abbassamento della mandibola e conseguente apertura delle labbra;

(g) mantenimento della posizione (i muscoli contratti restano in contrazione) per tutta la durata della vocale;

(h) apertura del diaframma rinovelare;

(i) apertura glottidale.

Se una sillaba come [ba] richiede una così articolata serie di comandi motori, è evidente che nella catena parlata, in cui le sillabe devono adattarsi le une alle altre, il compito è molto più complesso. Se nel parlato letto il parlante ha la possibilità di dedicare tutta la sua attenzione alla produzione articolatoria in quanto il testo è già fissato, nel parlato spontaneo egli non può fare altrettanto in quanto deve concentrare il suo sforzo sulla formulazione della frase, su ciò che vuole dire ed eventualmente su ciò che vuole non dire, sullo stato emozionale che intende trasmettere e così via. Per questi motivi la produzione del parlato è estremamente complessa e necessita della massima attenzione e concentrazione da parte del parlante. Per questo motivo il principio che regola tutta l’attività fonatoria è quello dell’economia articolatoria o del minimo sforzo. L’espressione economia articolatoria, coniata da André Martinet nel 1955 nel campo della fonologia diacronica per spiegare le ragioni dei mutamenti fonetici, è stata poi ripresa e reinterpretata, in maniera più generale, in riferimento alla fonetica sincronica e alla stessa produzione del parlato. La H&H Theory di Björn Lind-blom considera il parlato come il risultato di un ‘tiro alla fune’ tra il principio di massima intelligibilità, che porta in direzione di un capo della corda, quello della iperarticolazione (hyperarticulation), e quello del minimo sforzo che porta in direzione opposta, verso la ipoarticolazione (hypoarticulation). Il conflitto viene risolto dal parlante in maniera diversa a seconda di quello che il contesto situazionale richiede: i fattori in gioco sono molti, tra cui il tipo di parlato (spontaneo, letto, recitato), il rapporto con l’interlocutore (stile formale / informale, posizione dominante / dominata), la conoscenza dell’argomento e lo stato emozionale.

Studi

Fant, Gunnar (1989), Quantal theory and feature, «Journal of phonetics» 17, 1-2, pp. 79-86.

Fujimura, Osamu (1989), Comments on “On the quantal nature of speech” by K.N. Stevens, «Journal of phonetics» 17, 1-2, pp. 87-90.

Jones, Daniel (1957⁸), An outline of English phonetics, Cambridge, Heffer (1^a ed. Leipzig - Berlin, Teubner, 1918).

Kim, Chin-Wu (1970), A theory of aspiration, «Phonetica» 21, pp. 107-116.

Ladefoged, Peter & Lindau, Mona (1989), Modeling articulatory-acoustics relations: a comment on Stevens “On the quantal nature of the speech”, «Journal of phonetics» 17, 1-2, pp. 99-106.

Lindblom, Björn (1983), Economy of speech gestures, in The production of speech, edited by P. MacNeilage, New York, Springer-Verlag, pp. 217-246.

Lindblom, Björn (1990), Explaining phonetic variation: a sketch of the H&H theory, in Speech production and speech modelling, edited by W.J. Hardcastle & A. Marchal, Dordrecht, Kluwer, pp. 403-439.

Lindblom, Björn & Engstrand, Olle (1989), In what sense is speech quantal?, «Journal of phonetics» 17, 1-2, pp. 107-121.

Martinet, André (1955), Economie des changements phonétiques, Berne, A. Francke.

Stevens, Kenneth N. (1972), The quantal nature of speech: Evidence from articulatory-acoustic data, in Human communication. A unified view, edited by E.E. David jr. & P.B. Denes, New York, McGraw-Hill, pp. 51-66.

Zmarich, Claudio et al. (2005), La frequenza di occorrenza e di consonanti e vocali e delle loro combinazioni nella sillabe del babbling e delle prime parole dai 10 ai 27 mesi di età, in Misura dei Parametri. Aspetti tecnologici ed implicazioni nei modelli linguistici. Atti del I convegno nazionale AISV (Padova, 2-4 dicembre 2004), a cura di P. Cosi,Torriana, EDK, pp. 481-510.