dittongo

di Giovanna Marotta - Enciclopedia dell'Italiano (2010)

dittongo

Giovanna Marotta

Definizione

Il dittongo è una sequenza di suoni formata da due vocali appartenenti alla stessa ➔ sillaba (tecnicamente, tautosillabiche): contengono dittonghi, ad es. le parole piede, fuoco, fiato, euro, baita, pausa. Tradizionalmente, il dittongo è considerato il contrario dello ➔ iato, in cui le vocali contigue sono invece eterosillabiche (cioè appartengono a sillabe diverse). La dittongazione è un processo di ➔ indebolimento rispetto allo iato, dal momento che, nel dittongo, uno dei due segmenti vocalici perde il suo carattere sillabico.

Struttura del dittongo

In un dittongo si è soliti distinguere un elemento forte e prominente (la testa del dittongo), associato nella sillaba con la posizione di nucleo o apice, e un elemento debole, detto approssimante (le approssimanti sono suoni prodotti con articolazione relativamente aperta e rapida, con un restringimento ridotto del canale epilaringeo; Mioni 2001: 51-54).

Tale elemento debole può occupare, a seconda dei contesti e della lingua, diverse posizioni nella sillaba: può essere associato sia all’attacco che alla coda. Nel primo caso si parla di dittonghi ascendenti (ingl. ongliding), nel secondo di dittonghi discendenti (ingl. offgliding) (cfr. § 4). Le approssimanti vocaliche non sillabiche di un dittongo possono infatti essere definite anche legamenti (parola che traduce in italiano il termine inglese glides, per certi versi comunque ambiguo; cfr. Ladefoged & Maddieson 1996: 322).

Nella tradizione italiana le approssimanti dei dittonghi si distinguono in ➔ semivocali [i̯] e [u̯] e semiconsonanti [j] e [w], rispettivamente a seconda che seguano o precedano la vocale che forma il nucleo sillabico. Questa distinzione non è solo terminologica, ma riflette differenze sia a livello fonetico che fonologico (cfr. § 4). In un dittongo, infatti, la maggiore debolezza dell’approssimante rispetto alla vocale tautosillabica si manifesta sia per lunghezza che per timbro.

La durata dei segmenti vocalici approssimanti è di norma inferiore a quella delle vocali contigue che costituiscono il nucleo sillabico. In particolare, in italiano è soprattutto la durata delle semiconsonanti ad esser ridotta rispetto alla durata standard delle vocali (➔ quantità fonologica; cfr. Salza, Marotta & Ricca 1987). In generale, i segmenti vocalici che diventano ̩‘asillabici’, hanno un’articolazione più rapida e più chiusa (Maddieson 1984).

Quanto al timbro, le approssimanti sono caratterizzate da una struttura formantica (➔ fonetica acustica, nozioni e termini di) meno definita e meno intensa delle vocali corrispondenti: nelle semivocali e soprattutto nelle semiconsonanti, i bersagli sia articolatori che acustici non risultano pienamente raggiunti.

Aspetti tipologici

I dittonghi sono presenti in tutte le lingue del mondo, anche se il loro statuto fonologico può differire a seconda della lingua. In linea di massima, qualunque vocale può essere seguita o preceduta da un altro segmento vocalico, formando così un dittongo.

Ci sono però dei vincoli sulle possibili combinazioni dei segmenti vocalici. In primo luogo, esiste una relazione tra altezza della vocale e tendenza alla perdita della sillabicità: nelle lingue del mondo infatti sono soprattutto le due vocali alte ([u] e, soprattutto, [i]) a ‘perdere’ la loro natura vocalica, formando così dittongo con una vocale contigua. Le vocali alte perdono la sillabicità con maggiore facilità perché sono più brevi, più tese e più chiuse delle vocali medie e delle vocali basse; infatti, ceteris paribus, la durata intrinseca media di [i] è minore rispetto a quella di [e] e di [a].

In secondo luogo, esistono vincoli sulla combinazione di vocali dallo stesso timbro: per es., le sequenze [ji] e [wu], come pure [i̯i] e [uu̯], sono sfavorite, data l’eccessiva prossimità articolatoria e percettiva dei due segmenti contigui. Il criterio di distintività che vige nelle lingue naturali richiede infatti che ci sia una pur minima differenza tra segmenti contigui, per facilitare la discriminazione tra gli elementi nella stessa sillaba (cfr. Jakobson 1966). In italiano, come in buona parte delle lingue, tali sequenze non sono ammesse; non mancano però alcuni esempi di tali combinazioni fonetiche, anche nei dialetti; ad es., nella parlata di Altamura (Puglia), sono possibili sia [jI] che [wU] (Loporcaro 1988); lo stesso accade in diverse parlate della Puglia settentrionale e della Campania.

Tra le lingue, l’approssimante più comune è la semiconsonante palatale [j]: nel campione di lingue prese in esame da Maddieson (1984) è attestata con una percentuale pari all’86,1%. Segue l’approssimante labio-velare [w], attestata nel 75,7%. Vi sono inoltre talune implicazioni di tratti: la presenza di [w] implica di solito quella di [j]; analogamente, la presenza di [j] e [w] presuppone le vocali omorganiche [i] e [u], anche se in una percentuale bassa (7,3%) del campione analizzato da Maddieson, [w] ricorre senza [u]. La maggiore frequenza di [j] rispetto a [w] come elemento di un dittongo deriva da un lato dalla diffusione pressoché universale nelle lingue naturali di [i], di cui [j] rappresenta la controparte non sillabica, dall’altro dalla minore durata intrinseca della vocale alta anteriore, che la predispone pertanto a processi di riduzione segmentale e di indebolimento; d’altro lato, tra le vocali periferiche [u] può essere assente nell’inventario fonologico di una lingua naturale, ed è dotata di una durata intrinseca maggiore di [i].

Altre approssimanti vocaliche, pur esistenti nelle lingue del mondo, sono tuttavia molto più rare. Spesso si tratta di varianti di [j] o di [w]: ad es., gli allofoni desonorizzati, laringalizzati e nasalizzati dei due segmenti citati. Merita però segnalare almeno l’approssimante labiopalatale [ɥ], che rappresenta il segmento asillabico corrispondente alla vocale alta anteriore arrotondata [y], e che risulta pertanto articolata nella zona palatale ma con arrotondamento labiale. Presente, ad es., nel francese [lɥi] lui «lui», [pɥi] puis «poi» e in altre lingue, è comunque da ritenersi abbastanza rara, perlomeno come segmento autonomo; a conferma, nel campione utilizzato da Maddieson non raggiunge neppure il 2% di attestazione.

Anche in italiano, si trova come allofono (➔ allofoni) l’approssimante labio-palatale [ɥ], dovuta a coarticolazione con [j] seguente; questo segmento ricorre tipicamente nei trittonghi ascendenti formati da due semiconsonanti e una vocale, ad es. in parole come quiete, seguiamo, ecc. (Marotta 1987: 880; Bertinetto & Loporcaro 2005: 139).

Nelle lingue del mondo sono attestati anche elementi vocalici asillabici di media apertura; ad es., nei dittonghi ascendenti del rumeno, oltre a [j] e [w], si trovano anche [e̯] e [o̯]: beata [ˈbe̯ata] «ubriaca»; coarda [ˈko̯arda] «corda» (cfr. Mioni 2001: 98). In alcune lingue, come il nepalese, nello stile colloquiale una qualsiasi sequenza di vocali può diventare un dittongo: diventa asillabica di volta in volta la vocale più alta; a parità di altezza tra i due timbri, la prima subisce la riduzione ad approssimante (Ladefoged & Maddieson 1996: 323).

Anche in italiano, benché la grammatica preveda dittonghi costituiti solo da approssimanti corrispondenti alle vocali alte [i] e [u], nel parlato connesso e non accurato si formano di continuo dittonghi fonetici in presenza anche di vocali medie, soprattutto se si tratta di parole di uso comune e frequente; ad es., aereo, stereo, video, meteo, tutte suscettibili di essere pronunciate con il dittongo [e̯o].

Dittonghi ascendenti e discendenti

Nella grammatica italiana, come di norma nella romanistica, i dittonghi si distinguono in ascendenti (ad es., piede [ˈpjɛːde], biada [ˈbjaːda], fuoco [ˈfwɔːko], quando [ˈkwando]) e discendenti (ad es., baita [ˈbai̯ta], pausa [ˈpau̯sa], poi [ˈpɔi̯], Europa [eu̯ˈrɔːpa]), rispettivamente a seconda che la sonorità cresca o diminuisca nella sequenza.

La distinzione tra dittonghi ascendenti e discendenti rappresenta un’innovazione moderna, dal momento che la grammatica classica, sia latina che greca, riservava il termine dittongo esclusivamente alle sequenze bivocaliche in cui l’elemento approssimante segue la vocale sillabica. Lo stesso uso restrittivo si è mantenuto nella tradizione degli studi di indoeuropeistica, nei quali sono considerati dittonghi solo i gruppi formati da vocale + semivocale, mentre le sequenze di tipo semivocale + vocale sono assimilate ai gruppi costituiti da consonante + vocale (Marotta 1987).

Il valore di sonorità associato ai segmenti vocalici è direttamente proporzionale al loro grado di apertura: quanto più una vocale è aperta, tanto più alto sarà il suo valore in sonorità. La scala di sonorità di norma assunta in fonologia prevede che il polo di massima sonorità sia associato alle vocali basse, più aperte (per l’italiano [a]), il polo minimo alle vocali alte e chiuse, cioè [i] e [u]. Ancora inferiori rispetto alle vocali chiuse sono i valori di sonorità delle approssimanti non sillabiche, che entrano nella composizione di un dittongo o di un trittongo, dal momento che questi segmenti hanno una natura per così dire ibrida, in quanto sono elementi vocalici, ma privi di sillabicità.

Dalla distinzione tra dittonghi ascendenti e discendenti deriva quella tra semiconsonanti e semivocali, che sono rispettivamente approssimanti che precedono o seguono la vocale sillabica (➔ semivocali). Nel passaggio da una semiconsonante a una vocale (ad es., in italiano [ˈpjaːno] piano, [ˈkwindi] quindi) si ha un aumento, più o meno marcato, del grado di apertura e di intensità sonora, mentre nel passaggio da una vocale ad una semivocale (ad es., in italiano [ˈflau̯to] flauto, [ˈlai̯do] laido) si verifica una diminuzione del grado di apertura diaframmatica e di intensità sonora.

Tenere distinte semiconsonanti e semivocali, e quindi dittonghi ascendenti e dittonghi discendenti, non è un mero fatto terminologico, ma riflette una differenza sia fonetica che fonologica.

Dal punto di vista fonetico, le semiconsonanti sono più brevi e più chiuse tanto delle vocali corrispondenti quanto delle semivocali; in ragione della loro minore durata, sono caratterizzate anche da rapide transizioni e dalla mancanza parziale o totale di parte stabile nella loro struttura formantica (Maddieson & Emmorey 1985).

Le semivocali hanno invece una durata ed una struttura formantica comparabile a quella delle corrispondenti vocali (per questo in inglese sono anche dette vowel-like segments); nella loro rappresentazione acustica predomina infatti la parte stabile sulle transizioni. In termini articolatori, potremmo quindi dire che nelle semivocali il bersaglio timbrico viene fondamentalmente raggiunto, pur con una certa instabilità (cfr. Mioni 1986: 56; Mioni 2001: 176 segg.).

Non sembra dunque casuale che nell’alfabeto IPA (➔ alfabeto fonetico) si usino simboli diversi per indicare le semiconsonanti ([j w]), cioè gli elementi asillabici dei dittonghi ascendenti, mentre le semivocali sono trascritte con le vocali corrispondenti con l’aggiunta del segno diacritico [ ̯] che indica asillabicità. Parimenti, nella trascrizione fonetica larga, il diacritico delle semivocali può essere omesso, mentre le semiconsonanti vengono sempre indicate con il loro simbolo specifico.

Dal punto di vista fonologico, la distinzione tra semiconsonanti e semivocali si collega alla struttura sillabica, con conseguente diversa rappresentazione dei due tipi di dittongo. Nei dittonghi ascendenti, l’approssimante si associa all’attacco sillabico, in ragione della sua distribuzione, comparabile a quella di una consonante, e dunque non vincolata rispetto ad eventuali consonanti precedenti come pure alla vocale seguente (cfr. ad es., piuma, chiave, chiodo, fieno, tiepido, con [j]; buono, quadro, qui, guanto, guercio, quercia, con [w]). Nei dittonghi discendenti, la semivocale fa invece parte della rima, sia che si tratti del complemento del nucleo sia che risulti associata alla coda sillabica (Marotta 1988).

Di conseguenza, il grado di solidarietà strutturale con la vocale tautosillabica sarà diverso nei due tipi di dittongo, maggiore nel caso del dittongo discendente, in cui i due membri vocalici appartengono entrambi allo stesso costituente sillabico (la rima), minore nel caso del dittongo ascendente, in cui l’approssimante mostra solidarietà più con la consonante che la precede che con la vocale che la segue. In effetti, le dittongazioni ‘spontanee’ che si verificano in sincronia come in diacronia a partire da vocali lunghe danno luogo tipicamente ad un dittongo discendente.

Origine e frequenza nel lessico italiano

In italiano i dittonghi ascendenti sono molto più frequenti di quelli discendenti. La motivazione di ciò va cercata nella storia della lingua, dal momento che mentre i secondi sono presenti quasi solo nei prestiti o nei latinismi, i dittonghi ascendenti rappresentano un’importante innovazione romanza rispetto al latino.

Le sequenze con [j] possono avere origine diversa:

(a) processo di dittongazione romanza a partire dalla vocale media anteriore breve latina in sillaba tonica; ad es., lat. petram > ital. [ˈpjɛːtra] pietra, lat. decem > ital. [ˈdjɛːtʃi] dieci, lat. heri > ital. [ˈjɛːri] ieri;

(b) indebolimento in approssimante di una vocale alta o media in iato; ad es., lat. rabia > ital. [ˈrabːja] rabbia, lat. vindemia > ital. [ˈvendemːja] vendemmia;

(c) riduzione ad approssimante di una consonante laterale prevocalica nei nessi muta cum liquida; ad es., lat. plantam > ital. [ˈpjanta] pianta, lat. blondum > ital. [ˈbjondo] biondo.

L’origine delle sequenze con [w] può essere dovuta a una delle cause seguenti:

(a) processo di dittongazione romanza, analogo a quanto visto sopra per [j], a partire dalla vocale media posteriore breve latina in sillaba tonica; ad es., lat. novum > ital. [ˈnwɔːvo] nuovo, lat. bonum > ital. [ˈbwɔːno] buono, lat. homo > [ˈwɔːmo] uomo;

(b) mantenimento dei segmenti labiovelari latini; ad es., quando, acqua, cinque, sangue;

Viceversa, i dittonghi discendenti continuano spesso forme latine colte (ad es., Europa, aureo, laurea, eufemismo) oppure sono dovuti all’incontro di morfemi, spesso finali di parola nel caso della semivocale anteriore [i ̥] (ad es., poi, mai, noi, voi).

Mentre nella formazione dei dittonghi ascendenti non ci sono restrizioni sulla combinazione di semiconsonanti e vocali seguenti (specialmente per [j]), nel caso delle semivocali, specialmente per quella posteriore, si registrano diverse lacune distribuzionali; ad es., non ci sono sequenze formate da vocali posteriori medie + semivocale [u̯], cioè *[ɔu̯ ou̯]; parimenti, non è attestata *[iu̯].

Da notare anche che i dittonghi discendenti con [i̯] possono essere realizzati come iati, articolati quindi in due sillabe diverse, in contesti stilistici accurati o in condizioni di rallentata velocità d’eloquio. In effetti, la discriminazione tra dittongo e iato non è sempre facile, nel caso dei dittonghi discendenti, specialmente se finali di enunciato o in presenza di un confine di morfema, come in mangiai, mai, poi, o nei derivati come co-incidenza, auto-ipnosi.

La frequenza delle due diverse strutture nel lessico italiano è assai diversa: a fronte di un’elevata incidenza dei dittonghi ascendenti (pari ad oltre il 61% sull’intero numero delle sequenze bivocaliche in sillaba interna di parola; cfr. Marotta 1987), si rileva una assai scarsa presenza di dittonghi discendenti (nel complesso, inferiore al 12%).

La ragione di questa discrepanza è da ricercarsi nell’evoluzione storica della lingua: come abbiamo già visto, i dittonghi ascendenti non sono solo la diretta continuazione delle vocali medie brevi latine in sillaba tonica, ma originano anche dallo sviluppo in [j] di segmenti laterali e di vocali in iato; i dittonghi discendenti limitano invece la loro distribuzione essenzialmente a un numero ristretto di prestiti, o dalle lingue classiche o da quelle germaniche.

Per quanto riguarda la frequenza sintagmatica, un’analisi quantitativa (Chiari 2002: 220) condotta sul campione romano del Lessico dell’italiano parlato (LIP; ➔ corpora di italiano) ha mostrato che le combinazioni bivocaliche più frequenti sono invece quelle con semivocale [i ̥], ma il dato è da leggersi in rapporto all’elevata frequenza d’uso di elementi funzionali (ad es., dei) o forme verbali monosillabiche come sei, sai, hai, ecc. Tra i dittonghi ascendenti, sono risultate più frequenti le sequenze con [w], trainate da parole molto frequenti nel corpus come questo, qui, qualcosa, quando, et similia.

I dittonghi mobili dell’italiano

Resta infine da segnalare la presenza prosodicamente regolata dei cosiddetti dittonghi mobili (termine introdotto da Benedetto Buommattei nel 1623), vale a dire dittonghi ascendenti in sillaba tonica che alternano con monottonghi in sillaba atona, come ad es.:

cuore ~ coraggio

fuoco ~ focolare

muovere ~ movimento

nuovo ~ novità

piede ~ pedone

siede ~ sediamo

tiene ~ tenete

uomo ~ ometto

uovo ~ ovale

vuole ~ volontà

Come si evince anche dagli esempi, il fenomeno interessa sia la flessione che la derivazione ed è regolato dalla presenza o assenza dell’accento di parola.

Nell’evoluzione dell’italiano si osserva una tendenza marcata verso il livellamento analogico delle basi lessicali, particolarmente attivo in epoca recente, che tende ad imporre in tutti i contesti una sola forma, di solito quella dittongata (van der Veer 2006). Di conseguenza, a fronte di alternanze come

buono ~ bonissimo

suono ~ sonatore, sonata

tuono ~ tonava

usuali in epoca antica, si registrano ormai solo le forme dittongate anche in sillaba atona: suonatore, suonata, buonissimo, tuonava. In parallelo, si riscontra la tendenza a creare forme derivate dittongate; ad es., presiedeva, infuocato, piedino.

Studi

Bertinetto, Pier Marco & Loporcaro, Michele (2005), The sound pattern of Standard Italian, as compared with the varieties spoken in Florence, Milan and Rome, «Journal of the International Phonetic Association» 35, 2, pp. 131-151.

Chiari, Isabella (2002), Ridondanza e linguaggio. Un principio costitutivo delle lingue, prefazione di T. De Mauro, Roma, Carocci.

Jakobson, Roman (1966), Saggi di linguistica generale, Feltrinelli, Milano (ed. orig. Essais de linguistique générale, Paris, Minuit, 1963).

Ladefoged, Peter & Maddieson, Ian (1996), The sounds of the world’s languages, Oxford, Blackwell.

Loporcaro, Michele (1988), Grammatica storica del dialetto di Altamura, Pisa, Giardini.

Maddieson, Ian (1984), Patterns of sounds, Cambridge, Cambridge University Press.

Maddieson, Ian & Emmorey, Karen (1985), Relationship between semi-vowels and vowels, cross linguistic investigations of acoustic differ-ence and coarticulation, «Phonetica» 42, 4, pp. 163-174.

Marotta, Giovanna (1987), Dittongo e iato in italiano: analisi fonetico-fonologica per una difficile discriminazione, «Annali della Scuola Normale Superiore di Pisa» 17, pp. 847-887.

Marotta, Giovanna (1988), The Italian diphthongs and the autosegmental framework, in Certamen Phonologicum. Papers from the 1987 Cortona phonology meeting, edited by P.M. Bertinetto & M. Loporcaro, Torino, Rosenberg & Sellier, pp. 389-420.

Mioni, Alberto M. (1986), Fonetica articolatoria: descrizione e trascrizione degli atteggiamenti articolatori, in Trattato di foniatria e logopedia, a cura di L. Croatto, Padova, La Garangola, 1983-1988, 4 voll., vol. 3° (Aspetti fonetici della comunicazione), pp. 15-87.

Mioni, Alberto M. (2001), Elementi di fonetica, Padova, Unipress.

Salza, Pier Luigi, Marotta, Giovanna & Ricca, Davide (1987), Duration and formant frequencies of Italian bivocalic sequences, in Proceedings of the Eleventh international congress of phonetic sciences (ICPhS) (August 1-7, 1987, Tallinn, Estonia), Tallinn, Academy of Sciences of the Estonian SSR, 6 voll., vol. 3°, pp. 113-116.

Veer, Bart van der (2006), The Italian ‘mobile diphthongs’. A test case for experimental phonetics and phonological theory, Utrecht, LOT.

GRAMMATICA in Lingua