fonologia
Prima di affrontare la descrizione del sistema fonologico dell’italiano, occorre illustrare brevemente il significato del termine fonologia. Lo studio dei suoni prodotti dall’apparato fonatorio è l’oggetto della disciplina comunemente nota come ➔ fonetica. Essa descrive i meccanismi fisiologici, acustici e percettivi che governano la produzione e la ricezione dei suoni emessi dagli organi vocali, detti foni. La fonologia mira, invece, a determinare se due foni rappresentano la stessa entità o due entità diverse, a prescindere quasi totalmente dalle loro proprietà fisiche (percettive, acustiche o articolatorie).
In genere, la principale funzione distintiva che due foni possono avere è quella di produrre differenze di significato. Si tratta di una funzione eminentemente linguistica, e questo per due motivi: solo nelle lingue naturali i suoni servono a esprimere variazioni di senso e, viceversa, la diversità dei significati non può manifestarsi che attraverso la forma fonica delle parole; inoltre, due foni possono opporsi in maniera distintiva o meno secondo la particolare lingua in cui ricorrono: ad es., in russo la vocale /o/ in posizione tonica tra due consonanti non palatalizzate si realizza come dittongo [wo] (ad es., tot [ˈtwot] «quello»). Nella pronuncia russa standard il parlante nativo non percepisce la presenza di [w] nella propria realizzazione; al contrario, un italiano la distinguerebbe nettamente. La ragione di questa differente percezione della medesima realtà fonetica risiede nel fatto che in russo l’articolazione dittongale di [o] in quel dato contesto fonetico è inevitabile. Invece in italiano esiste una possibilità di scelta tra [wo] e [o], o meglio tra [wɔ] e [ɔ], in quanto in italiano si oppongono parole come tuono ~ tono. In tal caso si dirà che la distinzione tra articolazione dittongale e non dittongale è pertinente in italiano, ma non in russo.
Nella fonologia classica la procedura di scoperta delle identità / differenze è affidata al test delle coppie minime (➔ coppia minima), che presuppone l’analisi della distribuzione dei foni, cioè dei contesti in cui essi ricorrono. Foni diversi che possono sostituirsi liberamente rientrano in un medesimo fonema (per es., le due vibranti di caro [ˈkaːro] e [ˈkaːʀo]), mentre foni che, sostituiti, danno luogo a significati diversi sono ➔ allofoni di fonemi diversi (per es., le due prime consonanti di pane [ˈpaːne] e cane [ˈkaːne]).
In sostanza, la procedura di scoperta usata dalla fonologia è di carattere indiziario: per ‘smascherare’ due foni, sospetti di essere lo stesso oggetto linguistico, occorre cercare un contesto in cui entrambi compaiano insieme. Se lo si trova, evidentemente si tratta di due fonemi diversi, altrimenti si tratta dello stesso fonema che si realizza in modi diversi. Queste diverse realizzazioni in genere sono la conseguenza di fatti indotti automaticamente dal contesto: ad es., in italiano una consonante nasale seguita da una velare si velarizza ([ƞ]). I fattori contestuali che possono condizionare la comparsa di un allofono riguardano non solo la presenza di altri foni adiacenti (come nell’esempio precedente), ma anche tratti soprasegmentali (➔ soprasegmentali, tratti), confini sillabici, morfologici, prosodici.
La tradizione letteraria e grammaticale usa riferirsi alla varietà fiorentina cosiddetta colta come modello idealizzato di una lingua nazionale o, meglio, sovraregionale. Si tratta di un’approssimazione soggetta a molte condizioni e limiti. Infatti, alcuni fenomeni fonologici del fiorentino (e, più in generale, del toscano) non sono diffusi in tutta Italia. Si pensi, ad es., al fenomeno della lenizione intervocalica delle occlusive sorde (la cosiddetta gorgia; ➔ gorgia toscana, cfr. § 3.1).
La presente descrizione della fonologia dell’italiano assumerà come modello la varietà standard (basata sulla pronuncia ortoepica) comparata con quelle delle principali varietà regionali.
L’italiano appartiene al gruppo delle lingue romanze o neolatine (➔ lingue romanze e italiano), cioè storicamente derivate dal latino parlato. Per quanto riguarda il sistema consonantico, una delle innovazioni più largamente attestate in area romanza, rispetto al latino, è la palatalizzazione (seguita dalla successiva affricatizzazione) delle velari e dentali seguite da vocale anteriore.
Si può osservare che in quasi tutto il territorio romanzo (con l’eccezione di due aree conservative: la sarda logudorese e la dalmatica) le sequenze latine espresse graficamente come ‹ci› e ‹ce›, che in età classica erano pronunciate rispettivamente [ki] e [ke], a partire già dal III secolo subiscono un processo di palatalizzazione che, successivamente, ha portato alle pronunce italiane [ʧi] e [ʧe]. Si consideri, ad es., il latino ceram «cera» che diventa cera ([ʧ]) in italiano, cire in francese (‹c› è pronunciata [ʦ] fino al XIII sec. e poi [s]), [θ]era in spagnolo. Nella varietà italiana poi anche le dentali subiscono un processo di palatalizzazione e affricatizzazione; si pensi ai seguenti esiti latini:
(1) a. nj > [ɲ]: vineam > vigna
b. lj > [ʎ]: filium > figlio
c. tj > [ʦ]: vitium > vezzo
d. dj > [ʣ]: radium > razzo
e. sj > [ʧ]: caseum > cacio; basium > bacio; camisiam > camicia
pur se la distribuzione del fenomeno nel lessico italiano non è sistematica (cfr. calco ~ calchi).
Di seguito si fornisce una breve descrizione delle principali evoluzioni consonantiche che caratterizzano il passaggio dal latino all’italiano.
Per quanto riguarda le occlusive sorde bilabiali e coronali latine (/p/, /t/), si conservano sia all’inizio di parola (petram > pietra; tempus > tempo), che in posizione intervocalica (sapere > sapere; maturum > maturo). Tuttavia, esistono alcune eccezioni: strata > strada; ripam > riva.
Anche le occlusive sonore bilabiali e coronali latine (/b/, /d/) si conservano all’inizio di parola (bovem > bue; dentem > dente). In posizione intervocalica le bilabiali possono lenirsi in fricative: caballŭm > cavallo.
Un discorso a parte va fatto per lo sviluppo delle occlusive velari latine (/k/, /g/). In posizione avanti a vocale o approssimante palatale si anteriorizzano dapprima in [tj] e [dj] e successivamente in [ʧ] e [ʤ]. Il fenomeno non ha luogo nel sardo logudorese. Per es.:
(2) cervum > sardo logudorese kerbu, it. cervo;
ceram > sardo logudorese kera, it. cera;
gentem > gente;
vicinum > vicino
Limitatamente alla sonora /g/, il fenomeno ha luogo anche in posizione intervocalica: legem > legge.
Negli altri contesti fonetici, in genere le velari vengono conservate:
(a) in posizione iniziale di parola: capram > capra; gallinam, gallum > gallina, gallo;
(b) in posizione avanti a vocale posteriore (/u/, /o/): collum > collo; gulam > gola;
(c) in posizione intervocalica: amicum > amico; negare > negare; securum > sicuro; *agustum > agosto; si contano tuttavia alcune eccezioni: locum > luogo.
Per quanto riguarda le occlusive labiovelari latine (/kw/, /gw/), in posizione avanti a vocale diversa da /a/ si semplificano in /k/ e /g/: *sequire > seguire; quinque > cinque (con palatalizzazione della prima occlusiva davanti a vocale anteriore); sanguem (< sangu(in)em) > sangue. Invece, davanti ad [a], si ha rafforzamento di [kw] in [kːw]: aquam > acqua.
Per quanto riguarda le fricative latine (/f/, /s/, /h/), in posizione sia iniziale che interna di parola /s/ e /f/ si conservano (sitis > sete): il suffisso latino -osa, con /s/ in posizione intervocalica, ha sviluppi sordi (it. -o[s]a). Per quanto riguarda il grafema ‹v› latino, occorre sottolineare che nella pronuncia classica ad esso corrisponde il suono approssimante [w] e non il fricativo [v]. Intorno all’era cristiana la ‹v› latina intervocalica è pronunciata [β]. Nel latino volgare i grafemi ‹b› e ‹v› sono entrambi pronunciati [β]. Poi, intorno al II secolo, la pronuncia diviene [v] labiodentale. Quest’esito si conserva in italiano come /v/: caballŭm > cavallo. Per quanto riguarda la glottidale [h], si tratta di un suono di cui è difficile ricostruire la facies fonetica (fricativa o approssimante). Peraltro, già in latino classico la sua esecuzione corretta era relegata al registro formale e colto. In ogni caso non se ne hanno sviluppi romanzi (le h aspirate francesi non sono di origine romanza, ma un’influenza germanica).
Le nasali latine (/m/, /n/) si conservano in posizione sia iniziale che interna di parola (mensem > mese; amare > amare; manum > mano).
La vibrante latina (/r/) si conserva sia in posizione iniziale di parola (rumpere > rompere) che in posizione interna di parola: pira (plur. di pirum) > pera.
La laterale latina (/l/) ha due varianti combinatorie: una apico-dentale [l] ed una dorso-velare [ɫ]. La prima compare davanti a vocale anteriore (lat. velim), mentre la seconda davanti a vocale posteriore (lat. volo). In genere lo sviluppo romanzo ha privilegiato la laterale dentale (caelum > port. céu; spagn. cielo; fr. ciel; it. cielo).
Per quanto riguarda i nessi consonantici latini, in posizione iniziale di parola, i nessi di consonante seguita da vibrante si conservano (pratum > prato). I nessi di consonante seguita da laterale evolvono attraverso vari gradi di palatalizzazione:
(3) a. pl- > [pj]: planum > piano
b. bl- > [bj]: blasphemare > biasimare
c. fl- > [fj]: flammam > fiamma
d. cl- > [kj]: clavem > chiave
e. gl- > [gj]: glandem > ghianda
In posizione interna di parola i nessi di consonante seguita da laterale seguono una trafila simile:
(4) a. -pl- > [pːj]: duplum > doppio
b. -bl- > [bːj]: trib(u)lat > trebbia
c. -fl- > [fːj]: sufflat > soffia
d. -cl- > [kːj]: auriclam > orecchio
e. -gl- > [gːj, ʎː]: coag(u)lum > caglio
f. -scl- > [skj]: masc(u)lum > maschio
g. -ngl- > [ƞgj]: ung(u)lam > unghia
I nessi latini di /s/ seguita da consonante si conservano sia in posizione iniziale di parola (spōnsum > sposo), sia in posizione interna di parola (respondere > rispondere).
In posizione interna di parola, sono stabili i nessi latini di vibrante seguita da consonante (portam > porta), ma non vanno dimenticati fenomeni di assimilazione che peraltro si manifestano già in piena fase latina (dorsum > dossum > dosso).
Nella stessa posizione interna, i gruppi di nasale seguita da consonante generalmente si conservano (plantam > pianta).
Per quanto riguarda i nessi di consonante seguita da vibrante in posizione interna di parola, se la consonante è sorda, allora si conserva (capram > capra); se la consonante è sonora, allora si lenisce e dilegua (nigrum > nero; quadraginta > quaranta).
Generalmente si assimilano (➔ assimilazione) e si semplificano i nessi latini /p/ + dentale e /k/ + dentale: septem > sette; capsam > cassa; noctem > notte.
Per quanto riguarda i nessi di consonante latina seguita da /j/, generalmente subiscono palatalizzazione e/o lenizione:
(5) potionem > (it. ant.) pogione
hodie > oggi
basiare > baciare
vineam > vigna
foliam > foglia
bracchium > braccio
corrigiam > correggia
A parte vanno considerati i casi seguenti: il nesso /pj/ (sēpiam > seppia), dove la forma italiana conserva il nesso latino e allunga la consonante; il nesso /mj/ (vindemiam > vendemmia), dove la forma latina è conservata in italiano; infine, il nesso /rj/ (aream > aia, ma it. merid. aira), dove la palatalizzazione della vibrante genera una vocale palatale davanti alla vibrante stessa (che in italiano standard scompare).
Infine, per quanto riguarda le consonanti latine finali di parola, la tendenza a cancellare questi segmenti è propria già del latino classico. In particolare, ciò vale per [-m#] e per [-t#]; invece [-s#] cade in italiano e romeno, ma continua a essere pronunciato avanti a vocale nelle altre aree romanze, come ancora si verifica nel fenomeno della liaison nel francese: flores > fr. fleurs, provenz. flors, spagn. flores, sardo logudorese flores, it. fiori, romeno flori.
Rispetto alle altre lingue romanze, l’italiano ha un inventario consonantico (➔ consonanti) che presenta la peculiarità di un consistente numero di affricate.
Lo specchietto riportato di seguito illustra la classificazione articolatoria dei fonemi consonantici, cui si aggiungono alcuni allofoni (tra parentesi quadre):
bilabiali labiodentali coronali palatali velari
____________________________________________________________
occlusive p b t d k g
affricate ʦ ʣ ʧ ʤ
nasali m [ɱ] n ɲ [ƞ]
polivibranti r
fricative f v s z ʃ [ʒ]
approssimanti j w
laterali l ʎ
I punti di articolazione o punti diaframmatici sono ordinati nelle colonne e i modi di articolazione nelle righe. Nelle colonne i simboli a sinistra indicano i suoni sordi e quelli a destra i sonori (nasali, polivibranti, laterali e approssimanti sono consonanti sonore per natura; insieme formano la classe delle sonoranti).
Le ➔ affricate sono fonemi singoli e non nessi di un’occlusiva seguita da una fricativa, come la trascrizione fonetica potrebbe far supporre. Per dimostrarlo, occorre considerare che la distribuzione dell’affricata e quella dell’occlusiva è mutuamente incompatibile con quella della fricativa: ad es., /ʣ/ e /ʤ/ possono ricorrere all’inizio di parola (zona, gioco); lo stesso accade per /d/ (dono), ma in tale posizione sono sistematicamente escluse sia /z/, sia [ʒ] (quest’ultima non è neanche un fonema dell’italiano standard e si trova solo in area toscana).
L’esito della verifica distribuzionale non è altrettanto probante nel caso delle affricate sorde (/ʦ/, /ʧ/, /t/, /s/ e /ʃ/ ricorrono nei medesimi contesti e producono anche coppie minime):
(6) [ʦ]ecca ~ [ʧ]ecca (nome proprio) ~ secca
teme ~ seme ~ [ʃ]eme
co[tːs]o ~ co[tːʃ]o ~ co[ʃː]o
Ne conseguirebbe che in italiano le affricate sonore sono monofonematiche, mentre quelle sorde sono nessi di due fonemi. Tale conclusione sarebbe fortemente marcata, in quanto tra le lingue note le consonanti sonore compaiono quasi sempre nei sistemi che possiedono anche le sorde. Il contrario è piuttosto raro. Inoltre, anche dal punto di vista fonetico, le sonore risultano da un’articolazione più complessa delle sorde. Di conseguenza, per applicazione di un principio di generalizzazione assai comune nella procedura di scoperta scientifica, le conclusioni derivate dall’analisi del caso più marcato sono estese a quello più semplice e, quindi, anche le affricate sorde sono considerate fonemi singoli dell’italiano.
Per quanto riguarda l’opposizione tra affricata coronale sorda e sonora, entrambe rappresentate col grafema ‹z›, si tratta di distinzione con bassissimo rendimento funzionale (in posizione iniziale di parola esiste solo la coppia minima [ʣ]annata «scena, comportamento da Zanni» ~ [ʦ]annata «colpo di zanna», peraltro non comunemente riconosciuta; in posizione interna l’unica coppia minima riconosciuta è ra[tːs]a «etnia» ~ ra[dːz]a «pesce»). La loro realizzazione è condizionata dalla base etimologica della singola parola, come ricorda Rohlfs 1966-1969: 1°, § 169:
Le parole con z possono essere derivate dal greco e in questo caso [...] seguono la sorte di dj- latino. Le parole che in Italia sono entrate in uso solo in epoca più tarda [...] compaiono con z sonora [...] tipo zeta, zodiaco, zona. Viceversa, la z germanica di provenienza longobarda è un suono sordo tipo in zanna, zecca, zazzera, zeppa, zolla.
L’opposizione è ancora salda nella varietà fiorentina e in quella romana, ma in posizione iniziale tende a perdersi nelle pronunce regionali, come si dimostra da più parti, ad es., nello stesso Canepari (1980) che testimonia la generale tendenza di Umbria, Marche e Lazio a sonorizzare ‹z› iniziale in tutti i contesti. Nelle parlate settentrionali la sorda iniziale è regolarmente sonorizzata; mentre la sorda compare dopo consonante, laddove nel meridione compare invece la sonora (ad es., roman[ʦ]o ~ roman[ʣ]o).
Per quanto riguarda l’opposizione tra affricata palatale sorda e sonora, si può citare la coppia minima [ʧ]elo ~ [ʤ]elo. A Roma e Firenze si può rilevare una deaffricatizzazione di /ʧ/ in posizione intervocalica (per es., la [ʃ]ena «la cena»), mentre /ʤ/ intervocalica si allunga a Roma (ad es., a[dːʒ]ente) e, invece, si fricativizza a Firenze (ad es., a[ʒ]ente).
Come si è visto, le occlusive italiane continuano alquanto fedelmente quelle latine. Si possono menzionare alcune coppie (sub-)minime (➔ coppia minima): [p]ari ~ [b]ari; [t]ino ~ [d]ino; [k]ola ~ [g]ola. Un fenomeno notevole del toscano è la cosiddetta gorgia (➔ gorgia toscana), cioè la sistematica lenizione delle occlusive sorde in posizione intervocalica: ad es., la [h]asa «la casa». In certe parlate toscane l’indebolimento può essere tanto forte da cancellare l’occlusiva (per es., [ˈpɔo] per [ˈpɔko]). Invece, nell’Italia centrale e meridionale le occlusive sorde in posizione intervocalica (o tra sonoranti) sono realizzate in modo lene o desonorizzato (ad es., i [b̥]esci «i pesci»).
Un processo morfo-fonologico importante in italiano è l’alternanza tra occlusive velari e affricate palatali: amico con [k] e amici con [ʧ], vinco con [k] e vinci con [ʧ]; volgo con [g] e volgi con [ʤ]. Occorre notare che tale processo non è innescato dal suffisso -e (femminile plurale < lat. ae), né dal plurale -i dei nomi (infatti, ad es., il plurale in -e di amica è amiche e non * amice; il plurale in -i di buco è buchi e non * buci); mentre è, invece, innescato dalla e in quanto vocale tematica: vincere, vince, vinceva, tutti con [ʧ].
Un altro residuo sincronico di processi storici più remoti è il fenomeno dei cosiddetti dittonghi mobili (➔ dittongo), come in buono → bontà; viene → venire, che derivano dalla dittongazione di ĕ, ŏ latini in sillaba tonica aperta. Tuttavia, ulteriori processi analogici hanno eroso questo sistema: cfr. io suono → suonato → sonato; io provo → provato (ma non pruovato).
Sebbene l’opposizione tra i vari luoghi di articolazione delle nasali sia testimoniata dall’esistenza di coppie (sub-)minime (per es., lama ~ lana ~ la[ŋː]a), essa appare neutralizzata in posizione preconsonantica: per assimilazione coarticolatoria la nasale assume il luogo della consonante seguente (a[m]bo, a[ɱ]fibio, a[n]dare, a[ŋ]che). Ciò accade anche al confine di parola, per ➔ sandhi (per es., i[m] barca, co[ɱ] fiducia, co[n] dignità, co[ŋ] calma).
La palatale è realizzata come nesso [nj] nei dialetti settentrionali (ad es., lagna [ˈlanja]).
L’opposizione tra i due luoghi di articolazione si appoggia su coppie (sub-)minime come pala ~ pa[ʎː]a. La palatale è realizzata come nesso [lj] nei dialetti settentrionali (paglia [ˈpalja]); come [jː] nelle varietà centrali e in Sicilia (ad es., aglio [ˈajːo]).
Per quanto riguarda le opposizioni di luogo di articolazione, si considerino, ad es., le coppie (sub-)minime scafo ~ scavo, fino ~ vino ~ sino o uso ~ u[ʃː]o.
Il fonema /z/ è caratterizzato da una distribuzione difettiva. Si oppone a /s/ solo in posizione intervocalica, a condizione che si trovi all’interno di morfema lessicale o al suo confine finale:
(7) chiese («passato di chiedere») ~ chie[z]e «edifici di culto»
fuso «strumento della filatura» ~ fu[z]o («part. pass. di fondere»)
Invece, in posizione iniziale di parola o morfema, davanti (o tra) vocali, si realizza solo /s/ (per es., [s]ale, ri[s]aputo, affitta[s]i ). Tuttavia, al Nord e ormai in tutta Italia (per un fenomeno di imitazione) è invalsa la tendenza a sonorizzare anche in questi casi e, in genere, in ogni ricorrenza di fricativa coronale intervocalica (co[z]a, ca[z]a). La mancata realizzazione della sorda intervocalica settentrionale è anche dovuta al fatto che in queste varietà [s] non ricorre in posizione interna di morfema, ma solo dopo prefissi terminanti in vocale (ad es., ri[s]ollevare), a meno che il prefisso in questione non sia più sentito come tale (ad es., ri[z]altare).
L’opposizione si neutralizza anche quando la fricativa è in nesso con una successiva consonante, per assimilazione con la sonorità di quest’ultima ([z]badigliare, [s]pellare). Si osservi che la sorda /s/ è resa palatale in molte aree meridionali quando in posizione preconsonantica (per es., [ʃ]paccare, [ʒ]degno). Inoltre, nelle parlate di Roma e del sud della Toscana si osserva l’affricatizzazione di /s/ preceduta da sonorante coronale (per es., pen[ʦ]o, per[ʦ]o, cor[ʦ]a, al [ʦ]olito).
Per quanto riguarda le palatali, [ʒ] non è un fonema italiano, dato che appare solo nelle parlate toscane come realizzazione lenita dell’affricata palatale sonora (ad es., ra[ʒ]one), e in alcuni prestiti (ad es., abat-jour [abaˈʒur], garage [gaˈraʒ]). La sorda /ʃ/ è realizzata come nesso [sj] nei dialetti settentrionali (liscio [ˈlisjo]).
In italiano esiste un solo fonema polivibrante (➔ vibranti). Si oppone ad altri fonemi dello stesso punto di articolazione, come si può constatare da una coppia minima come pari ~ pali ~ pani. La sua realizzazione può essere monovibrante [ɾ] in posizione intervocalica. In diverse varietà della Sicilia, Calabria e Salento la realizzazione dopo occlusiva coronale è retroflessa [ɼ] (ad es., quattro [ˈkwaʈːɼo]).
Diversamente dalla variazione di lunghezza vocalica, in italiano la variazione di quantità consonantica (➔ quantità fonologica) ha funzione distintiva. Si pensi, ad es., a coppie minime come fato ~ fatto. Nella terminologia tradizionale tali consonanti lunghe eterosillabiche sono dette geminate (o, popolarmente, doppie).
Tuttavia, una classe di consonanti italiane è, per così dire, intrinsecamente lunga (geminate intrinseche), nel senso che nella varietà standard esse si realizzano solo come lunghe e quindi determinano una neutralizzazione dell’opposizione di durata. Per la precisione, in posizione intervocalica (o tra vocale e approssimante) le palatali laterale (/ʎ/), nasale (/ɲ/) e fricativa (/ʃ/) e le affricate dentali (/ʦ/ e /ʣ/) sono sempre pronunciate lunghe in area centromeridionale (a[ʎː]o, a[ɲː]ello, co[ʃː]a, cau[tːs]ione, a[dːz]ienda), mentre al Nord sono sempre brevi (a[ʎ]o, a[ɲ]ello, co[ʃ]a, cau[ʦ]ione, a[ʣ]ienda); ciò avviene anche quando la posizione intervocalica non è collocata all’interno di parola, ma di frase (ad es., lo scialle [lo ˈʃːalːe]). Tutte le altre consonanti italiane possono essere sia lunghe che brevi, fatta eccezione per /z/, /j/ e /w/ le quali sono pronunciate sempre brevi. A Roma /ʤ/ e /b/ sono rese lunghe in posizione intervocalica (pi[dːʒ]one, a[bː]ate), come pure /j/ è sempre lunga in posizione intervocalica (per es., ma[jː]ale).
Le geminate intrinseche – a differenza delle altre geminate – possono ricorrere anche in posizione iniziale di parola, se seguite da vocale: [ʎː]i, [ɲː]omo, [ʃː]occo, [tːs]occolo, [dːz]ero. Naturalmente, ciò non accade nelle varietà settentrionali.
In italiano standard si distinguono sette fonemi vocalici (➔ vocali) in posizione tonica:
anteriori centrali posteriori
chiuse o alte i u
semichiuse o medioalte e o
semiaperte o mediobasse ɛ ɔ
aperte o basse a
che si riducono a cinque in posizione atona:
anteriori centrali posteriori
chiuse o alte i u
semichiuse o medioalte e o
semiaperte o mediobasse
aperte o basse a
Gli specchietti descrivono la posizione articolatoria della lingua lungo l’asse orizzontale anteriore-posteriore del cavo orale (colonne) e nella dimensione verticale (righe) (➔ fonetica articolatoria, nozioni e termini di). Rispetto ad altre lingue romanze, come il francese, il vocalismo italiano appare notevolmente più semplice, in quanto manca di vocali anteriori arrotondate (/y/, /ø/, /œ/), presenti solo in alcune aree nordoccidentali, e di vocali nasalizzate (/ɛ̃/, /œ̃/, /ɑ̃/, /ɔ̃/) (➔ lingue romanze e italiano). La posizione articolatoria centrale della /a/ è, in realtà, solo convenzionale, per due motivi: a seconda della varietà linguistica, del parlante e della natura della consonante seguente l’articolazione può essere anteriorizzata o posteriorizzata; inoltre, in italiano esiste un solo fonema vocalico basso o aperto, perciò fonologicamente la distinzione antero-posteriore è irrilevante per questa articolazione.
Le opposizioni in sillaba tonica sono supportate da coppie minime:
(8) vanti ~ v[e]nti «numero» ~ v[ɛ]nti «eventi atmosferici» ~ vinti
batte ~ b[o]tte «contenitore per il vino» ~ b[ɔ]tte «percosse» ~ bitte «termine marinaresco»
pazzo ~ puzzo ~ p[ɛ]zzo ~ p[o]zzo ~ pizzo
Tuttavia, /ˈo/ non si presenta mai in fine di parola. In sillaba atona le opposizioni /ɛ/ ~ /e/ e /ɔ/ ~ /o/ si neutralizzano:
(9) v[e]ntina «numero», v[e]ntoso «evento atmosferico»
f[o]rense (da f[ɔ]ro), f[o]rato (da f[o]ro)
In sillaba atona finale la /u/ non ricorre mai (salvo in prestiti non adattati).
In realtà, anche tra l’area fiorentina e quella romana esistono significative differenze nella realizzazione delle stesse coppie minime (Bertinetto & Loporcaro 2005: 137), ma, al di fuori di queste due zone, le opposizioni /ɛ/ ~ /e/ e /ɔ/ ~ /o/ in posizione tonica sono sempre neutralizzate: per meglio dire, in aree centrali (Umbria, Marche, Lazio, Campania), ma anche settentrionali (Alto Adige, Friuli, Veneto, Trentino, Lombardia), non c’è vera neutralizzazione ma le due opposizioni si realizzano con oscillazioni e diversità rispetto allo standard (Canepari 1980; Bertinetto & Loporcaro 2005). Invece, in area meridionale (Abruzzo, Molise, Lucania, Puglia, Sicilia, Sardegna) e in altre settentrionali (Venezia Giulia, Piemonte, Liguria, Emilia-Romagna) la neutralizzazione dell’opposizione /ˈɛ/ ~ /ˈe/ produce in via generale un fono intermedio [ˈɛ⊤̞̝]. In modo analogo, la neutralizzazione dell’opposizione /ˈɔ/ ~ /ˈo/ normalmente ha come risultato il fono intermedio [ˈɔ⊥̞̝] (Canepari 1979: 203-230, e 1980).
Per quanto riguarda la Lombardia, in sillaba tonica chiusa o in sillaba tonica finale la /ˈɛ/ si manifesta mediante la variante aperta [ˈæ] (per es., quello [ˈkwæːlːo]), mentre sempre ovviamente in posizione tonica, ma in sillaba aperta o in sillaba chiusa da consonante nasale, il fono si chiude in [ˈe] (ad es., bene [ˈbeːne]; Poggi Salani 1976; Canepari 1980; Serianni 1988: 13).
Per quanto riguarda l’area veneta, si osserva la realizzazione aperta [ˈæ⊥ ̞̞̝̞̝̝] di /ˈɛ/ (ad es., me [ˈmæ⊥ ̞̝]) ed [ˈɒ̝⊥̞] di /ˈɔ/ (ad es., ogni [ˈɒ⊥ ̞̝ɲi]; cfr. Canepari 1979: 209).
In Sardegna (Serianni 1988: 13), le realizzazioni delle vocali toniche sono aperte (per es., bene [ˈbɛːne], come in toscano, ma anche rosso [ˈrɔːsːo]). Tuttavia, in area sarda e, più in generale, meridionale è attivo il fenomeno di assimilazione parziale regressiva a distanza, noto sotto il nome di ➔ metafonia (o metafonesi). Esso consiste nella chiusura della vocale tonica qualora la parola nella quale si realizza termini con una vocale chiusa in sillaba atona (/i/ o /u/). Per conseguenza, si avranno [ˈo] ed [ˈe] in rossi [ˈroːsːi] e in beni [ˈbeːni]. Peraltro, l’assimilazione per chiusura può avvenire anche se la vocale atona chiusa (/i/ o /u/) si trova in una qualsiasi sillaba successiva a quella tonica. In tal caso, si può parlare di armonizzazione (o armonia vocalica: per es., debito [ˈdeːbito], come in toscano, ma anche equo [ˈeːkwo]; Serianni 1988: 13).
Nelle parlate meridionali, secondo Canepari (1979: 219-230) la neutralizzazione delle opposizioni /ˈɛ/ ~ /ˈe/ ed /ˈɔ/ ~ /ˈo/ produce, di norma e salvo specifiche eccezioni, dei foni intermedi [ˈɛ⊥̝] e [ˈɔ̝⊥]. Secondo Serianni (1988: 13) nelle parlate di Sicilia, parte della Calabria e nel Salento le due realizzazioni sono, invece, più aperte: quindi amore [amˈɔːre] e neve [ˈnɛːve]. Peraltro, è da notare che anche in queste aree l’azione del fenomeno della metafonesi produce chiusura delle vocali toniche. Inoltre, nelle parlate pugliesi (a esclusione del Salento), in condizioni di cosiddetto parlato connesso, cioè di velocità di elocuzione sostenuta e di stile informale, può aversi riduzione delle vocali atone in [ə] (Canepari 1980: 222; ➔ scevà). In Sicilia, invece, le /i/ ed /u/ in sillaba atona non finale di enunciato si ridurrebbero alle loro rispettive corrispondenti rilassate [ɪ] ed [ʊ] (Canepari 1980: 224).
La ragione di tale scarso rendimento funzionale delle opposizioni tra vocali toniche medio-alte e medio-basse è anche dovuta al fatto che la loro alternanza dipende da fatti diacronici e, precisamente, dalla base etimologica latina: nel tipo linguistico cosiddetto italico (cui si riferisce lo standard a base toscana) la /ˈɛ/ deriva dalla ĕ latina; la /ˈe/ dal latino ē o ĭ; la /ˈɔ/ dal latino ŏ; e la /ˈo/ dal latino ō o ŭ.
Gli esiti nelle varietà italiane del vocalismo tonico latino sono illustrati qui di seguito:
tabella
Così, abbiamo:
(10) spīnam > spina
nĭvem > neve
fēminam > femmina
fĕrrum > f[ɛ]rro
mātrem > madre
pătrem > padre
ŏcto > [ɔ]tto
cognōsco > conosco
nŭcem > noce
ūnum > uno
In sillaba libera le vocali toniche medio basse evolvono ulteriormente in dittonghi:
(11) pĕdem > p[jɛ]de
bŏnum > b[wɔ]no
Ma le cose vanno diversamente per le varietà parlate nella zona arcaica (gran parte della Sardegna, Corsica e della Lucania: la cosiddetta zona Lausberg), mista (un’area che comprende la Lucania orientale, la Dalmazia e la Romanìa) e ad adstrato greco (zone a contatto con aree di colonizzazione greca in Sicilia, Calabria e Puglia a sud di Brindisi). In questo vasto insieme di aree del paese neanche la base etimologica supporta la distinzione dei timbri vocali medio-alti e medio-bassi. La conseguenza è che per la gran parte dei parlanti le opposizioni /ˈɛ/ ~ /ˈe/ ed /ˈɔ/ ~ /ˈo/ sono neutralizzate.
Tra gli sviluppi diacronici del vocalismo tonico italiano a partire da quello latino occorre anche menzionare il fenomeno della cosiddetta ➔ anafonesi, o innalzamento delle vocali medio-alte del toscano, che in alcuni contesti produce i seguenti esiti: lat. ĭ, ē > it. /i/ (invece di [e]); lat. ŭ, ō > it. /u/ (invece di [o]). L’anafonesi del toscano si verifica se la vocale derivata dal lat. ĭ, ē, ŭ, ō precede:
(a) /ŋk/, /ŋg/, /nʧ/, /nʤ/ (e, solo per la vocale anteriore, /skj/): vĭnco > /ˈviŋko/; lĭnguam > /ˈliŋgwa/; pŭngere > /ˈpunʤere/; fŭngum > /ˈfuŋgo/; mĭsculat > /ˈmiskja/;
(b) /ʎ/: famĭliam > /faˈmiʎːa/ (e non *fameglia); fĭlium > /ˈfiʎːo/;
(c) /ɲ/: tĭneam > /ˈtiɲːa/; pŭgnum > /ˈpuɲːo/ (non *pogno).
Queste anomalie anafonetiche di sviluppo diacronico non sarebbero tali nel quadro dei tipi linguistici non italici (misto, arcaico e ad adstrato greco), dove la trafila attesa è proprio: lat. ĭ, ē > it. /i/; lat. ŭ, ō > it. /u/. Lo sono, invece, nel tipo italico, che è derivato dal toscano e che è alla base dello standard italiano.
Come si è appena osservato, la durata vocalica, che in latino era distintiva e dava quindi luogo a coppie minime (ŏs «osso» ~ ōs «bocca»; pŏpŭlus «popolo» ~ pōpŭlus «pioppo»; mălum «il male» ~ mālum «mela», ecc.), in tutte le lingue neolatine ha perduto valore fonologico.
In italiano le opposizioni di durata latine hanno dato luogo a opposizioni di timbro vocalico, come già illustrato. Tuttavia, il sistema fonologico italiano ha generato altre variazioni di durata vocalica che – in specifiche condizioni (sotto accento di frase) – sono semplici marcatori fonetici dell’➔accento lessicale, della struttura sillabica (cfr. § 7; ➔ sillaba) e della posizione fonotattica (➔ fonetica sintattica) della vocale rispetto al confine finale di parola. L’analisi fonetica acustica consente, così, di osservare che le vocali toniche in sillaba libera sono più lunghe, se poste sotto accento di frase (e, quindi, anche in parola isolata). Al contrario, sono più brevi le vocali atone e quelle toniche in sillaba implicata o in fine di parola (cioè in parole tronche; si tenga conto che nella notazione fonetica il confine sillabico è indicato con un punto in basso): anima /ˈaː.ni.ma/, lettera /ˈlɛt.ːe.ra/, divino /di.ˈviː.no/, profondo /pro.ˈfon.do/, virtù /vir.ˈtu/.
Risultano pure brevi le vocali toniche che precedono una delle consonanti intrinsecamente lunghe in posizione intervocalica, cioè /ʃ, ʎ, ɲ, ʦ, ʣ/ (cfr. Vagges et al. 1978: 82): infatti, in questo caso le vocali vengono a trovarsi in posizione di sillaba implicata, in quanto la consonante lunga successiva è eterosillabica, cioè appartiene sia alla coda della sillaba precedente che all’attacco della successiva. In ogni caso, essendo la distribuzione di vocali lunghe e brevi complementare, non si generano coppie minime basate sull’opposizione di lunghezza vocalica, che non è, perciò, fonologicamente distintiva. Semmai, occorre sottolineare che il manifestarsi di tali variazioni di durata fonetica è condizionato alla presenza di un accento di frase: non si tratta, insomma, di un fatto di parola, ma di enunciato.
Le vocali finali sono sempre brevi, cosicché se sono accentate e in stretta connessione con la parola seguente, determinano una violazione del principio prima stabilito, riguardo alla lunga durata delle vocali toniche. Secondo alcuni, il fenomeno del raddoppiamento sintattico (cfr. § 8) interverrebbe per ripristinare il principio violato.
In italiano la posizione dell’accento di parola ha funzione distintiva, cioè serve a opporre parole di significato diverso che differiscono solo per la collocazione dell’accento stesso: ancóra ~ áncora. Sul piano fonetico, le vocali accentate tendono ad essere più lunghe delle corrispondenti atone (Bertinetto 1981; ➔ fonetica), a condizione che siano portatrici di accento di frase. Perciò, in italiano la posizione dell’accento è detta libera, ma in realtà possono esserne portatrici soltanto le ultime tre sillabe della parola.
Tradizionalmente, le parole accentate sull’ultima sillaba si dicono tronche (o ossitone): città, virtù; quelle accentate sulla penultima piane (o parossitone): telefonare, fratello; quelle accentate sulla terzultima sdrucciole (o proparossitone): dirmelo, celebre. La ritrazione sulla quartultima sillaba (parole bisdrucciole) riguarda solo verbi alla terza persona plurale la cui radice è accentata sulla terzultima sillaba (ad es., dubito → dubitano) o verbi dotati di clitici (ad es., telefonami, màngiatelo). La cliticizzazione può produrre anche ulteriore ritrazione d’accento: sulla quintultima (trisdrucciole: telèfonamelo), o sulla sestultima (quadrisdrucciole: fàbbricamicelo).
La posizione dell’accento non è predicibile su base fonologica (infatti si osservano coppie minime come prìncipi ~ princìpi, o càpito ~ capìto ~ capitò), salvo nel caso della sillaba chiusa in penultima posizione di parola, che risulta sistematicamente accentata (i controesempi sono limitati a ➔ prestiti, ➔ cultismi e alcuni ➔ toponimi). Alcune ulteriori regolarità di collocazione sono motivate morfologicamente. Ad es., un verbo delle cosiddette coniugazioni regolari, alla terza persona singolare del passato remoto è sempre accentato sull’ultima sillaba (tronco); un verbo alla seconda persona plurale, sempre delle coniugazioni regolari, è accentato sulla penultima sillaba: parlò, parlate (➔ coniugazione verbale). Secondo Vincent (1987), tali modelli accentuali sono descrivibili mediante una distinzione morfologica tra suffissi neutri per quanto riguarda l’accento e suffissi che attraggono l’accento. La base lessicale che riceve tali suffissi può essere accentata sia sulla penultima che sulla terzultima sillaba: cànta ~ fàbbrica. Un suffisso neutro all’accento unito a una base lessicale accentata sulla terzultima produce un accento sulla quartultima: fàbbricano. Se i clitici sono dopo il verbo, l’accento si allontana dalla fine della parola: fàbbricalo, fàbbricamelo, fàbbricamicelo.
Le parole tronche sono sempre prestiti (spesso dal fr.) o risultato di troncamento diacronico: it. virtù < italiano antico virtude < virtutem.
Oltre all’accento primario – dotato di maggior grado di prominenza – i polisillabi presentano anche quello secondario (indicato in trascrizione fonetica col simbolo [ˌ]). Nei composti la posizione dei due accenti è associata alle stesse due sillabe toniche delle parole semplici componenti: l’accento principale è sempre sull’ultimo componente e l’accento primario del primo componente si trasforma in accento secondario del composto: ad es., capo /ˈkapo/ + stazione /staˈtːsjone/ → capostazione /ˌkapostaˈtːsjone/.
Nelle parole non composte, invece, l’accento secondario non ha vincoli di posizione perché la sua funzione è garantire un’alternanza ritmica tra sillabe atone e toniche ed evitare che più di due sillabe atone si succedano o che due toniche siano in consecuzione: se precede quello principale, ne è separato da una sillaba atona; se lo segue, allora si colloca sull’ultima sillaba della parola, tranne nel caso in cui quest’ultima sia adiacente alla sillaba tonica.
Come si è già visto in § 4 e si vedrà in § 7, l’accento interagisce con la lunghezza vocalica e con la distribuzione delle consonanti lunghe o geminate. Le vocali sono sempre brevi se non dotate di accento primario, oppure se sono toniche ma in sillaba chiusa, oppure se sono toniche ma in sillaba finale di parola (in parole tronche), cioè se sono in posizione davanti a pausa; sono lunghe solo in sillaba tonica aperta, ma solo se la sillaba è portatrice di accento di frase: anima /ˈaː.ni.ma/, lettera /ˈlɛt.ːe.ra/, divino /di.ˈviː.no/, profondo /pro.ˈfon.do/, virtù /vir.ˈtu/. Le vocali che si trovano davanti a pausa (finali di parola) sono sempre brevi, cosicché se sono accentate e in stretta connessione con la parola seguente determinano una violazione del principio prima stabilito, riguardo la lunga durata delle vocali toniche.
Secondo alcuni autori, per ripristinare il principio violato interverrebbe il fenomeno del raddoppiamento sintattico (cfr. § 8) che consiste nell’allungamento della consonante iniziale della parola seguente: parlò chiaro [par.ˈlɔk.ˈːja.ro]. In tal modo, la consonante raddoppiata sembra agire come barriera che, collocandosi anche in coda della sillaba tonica finale, rilegittima la sua brevità.
Un’altra funzione dell’accento italiano è quella di definire il dominio della parola fonologica (➔ parola italiana, struttura della). La parola fonologica o prosodica (Hall 1999) è un costituente della gerarchia fonologica, di grado più elevato della sillaba e del piede metrico, ma più basso del sintagma fonologico e del sintagma intonativo. In italiano i suoi confini abbracciano tutti i segmenti dominati da un unico accento primario. In genere, comprende un lemma e i suoi clitici (ad es., la casa, ho mangiato).
La nozione di parola sembra essere la più evidente unità della lingua. Tuttavia, è arduo tentarne una definizione rigorosa. Certamente, in italiano, come in altre lingue scritte, sembrerebbe facile identificarla come una sequenza di segmenti isolati tra due spazi vuoti (pause). In questo modo, però, si trascura il fatto che in italiano – come in varie altre lingue – esistono classi di parole dette sintagmatiche o polirematiche (➔ polirematiche, parole), formate da più parole (monorematiche) che non possono ricorrere separatamente ed hanno un identico comportamento fonologico e sintattico, cioè simile a quello di parole monorematiche (ad es., ferro da stiro, sedia elettrica, messa in piega). Sul piano fonologico i confini di queste unità particolarmente coese si identificano con la parola fonologica. Al suo interno gli accenti lessicali delle parole componenti subiscono una rigerarchizzazione il cui risultato è l’assegnazione di un solo accento primario e uno o più secondari.
Il termine ➔ dittongo indica il nesso di due foni vocalici (o, meglio, un fono vocalico e uno approssimante) appartenenti alla stessa sillaba (tecnicamente, tautosillabici). Come vedremo più avanti, analizzando la struttura sillabica, in italiano il fono vocalico (V) occupa obbligatoriamente il nucleo sillabico e quello approssimante può essere collocato solo nella posizione sillabica riservata ai foni consonantici: cioè o in attacco (dittongo ascendente) o in coda (dittongo discendente). Nel caso dei dittonghi ascendenti (ad es., /ja/ e /wa/), l’approssimante in attacco sillabico è tradizionalmente denominata semiconsonante; mentre l’approssimante in coda sillabica dei dittonghi discendenti (ad es., /aj/ e /aw/, oppure /ai̯/ e /au̯/) è denominata semivocale.
Tra tutte le combinazioni possibili di vocale e approssimante, quelle che non ricorrono sono:
(a) per gli ascendenti: */ji/, */wu/;
(b) per i discendenti: */ij/, */iw/, */ɔw/, */ow/, */uw/.
L’assenza di */ji/, */wu/, */ij/ e */uw/ può essere spiegata come un caso particolare di applicazione di un principio di organizzazione fonologica noto come OCP (Obligatory Contour Principle). Si tratta di un vincolo negativo che inibisce nei sistemi linguistici la creazione di adiacenze soggiacenti di fenomeni identici o fortemente affini (Leben 1973; Goldsmith 1976). Nel nostro caso, spiega come mai non appaiano dittonghi formati da due foni di timbro uguale.
L’assenza di */iw/, */ɔw/ e */ow/ può essere motivata tenendo presente che anche tutti gli altri casi di dittongo discendente di tipo /Vw/ sono in realtà estranei al sistema italiano: infatti, si tratta di dittonghi attestati esclusivamente in prestiti o cultismi: ad es., [ew]ropa, [aw]gusto, f[ɛw]do.
Esempi di dittonghi sono:
(12) vecchietto /vekˈːjetːo/, ieri /ˈjɛːri/, bianco /ˈbjaŋko/, piombo /ˈpjombo/, fiuto /ˈfjuːto/,
qui /ˈkwi/, questo /ˈkwesto/, guercio /ˈgwɛrʧo/, quattro /ˈkwatːro/, scuola /ˈskwɔːla/, affettuoso /afːetˈːwoːso/, nei (prep.) /ˈnej/, nei (pl. di neo) /ˈnɛj/, ai /ˈaj/, poi /ˈpɔj/, voi /ˈvoj/, cui /ˈkuj/
L’adiacenza di due vocali che non appartengano allo stesso nucleo sillabico (dette vocali eterosillabiche) determina invece il cosiddetto ➔ iato (teatro, poeta). Per gli italianisti, le condizioni di comparsa di iato si riassumerebbero in tre casi (Serianni 1988: 20):
(a) se nessuna delle vocali è i o u: maestro, leone, ecc.;
(b) se una delle due vocali è i tonica o u tonica e l’altra è a, e, o: Maria, paura, ecc.;
(c) nelle parole con prefisso terminante in i o u: riavere, suesposto, ecc.
Si osservi, tuttavia, che uno stile di parlato formale e lento (in contrapposizione a quello colloquiale e veloce) e soprattutto la presenza di una focalizzazione (➔ focalizzazioni) possono determinare la realizzazione bisillabica (cioè come iato) di un dittongo discendente con approssimante palatale, in posizione tonica: ad es., poi /ˈpɔ.i/ o /ˈpɔj/, ma anche voi /ˈvo.i/ o /ˈvoj/ (come accade ad es., a Napoli e in parte della Puglia settentrionale). Analogamente, anche nel caso di pronuncia non rapida di dittonghi ascendenti si può avere la realizzazione di uno iato: per es., viola /ˈvjɔ.la/ o /vi.ˈɔː.la/.
In italiano si trovano anche casi di trittonghi, nessi tautosillabici formati da una vocale e due approssimanti. Possono essere ascendenti-discendenti o ascendenti. Un esempio di trittongo ascendente-discendente è nella parola tuoi /ˈtwɔj/; un esempio di trittongo ascendente è sciacquiamo /ʃak.ˈːwjaː.mo/, che è reso come dittongo ascendente con approssimante palatale arrotondata [ʃak.ˈːɥaː.mo] nel parlato veloce.
Lo statuto fonologico delle approssimanti in italiano è ambiguo (➔ semivocali). Se considerate come (semi)consonanti, opzione giustificata sulla base della loro distribuzione, si possono opporre distintivamente ad altre consonanti (per es., g[w]ida ~ grida, a[w]to ~ alto) e, quindi, includere tra i fonemi. Ma è possibile anche considerarle come (semi)vocali, in ragione delle loro caratteristiche acustiche: però, la loro distribuzione è complementare a quella delle vocali, in quanto non possono ricorrere in posizione di nucleo sillabico (cioè in posizione accentabile), a differenza di quanto accade per le vocali. Inoltre, come si è appena visto, nel parlato connesso si può rilevare la resa approssimante di una vocale, con conseguente passaggio da iato a dittongo (per es., poi [ˈpɔː.i] → [ˈpɔj], biennale [bi.en.ˈːaː.le] → [bjen.ˈːaː.le]). Sulla base di queste osservazioni, [j] e [w] devono essere considerati varianti o allofoni asillabici di /i/ e /u/.
La nozione di ➔ sillaba è suscettibile di essere definita sul piano più strettamente fonetico, oppure tentando di elaborare una formulazione più astratta di carattere fonologico. Da un punto di vista fonologico – intesa, cioè, come stringa di elementi strutturata – la sillaba ha la struttura gerarchizzata.
Il nucleo si differenzia dai margini sillabici (attacco e coda) perché è l’unico dei componenti sillabici che non può essere vuoto; in particolare, esso può essere occupato da una vocale breve (tecnicamente, monomorico) oppure occupato da una vocale lunga o da un dittongo discendente (tecnicamente, bimorico). Si noti che in italiano, francese, spagnolo, portoghese e russo il nucleo è occupato esclusivamente da vocali; in altre lingue (ad es., inglese o anche certe lingue slave come lo sloveno) in questa collocazione si trovano anche segmenti consonantici di tipo sonorante, cioè laterali, vibranti e nasali. Ad es., nella parola pranzo si trovano due sillabe: [ˈpran] e [ʦo]; i rispettivi attacchi sono occupati da [pr] e [ʦ], i nuclei da [a] e [o], mentre, per quanto riguarda la coda, la seconda sillaba presenta una coda vuota e quella della prima è occupata da [n]. Del resto, in italiano si possono avere sillabe dotate di solo nucleo, vale a dire con attacco e coda vuoti: ad es., la prima sillaba della parola aria.
Secondo una tipologia intuitiva, le sillabe si classificano in riferimento alla loro posizione rispetto alla collocazione dell’accento lessicale e in riferimento alla presenza o meno di una coda consonantica. In tal senso si distinguono generalmente sillabe toniche da sillabe atone e sillabe chiuse (o implicate) da sillabe aperte (o libere). Ad es., in italiano la sillaba [ˈra] della parola /ˈraː.mo/ è tonica e aperta, mentre [mo] è aperta ma atona; mentre la sillaba [ˈpɔr] della parola /ˈpɔr.ta/ è tonica e chiusa.
La collocazione dei confini sillabici dal punto di vista fonologico è un’operazione che dipende dal tipo di teoria sillabica adottata e, in ogni caso, non coincide con la scansione sillabica grafica, che deriva da norme convenzionali fissate dalla pratica scolastica. Tecnicamente, le due operazioni si differenziano denominando sillabificazione la prima e sillabazione la seconda (Nespor 1993: 154). Per esemplificare, secondo alcuni, nella lingua italiana (cfr. alla fine di questo paragrafo) una parola come paste, sillabata graficamente pa-ste, sarebbe invece sillabificata /ˈpas.te/.
In generale, si distinguono due approcci al problema di stabilire i confini sillabici: quello detto fonotattico e quello basato sulla cosiddetta scala di sonorità.
Il primo approccio è basato sull’idea che i confini sillabici rappresentino un caso particolare di confini di parola e, quindi, che i secondi possano essere proiettati per generalizzazione sui primi, in base all’osservazione che, almeno nel caso delle parole monosillabiche, confini di parola e di sillaba coincidono. Sicché, i gruppi consonantici che possono posizionarsi in fine parola (cioè prima di pausa) saranno code sillabiche ottimali; quelli che si trovano all’inizio di parola (cioè dopo pausa) saranno attacchi sillabici.
Tale approccio può essere fatto risalire ai lavori di Kuryłowicz (1947). Applicato all’italiano, tuttavia, produce predizioni incoerenti e casi dubbi. Tipico è l’esempio delle consonanti distintivamente lunghe (le geminate: cfr. § 3.7) italiane. La loro natura eterosillabica è verificata da osservazioni fonetiche. Infatti, in una parola come fàtto (se pronunciata isolatamente o se portatrice di accento di frase) la [ˈa] tonica è più breve di quella di fàto. Ciò è spiegabile in base alla sua collocazione in sillaba implicata (cfr. § 4). Se ne deduce che la sillabificazione di fàtto è /ˈfat.ːo/. Tuttavia, dal punto di vista fonotattico, ciò risulta in contrasto con l’assenza di parole italiane terminanti in [t], o più in generale con l’impossibilità per tale consonante di comparire davanti a pausa. Altra predizione non corretta che può scaturire dall’applicazione dei principi fonotattici all’italiano riguarda la sillabificazione dei nessi /s/+CC. Questi, pur trovandosi regolarmente in posizione iniziale di parola (ad es., strano), non sono attacchi sillabici ben formati, come vedremo più avanti.
Il secondo approccio può esser fatto risalire ai lavori di F. de Saussure, ma è stato compiutamente formulato da Vennemann (1988): l’idea centrale è che in un attacco occupato da più foni la loro sequenza sarà ordinata secondo un crescendo di coefficiente di sonorità, mentre in una coda occupata da più foni, questi si disporranno secondo un ordine inverso, con coefficiente di sonorità decrescente. Al vertice della scala di sonorità si porrebbero le vocali (dalle basse alle alte), seguite gerarchicamente dalle sonoranti (laterali, vibranti, nasali) e dalle fricative (prima le sonore e poi le sorde) e dalle occlusive (prima le sonore e poi le sorde).
Su tale base si possono spiegare alcune importanti restrizioni di ricorrenza di foni in coda e in attacco sillabico. Per quanto riguarda la coda, in italiano è occupata di norma da una singola consonante, che può essere una sonorante (nasale, polivibrante, laterale, approssimante: ad es., con.to, cor.to, col.to, eu.ropa), una /s/ iniziale di nesso consonantico (per es., cos.to), una consonante lunga intrinsecamente (cfr. § 3.7: /ʎ/, /ɲ/, /ʃ/, /ʦ/ e /ʣ/: figlio /ˈfiʎ.ːo/, cagna /ˈkaɲ.ːa/, coscio /ˈkoʃ.ːo/, cozzo /ˈkot.ːso/, azzurro /ad.ːzurːo/) o per allungamento distintivo (ad es., cot.to).
Qualsiasi consonante può comparire in un attacco occupato da una singola consonante; ma se comprende un nesso di consonanti, allora la seconda potrà essere solo polivibrante, laterale (con l’esclusione di /ʎ/, che è intrinsecamente lunga) o approssimante, mentre la prima può essere anche la seconda parte di una consonante distintivamente o intrinsecamente lunga. Nel caso però si tratti di geminate intrinseche e di affricate palatali, queste non possono essere seguite da /r/ e /l/; inoltre, solo le affricate coronali possono essere seguite da approssimanti (ad es., da[tːsj]one, ca[tːsw]ola), mentre le altre non ricorrono mai in attacco davanti a /j/ e solo in arcaismi davanti a /w/: per es., figli(u)olo. Sono problematici, invece, gli attacchi con /s/ + uno degli attacchi permessi (singola consonante o consonante + polivibrante / laterale / approssimante), in quanto violano la scala di sonorità. Questi casi di infrazione al criterio appena illustrato richiedono un supplemento di riflessione.
Naturalmente, la scala di sonorità non è unica per tutte le lingue: in generale, si può osservare che, a seconda della lingua trattata, occorre introdurre alcune restrizioni supplementari. Per l’italiano la restrizione in questione riguarda il comportamento anomalo del fonema /s/, che perciò è stato considerato da alcuni extrasillabico (Nespor 1993: 176-179). Se si considerano parole come strano /ˈstraː.no/, scarpa /ˈskar.pa/, lapis /ˈlaː.pis/, si osserva che tale consonante è l’unica che in italiano possa precedere l’attacco biconsonantico all’inizio di parola, che può essere la prima di due consonanti di un attacco in cui la seconda non è una sonorante, e che, infine, può chiudere la sillaba pur non essendo una sonorante, indipendentemente dall’attacco della sillaba successiva. Inoltre, essa è l’unica che, se all’inizio di un nesso consonantico, non subisce raddoppiamento fonosintattico: vado a [kː]asa, ma vado a [s]tare e non * vado a [sː]tare. Il comportamento di questo fonema viola, quindi, la scala di sonorità prima illustrata, a meno che non lo si assegni alla coda della sillaba precedente.
Si torni, quindi, al caso prima accennato della sillabificazione della parola paste come /ˈpas.te/, cui si può aggiungere un altro esempio come aspro /ˈas.pro/. Secondo alcuni esisterebbero due argomenti fonologici per sostenere questo tipo di scansione sillabica, in contrasto con la tradizionale sillabazione. Innanzitutto, la scansione */ˈpa.ste/ violerebbe la scala di sonorità poiché l’attacco della sillaba [ste] non sarebbe legittimo; in secondo luogo, se pronunciata in isolamento o sotto accento di frase, la scansione */ˈpa.ste/, per motivi fonetici, dovrebbe essere realizzata */ˈpaː.ste/. Infatti, la sillaba [ˈpa] è tonica e non implicata (libera): in questo caso il nucleo tonico dovrebbe essere lungo (cfr. § 4). Poiché, invece, la misurazione fonetica della durata della /a/ mostra che essa è comparabile a quella della /e/ atona, evidentemente la sillaba tonica [ˈpa] deve essere implicata: [ˈpas]. Visto che gli argomenti non sono risolutivi, si può concludere che in questi casi la sillabificazione è indeterminata.
Il raddoppiamento fonosintattico (➔ raddoppiamento sintattico) consiste nell’allungamento di una consonante iniziale di parola (salvo /j/, /w/, le fricative coronali in nesso consonantico e i nessi consonantici non autoctoni) quando quest’ultima sia preceduta da una parola polisillabica con accento sull’ultima sillaba, da un monosillabo accentato, oppure da un bisillabo non accentato sull’ultima sillaba, ma derivato da una forma di latino tardo terminante in consonante. I tre casi sono esemplificati di seguito:
(a) polisillabi ossitoni o tronchi, come amò in amò [tː]anto;
(b) monosillabi con accento grafico, oppure monosillabi cosiddetti forti: a, da, su, tra, fra, ho, ha, do, fa, fu, va, sto, sta, che, chi, qui, qua, se, ma, e, o, tu, gru, blu, tre, te, me, e i nomi delle lettere dell’alfabeto: per es., a [kː]asa;
(c) bisillabi non ossitoni: come, dove, qualche, sopra: ad es., qualche [kː]osa.
A ben vedere, tutti e tre i casi riguardano molte parole derivate da forme latine terminanti in consonante:
(13) a < ad
amò < *amawt < *amawit < amavit
tre < tres
là < (il)lac
come < quomo(do) et
qualche (quale che) < quālis e quĭd
Per altre, pur derivate da basi latine uscenti in vocale (per es., dove, fra, tu, tra, sopra), si può ammettere che inneschino il raddoppiamento sintattico per analogia con le altre forme della stessa classe, oppure che siano state assimilate a composti con parole terminanti in consonanti (sopra < supra + ad).
Quindi, si può ipotizzare che la consonante finale latina – sebbene non sia più realizzata nel vocabolo italiano moderno – abbia lasciato traccia nel raddoppiamento della consonante iniziale della parola seguente, poiché quest’ultima l’ha assimilata a sé. In sostanza, il raddoppiamento sintattico può essere rappresentato come originato diacronicamente da un’assimilazione regressiva che si realizza all’interno di frase, alla frontiera tra due parole: la prima terminante per vocale e la seconda iniziante per consonante. Successivamente, il fenomeno si è esteso anche ai casi in cui la prima parola è accentata sull’ultima sillaba, pur senza essere derivata da base latina uscente in consonante (ad es., tu, so, caffè). L’effetto del raddoppiamento sintattico è percettivamente opaco nel caso di consonanti geminate intrinseche (cfr. § 3.7).
Il raddoppiamento sintattico non si realizza in ogni varietà regionale e, laddove compare, le condizioni di realizzazione possono essere diversificate a seconda dell’area linguistica: per es., da [tː]e a Firenze e da [t]e a Roma. In generale, si tratta di un fenomeno tipico del toscano e dell’italiano centromeridionale e non compare nelle parlate settentrionali.
Il fenomeno del ➔ ritmo linguistico è il risultato dell’alternanza di prominenze accentuali lungo la catena fonica, secondo una scansione temporale di intervalli ricorrenti che corrispondono a unità fonologiche di estensione diversa a seconda della lingua e che – per alcune varietà di italiano – tendono a coincidere con i confini sillabici. In tal senso, l’italiano è stato classificato tra le lingue dette isosillabiche (Bertinetto 1981). Tuttavia, altre varietà italiane usano l’intervallo tra due accenti lessicali consecutivi come unità ritmica ricorrente (ve ne sono testimonianze sia tra i dialetti meridionali che tra quelli di area settentrionale) e perciò vengono dette isoaccentuali, similmente a quanto accade, ad es., per l’inglese.
La distinzione isoaccentuale ~ isosillabico fu avanzata da Pike (1947). Anche se oggi non viene più considerata una valida rappresentazione della realtà linguistica, perché eccessivamente semplificatrice, tuttavia coglie una tendenza generale delle lingue a vincolare le catene foniche a certe cadenze ritmiche ottimali che si dispongono su un continuum teso tra due opposte polarità. Ad es., in una lingua come l’inglese le vocali atone tendono a ridursi fino a sparire, tanto che le consonanti sonoranti possono essere sillabiche (come in [lṭl] little). Ciò è particolarmente evidente nel parlato connesso, cioè nella pronuncia informale e rapida. La ragione è che in inglese la riduzione o cancellazione delle vocali atone è uno strumento atto a ottenere lo scopo di conservare costante la durata dell’intervallo compreso tra due vocali toniche successive. Invece, in una lingua come l’italiano standard questo meccanismo di espansione e condensazione della durata non è attivo o, meglio, non opera a livello intersillabico, ma a livello intrasillabico. Infatti, anche le vocali toniche possono essere lunghe o brevi a seconda della struttura della rima sillabica nella quale compaiono (in sillaba chiusa o implicata riducono la loro durata), in modo che in una sillaba fornita di una ricca dotazione consonantica (come è il caso della sillaba chiusa o implicata) all’allungamento consonantico corrisponda un accorciamento vocalico e viceversa (ad es., sano /ˈsaː.no/, sanno /ˈsan.ːo/). Inoltre, in italiano la riduzione di durata e di timbro delle vocali atone è assai meno frequente. Naturalmente, le cose cambiano se si osserva la realtà dialettale italiana, nella quale sono presenti varietà di tipo isoaccentuale, quindi più simili all’inglese per quel che concerne la struttura ritmica.
La curva intonativa è una rappresentazione grafica in cui viene indicata l’evoluzione temporale della frequenza di vibrazione delle corde vocali del parlante. Può essere ricavata dall’analisi spettrografica del segnale acustico, mediante estrazione della frequenza fondamentale o prima frequenza armonica (F0) (➔ curva melodica; ➔ fonetica acustica, nozioni e termini di; ➔ prosodia).
La vibrazione delle corde vocali che genera la F0, e quindi l’intonazione percepita, è il risultato del passaggio dell’aria emessa dai polmoni mediante un complesso meccanismo fisiologico che è collegato al respiro e, quindi, è soggetto a un andamento ciclico. Quindi, l’intonazione cresce all’inizio del gruppo di respiro e decresce lentamente fino al termine del ciclo. Ciò genera un abbassamento progressivo dei picchi intonativi associati alla frase, noto col nome di declinazione. Si tratta di un fenomeno involontario, che induce un abbassamento automatico dei toni nel corso dell’emissione, ma interagisce con le componenti fonologiche dell’intonazione. Sicché, ad es., un tono alto (A) pronunciato alla fine della frase sarà più basso dello stesso tono in posizione precedente. Nella letteratura scientifica il fenomeno è anche noto come downstep.
Inoltre, è documentato che il contorno intonativo associato alla sillaba finale di frase subisce un ulteriore abbassamento (final lowering), dovuto al rilassamento fisiologico del sistema articolatorio.
Sul piano fonologico, la curva intonativa si rappresenta come una sequenza di toni discreti, opposti in base al tratto alto (A) ~ basso (B), che è un tratto soprasegmentale. Sul piano sintagmatico, tali toni possono associarsi a punti di prominenza soprasegmentale di natura metrica e costituire accenti tonali (AT), oppure possono associarsi ai confini di unità soprasegmentali di ordine metrico, come il sintagma fonologico (PP) o il sintagma intonativo (IP) e generare toni di confine (boundary tones o BT). Questo tipo di rappresentazione consente di analizzare il contorno intonativo in modo da interfacciarlo con altre componenti grammaticali, come le modalità frasali assertiva ~ interrogativa, o la struttura della sintassi.
L’interrogativa chiusa (o totale o sì-no: ad es., sei uscito?: ➔ interrogative dirette) in italiano è caratterizzata con la sola intonazione (a differenza di quanto accade, ad es., in inglese e francese, che adottano anche risorse morfologiche e sintattiche, come l’uso di un verbo ausiliare o l’inversione tra soggetto e oggetto) e, nella varietà fiorentina, viene espressa mediante un andamento ascendente sulla sillaba finale di frase. L’interrogativa aperta (o parziale: per es., chi è uscito?) presenta un innalzamento di F0 sul pronome interrogativo e andamento finale leggermente ascendente. Mentre l’assertiva neutra (detta anche a focus ampio: Mario ama Maria) è caratterizzata da un picco di F0 sul costituente iniziale (ad es., il soggetto, in una frase di tipo Soggetto - Verbo - Oggetto), seguito da una graduale discesa che continua fino alla fine della frase.
Una specifica variazione di posizione dell’AT A (allineamento tonale) rende poi conto della presenza di un costituente focalizzato nella frase (detto anche focus ristretto). Il riallineamento dei picchi della curva di F0 è finalizzato a collocarli in concomitanza con la posizione del focus. In una frase come Mario ama Maria, si avranno le seguenti variazioni (il focus è sottolineato):
(14) a. Mario ama Maria
incremento del picco di F0 su Mario, e successiva graduale discesa tonale
b. Mario ama Maria?
incremento del picco di F0 su Mario, e successiva ascesa tonale finale
c. Mario ama Maria
picco di F0 su Maria (che si aggiunge al picco, più basso, su Mario) e una rapida discesa finale
d. Mario ama Maria?
picco di F0 su Maria (che si aggiunge al picco, più basso, su Mario), seguito da una rapida salita in fine di frase.
Bertinetto, Pier Marco (1981), Strutture prosodiche dell’italiano. Accento, quantità, sillaba, giuntura, fondamenti metrici, Firenze, Accademia della Crusca.
Bertinetto, Pier Marco & Loporcaro, Michele (2005), The sound pattern of standard Italian, as compared with the varieties spoken in Florence, Milan and Rome, «Journal of the International Phonetic Association» 35, 2, pp. 131-151.
Canepari, Luciano (1979), Introduzione alla fonetica, Torino, Einaudi.
Canepari, Luciano (1980), Italiano standard e pronunce regionali, Padova, CLEUP (3a ed. 1986).
Goldsmith, John A. (1976), Autosegmental phonology (PhD dissertation), Massachusetts Institute of Technology (poi Bloomington, Indiana University Linguistics Club, 1976).
Hall, Alan T. (1999), The phonological word: a review, in Studies on the phonological word, edited by T.A. Hall & U. Kleinhenz, Amsterdam - Philadelphia, Benjamins, pp. 1-22.
Kuryłowicz, Jerzy (1947), Contribution à la théorie de la syllabe, «Biuletyn Polskiego Towarzystwa Jezyko-Znawaczego» 8, pp. 80-113.
Ladefoged, Peter (20014), A course in phonetics, Fort Worth, Harcourt College (1a ed. 1975).
Lass, Roger (1984), Phonology. An introduction to basic concepts, Cambridge, Cambridge University Press.
Leben, William R. (1973), Suprasegmental phonology (PhD dissertation), Massachusetts Institute of Technology (distribuito da Indiana University Linguistics Club).
Nespor, Marina (1993), Fonologia, Bologna, il Mulino.
Pike, Kenneth L. (1947), Phonemics. A technique for reducing languages to writing, Ann Arbor, University of Michigan Press.
Poggi Salani, Teresa (1976), Note sull’italiano di Milano e in particolare sulla ‘e’ tonica, in Studi di fonetica e fonologia. Atti del Convegno internazionale di studi (Padova, 1-2 ottobre 1973), a cura di R. Simone, U. Vignuzzi & G. Ruggiero, Roma, Bulzoni, pp. 245-260.
Rohlfs, Gerhard (1966-1969), Grammatica storica della lingua italiana e dei suoi dialetti,Torino, Einaudi, 3 voll. (1a ed. Historische Grammatik der italienischen Sprache und ihrer Mundarten, Bern, A. Francke, 1949-1954, 3 voll.).
Serianni, Luca (1988), Grammatica italiana. Italiano comune e lingua letteraria. Suoni, forme, costrutti, con la collaborazione di A. Castelvecchi, Torino, UTET.
Vagges, Kyriaki et al. (1978), Some acoustic characteristics of Italian consonants, «Journal of Italian linguistics» 3, 1, pp. 69-85.
Vennemann, Theo (1988), Preference laws for syllable structure and the explanation of sound change, with special reference to German, Germanic, Italian and Latin, Berlin, Gruyter.
Vincent, Nigel (1987), Italian, in The world’s major languages, edited by B. Comrie, London, Croom Helm, pp. 279-302.