lessico
Il lessico è l’insieme dei lessemi (o, con termine non tecnico, delle parole) di una lingua. Come altre lingue nazionali, che vengono usate da secoli per molte delle principali funzioni comunicative, anche l’italiano ha un lessico complesso e stratificato sia dal punto di vista storico sia dal punto di vista funzionale: dal punto di vista storico, perché molte lingue e dialetti hanno contribuito a formarlo e arricchirlo; da quello funzionale, perché la gamma dei suoi usi si è ampliata nei secoli e va oggi dal parlato quotidiano alla letteratura, dalla scienza alla scuola, dalla religione all’amministrazione e alla giustizia.
L’inventario delle categorie lessicali dell’italiano – o, se si preferisce una denominazione più usuale, delle ➔ parti del discorso – comprende tradizionalmente nove classi: nome, verbo, aggettivo, pronome, articolo, avverbio, congiunzione, preposizione e interiezione. Questa suddivisione, che risale alla grammatica classica, si fonda – non sempre in modo del tutto esplicito – sul sovrapporsi di criteri di diversa natura: sintattica, morfologica, semantica o distribuzionale. Ad es., il verbo è distinto dal nome sintatticamente, perché serve da predicato anziché da argomento; morfologicamente, perché il verbo è flesso per tempo, modo e persona e il nome no; semanticamente, perché il verbo significa di solito uno stato o un’azione mentre il nome significa tipicamente un’entità; distribuzionalmente, perché il nome può essere preceduto da un articolo mentre il verbo no.
Già la grammatica tradizionale e poi, in maniera più consapevole, la linguistica moderna hanno ridiscusso la fondatezza teorica e l’efficacia descrittiva di queste classificazioni, cercando di elaborarne di nuove e più adeguate. In particolare, si è osservato che, in italiano come in molte altre lingue, tra le principali categorie del lessico vi sono aree di sovrapposizione rispetto a proprietà importanti: ad es., benché il nome non fletta per tempo come il verbo, esistono tecniche per modificare un nome facendogli esprimere la temporalità relativa all’interpretazione del suo referente (ex presidente, l’allora marito, futuro sposo; cfr. Simone 2008). Si è perciò ritenuto opportuno istituire nuove classi (ad es., quella dei determinanti, che riunisce grosso modo articoli, aggettivi e pronomi dimostrativi) e precisare la composizione di altre. Tuttavia, la categorizzazione classica resta un utile punto di partenza, almeno come norma di riferimento rispetto alla quale evidenziare gli inevitabili scarti.
La tradizione della linguistica italiana ha spesso sottolineato i fattori di continuità del lessico italiano rispetto a quello latino. Tra questi, citeremo i più evidenti.
In primo luogo, la peculiare storia linguistica italiana ha fatto sì che la nostra sia stata, fra tutte le lingue romanze, quella caratterizzata da un contatto più intenso e prolungato col latino colto. Benché a rigore i prestiti dal latino, antenato linguistico dell’italiano, non possano essere considerati un elemento strutturale di continuità diacronica, pur tuttavia essi hanno introdotto nel lessico una componente numerosa e culturalmente prestigiosa di elementi pressoché identici alle rispettive matrici latine.
Un secondo fattore di continuità rispetto al latino riguarda l’inventario delle categorie lessicali, rimasto quasi del tutto immutato. Su uno sfondo così conservativo spicca come unica innovazione la nascita dell’➔articolo, assente in latino: un’innovazione che l’italiano condivide con le altre lingue romanze e che quindi andrà collocata in un’epoca molto vicina a quella del latino imperiale.
In questo quadro di sostanziale stabilità, seppure non privo di importanti riassetti strutturali, vanno rilevate almeno altre due novità. La prima è la possibilità, molto sfruttata in italiano, di ‘linearizzare’ l’espressione dei significati attraverso la costruzione di lessemi complessi (detti anche espressioni polirematiche o semplicemente polirematiche; ➔ polirematiche, parole) con un significato non composizionale, cioè non prevedibile in base alla mera interpretazione dei significati dei componenti, e che si comportano per vari aspetti come parole singole e non come sintagmi: ferro da stiro, saltare su «contraddire protestando», vederci «avere buona vista, poter vedere», vedere rosso «essere infuriato», ecc. In generale, la presenza di lessemi complessi costituisce una novità più rispetto alla tradizione grammaticale che alla sostanza linguistica (➔ lingue romanze e italiano). Locuzioni almeno in parte analoghe esistevano infatti anche in latino (dare manus «arrendersi», operam dare «prestare attenzione») ed esistono in italiano fin dalle origini (cfr., per es., Masini 2006 sulla presenza di verbi sintagmatici in italiano antico), ma la tradizione grammaticale e di conseguenza la prassi lessicografica non hanno riconosciuto loro la dignità di elementi autonomi fino a tempi molto recenti.
Vi sono invece sottoclassi di lessemi complessi che presentano un grado di specificità più alto sia rispetto al latino sia rispetto alle altre lingue romanze. Ciò vale in particolare per i verbi sintagmatici (➔ sintagmatici, verbi) composti da un verbo (per lo più di movimento; ➔ movimento, verbi di) + un avverbio di luogo (andare via, buttare giù, entrare dentro, ecc.). Si tratta di un tipo lessicale per il quale l’italiano e i suoi dialetti si confrontano più con le lingue germaniche (ad es., coi phrasal verbs quasi del tutto dell’inglese) che con le altre lingue romanze, le quali ne sono prive (cfr. Cini 2008). La produttività di questi verbi è mostrata dai lessemi nei quali la specificazione avverbiale è apparentemente ridondante dal punto di vista semantico, come in entrare dentro, uscire fuori, scendere giù, nonché dai casi di polisemia (buttare giù «inghiottire rapidamente», «avvilire, deprimere», «indebolire», «scrivere rapidamente qualcosa») che permettono di escludere che la funzione dell’avverbio sia quella di precisare e disambiguare un’accezione già presente nella semantica del verbo.
La seconda novità ha una storia più recente: si tratta della proliferazione di elementi legati, detti confissi o semiparole (➔ morfologia), dovuta alla grande produttività che dal Settecento in poi ha avuto in italiano la composizione cosiddetta neoclassica (➔ elementi formativi), cioè la formazione di lessemi come epatologo o leucocita, composti da due o più elementi che però non possono costituire da soli un lessema autonomo (-cita, epato-, leuco- e -logo sono dunque assimilabili ai lessemi comuni solo sul piano semantico, ma non su quello morfologico e sintattico).
Sebbene sia discutibile parlare di innovazioni tipologiche a proposito dei due processi appena menzionati, essi hanno modificato in maniera sostanziale le virtualità formative del lessico italiano. Sotto osservazione da parte dei linguisti è anche il ruolo eventualmente giocato dall’influenza di altre lingue nell’introdurre e nel promuovere le innovazioni in questione: mentre nel caso dei verbi sintagmatici questo ruolo è tuttora in discussione, nel caso della composizione neoclassica sono fuor di dubbio sia la remota origine classica, e in particolare greca, degli elementi formativi, sia la loro diffusione tramite il francese sette-ottocentesco (➔ Settecento, lingua del).
Altri tipi di discontinuità tra lessico latino e lessico italiano hanno portata obiettivamente minore: del tutto normali e attese sono le discrasie tra antecedenti latini e discendenti italiani all’interno delle varie categorie lessicali, come i pronomi relativi il quale e che, derivanti rispettivamente da un aggettivo interrogativo (qualis) e da un pronome interrogativo e indefinito (quid); oppure i cambi di categoria dovuti a ➔ grammaticalizzazione di lessemi latini o già italiani, come la preposizione durante (< participio presente) o l’avverbio di negazione mica (< nome).
Rinviando alle voci relative alle varie parti del discorso per gli opportuni approfondimenti, si può però intanto ribadire che nel complesso il lessico italiano si mantiene in notevole continuità rispetto al modello latino.
Premessa necessaria a ogni considerazione di tipo quantitativo è che il lessico è un insieme aperto di elementi. Ciò vale sia perché la composizione del lessico varia anche nel corso di minimi intervalli temporali, sia perché accanto agli elementi attestati esso contiene una serie virtualmente illimitata di elementi non attestati, ma producibili attraverso regole condivise e comprensibili anche a chi non li abbia mai sentiti o letti prima. Quando, ad es., una canzone degli anni Sessanta chiamò il cammello bigobbuto nessuno ebbe problemi a comprendere quel neologismo, né ha problemi chi lo senta oggi per la prima volta.
Ciò detto, un censimento dei lessemi dell’italiano resta un’operazione possibile e potenzialmente feconda di informazioni. Per realizzarlo su grande scala si può contare oggi su repertori ampi e consultabili anche via computer. Qui ci baseremo sul GRADIT, che ne registra più di 260.000. Le percentuali dei lessemi, suddivisi per categoria (nomi, verbi, avverbi, ecc.), sono indicate nella tab. 1 (Fonte: Lorenzetti 2002, p. 37)
Quanto ai lessemi, nomi, verbi e aggettivi formano insieme circa il 95% dell’intero lessico. Gli avverbi ne costituiscono il 2-2,5%, più o meno quanto la somma di tutte le altre categorie. Quanto alle forme flesse che realizzano nomi, verbi e aggettivi, pronomi e articoli grazie all’intervento della morfologia (➔ flessione), esse non sono tutte necessariamente presenti in maniera stabile nel lessico mentale dei parlanti. Un conteggio preciso delle forme è dunque più difficile di quello dei lessemi. Per avere un’idea si può considerare che la maggior parte dei nomi ha soltanto due forme, una per il singolare e una per il plurale, ma molti aggettivi ne hanno quattro (maschile, femminile, singolare, plurale: buono buona buoni buone), l’articolo ne ha sei (il lo la i gli le), il verbo qualche decina. A un lessema come essere corrispondono più di cinquanta forme semplici (sono, sei, è, fummo, fossero, siano, sareste ...) e più di novanta tra semplici e composte (sono stato, sareste stati ...). Su questa base può essere ragionevole stimare, in modo molto approssimativo, un rapporto complessivo di 1:10 tra lessemi e forme e quindi un vocabolario dell’ordine di grandezza di circa due milioni e mezzo di forme.
Un’altra indicazione essenziale riguarda i numerosi lessemi polisemici: la maggior parte dei lessemi ha significati complessi, fatti di due o più accezioni. Indicativamente, nel complesso dei 260.000 lessemi italiani se ne trovano oltre 50.000 con più di un’accezione, oltre 27.000 con più di due accezioni, oltre 9000 con più di cinque, 100 con più di venti, una decina con più di trenta.
Le cifre appena menzionate si riferiscono all’unione di tutte le competenze lessicali dei singoli italofoni. Si tratta di un inventario di elementi la cui conoscenza complessiva nessun singolo parlante può avvicinare. Inoltre, quelle cifre sono raggiunte mettendo insieme anche settori del lessico italiano che di fatto, anche se non in linea teorica, si escludono a vicenda, come i tecnicismi o i regionalismi (vedi oltre).
Non tutti i lessemi, pertanto, hanno la stessa probabilità di essere usati in un enunciato italiano, sicché al censimento puro e semplice è opportuno affiancare l’analisi delle frequenze con le quali i diversi lessemi vengono effettivamente usati negli enunciati e nei testi. Tale analisi è possibile grazie a strumenti come il Lessico di frequenza della lingua italiana contemporanea (LIF), riferito agli usi scritti, o il Lessico di frequenza dell’italiano parlato (LIP), basato invece sulla lingua parlata. Secondo un’immagine proposta da De Mauro (1980) e spesso ripresa in seguito, il lessico dell’italiano può essere rappresentato come una specie di bersaglio, sezionato a fasce concentriche: andando dal centro verso l’esterno si va dal massimo al minimo di condivisione. I lessemi più frequenti, che sono anche quelli che è più probabile trovare adoperati dalla maggior parte degli italofoni nella maggior parte dei loro usi linguistici, sono al centro del bersaglio. Alla periferia troviamo invece quelli meno frequenti, perché adoperati solo da alcuni parlanti e solo in alcune situazioni comunicative.
Il centro del bersaglio è occupato dal cosiddetto vocabolario di base, composto dai lessemi che tutti usano in larga misura per costruire qualsiasi tipo di testo. Sono poco meno di 7000 lessemi, suddivisi a loro volta in tre fasce: lessico fondamentale, di alto uso (o alta frequenza) e di alta disponibilità.
Al lessico fondamentale, composto di poco più di 2000 unità, appartengono quei lessemi che costituiscono circa il 90% di qualunque testo italiano. Si tratta per lo più di lessemi grammaticali, che servono cioè non a significare concetti ma piuttosto a costruire la struttura delle frasi: preposizioni, articoli, congiunzioni, avverbi, verbi ausiliari, modali e verbi supporto (essere, avere, fare, venire, potere, dovere). Rientrano inoltre in questo nucleo verbi, nomi e aggettivi di alta frequenza d’uso, da abitare, anno e azzurro a volere, zia e zitto.
Il lessico di alto uso è costituito da quei 2500-3000 lessemi di frequenza immediatamente inferiore: voci come abbassare, alimento o africano, o come veneziano, zampa e zappare.
I 2300 lessemi di alta disponibilità (da abbraccio, accavallare, accogliente a zampogna, zoppicare e zoppo) corrispondono a «parole che può accaderci di non dire né tanto meno di scrivere mai o quasi mai, ma legate a oggetti, fatti, esperienze ben noti a tutte le persone adulte nella vita quotidiana» (De Mauro 1980: 148). Forchetta, ad es., è un lessema di alta disponibilità: pensiamo alla forchetta quando l’abbiamo davanti, a tavola o in cucina, e cioè proprio in quelle occasioni nelle quali capita più spesso di indicarla a gesti che di chiamarla col suo nome. In un certo senso, i lessemi di alta disponibilità sono pensati molto più spesso di quanto non siano detti o scritti, e ciò rende problematico riscontrarli analizzando un corpus di testi in maniera puramente automatica.
Tra le diverse componenti del vocabolario di base c’è una differenza significativa. I lessemi fondamentali e di alto uso sono voci di lunga durata, per lo più latinismi patrimoniali (vedi sopra) o neoformazioni antiche, e dunque presenti in italiano da secoli o, più spesso, fin dalle origini. Il lessico di alta disponibilità è invece più esposto alle evoluzioni che avvengono nella società e più in particolare nella cultura materiale. Atomica, asciugacapelli, abbagliante, aspirapolvere, astronave, autoscuola, cachet, citofono, computer, democristiano, elicottero, frigorifero, nylon, parabrezza, parcheggiare, prenotare, propagandare, registratore, semaforo, shampoo, telecronaca, tergicristallo, tifo, tostapane nominano oggetti o concetti nati in epoca moderna e sono essi stessi lessemi di formazione recente (sebbene tra età dei nomi ed età degli oggetti nominati non vi sia alcun legame necessario, come mostrano le innumerevoli realtà nate di recente che hanno ricevuto nomi di formazione antica, dalla spina elettrica alla chiavetta USB al foglio elettronico del computer).
Oltre il vocabolario di base troviamo il vocabolario comune, meglio definibile in negativo che in positivo: 40.000 lessemi usati per produrre testi che non fanno riferimento a particolari settori tecnici né sono caratteristici di una particolare regione o area geografica. Qualche esempio: arpione, arrabattarsi, aromatico, vecchiaia, zittire e zelante.
Vocabolario di base e vocabolario comune formano insieme il vocabolario corrente, cioè – di nuovo con una definizione in negativo – il complesso dei lessemi privi di sfumature regionali, stilistiche o settoriali e quindi abbastanza condivisibili da tutti gli italiani. Accanto a questo nucleo comune restano quindi da considerare tutti quei sottoinsiemi lessicali che sono invece non comuni ma appunto caratterizzati regionalmente, stilisticamente o settorialmente.
Si definiscono così i lessemi – circa 5000 nel lessico complessivo – che per la loro origine, per il loro ambito d’uso o per ciò che designano sono percepiti come legati a una varietà regionale di italiano (➔ italiano regionale). Tali lessemi sono:
(a) usati soprattutto – se pure non esclusivamente – nella regione linguistica di appartenenza, per designare realtà e concetti non specifici: laziale abbacchio «agnello macellato», lomb. carrobbio «incrocio», piem. piola «mescita popolare di vini e liquori»;
(b) usati per rinviare a realtà o concetti che vengono percepiti in tutta Italia come legati alla regione di appartenenza: sardo nuraghe, ven. campiello «piazzetta veneziana», roman. borgataro.
Non è infrequente che un lessema regionale perda col tempo ogni sfumatura locale e diventi del tutto comune. Solo ricorrendo a un criterio etimologico siamo autorizzati oggi a classificare fasullo come romano e cafone o cozza come meridionali. È anche opportuno distinguere i regionalismi che hanno corrispondenti abbastanza precisi in italiano comune (il suddetto lomb. carrobbio, il sicil. carnezzeria «macelleria») da quei lessemi che, sia pure in un ambito regionale, sono di fatto l’unico modo che l’italiano abbia per designare una certa realtà: ad es., per dire «la femmina del camoscio» si deve usare il settentrionalismo camozza, che pur tuttavia è familiare soltanto ai parlanti valdostani, piemontesi o trentini, o rassegnarsi a perifrasi come camoscio femmina, femmina del camoscio e simili.
Vista l’importanza della ➔ lingua letteraria nella formazione dell’italiano comune, non stupisce il notevole numero (circa 5000 unità) dei lessemi che sono oggi di uso limitato ai testi letterari. Si tratta di voci che per la specificità del riferimento (acheronteo, ciprigno, mavorzio) oppure per la disponibilità di sinonimi correnti (ignivomo, cimbalo) sono di fatto inutilizzate nel discorso comune e comprese soltanto da chi ha familiarità con l’italiano della letteratura. Ciò restringe molto anche la possibilità che questi lessemi siano usati nel parlato anziché nello scritto.
Come il lessico di alta disponibilità esaminato più su riflette rapidamente il progresso materiale, così le terminologie settoriali (➔ linguaggi settoriali) riflettono il progresso tecnico e scientifico e quindi si modificano più facilmente di altri sottoinsiemi lessicali. Per questo motivo, stimarne la numerosità non è semplice: si può affermare con buona approssimazione che il loro ordine di grandezza sia quello delle 100.000 unità.
Rientrano in questa amplissima categoria le parole delle scienze, che di solito sono note soltanto agli specialisti dei singoli settori e solo da loro usate, come lessema, appartenente al lessico settoriale della linguistica, o come altre decine di migliaia di parole usate all’interno di centinaia di altre discipline scientifiche, da amamelidacea (botanica) e anfìbraco (metrica) a zigosi (biologia) e zimasi (biochimica).
Dal punto di vista della formazione i lessemi tecnico-scientifici sono riconducibili essenzialmente a due tipi di processo. Il primo è quello dei neologismi semantici, adoperati soprattutto a partire dall’esempio della fisica: si ridefinisce il significato di lessemi comuni, come braccio, forza, grave o momento, aggiungendovi un’accezione scientifica e trasformandoli così in termini univoci. Questo processo non incrementa quindi l’inventario dei lessemi, pur aumentando la complessità semantica del lessico.
L’altro tipo è la già menzionata composizione neoclassica, nata in seno alle scienze sperimentali a forte vocazione classificatoria, come la botanica o la chimica (➔ scienza, lingua della). Si tratta di un processo di formazione di lessemi tra i più produttivi dell’italiano moderno. La maggior parte dei circa 34.000 composti formatisi in italiano tra Otto e Novecento è appunto costituita da composti neoclassici. Poiché questi lessemi sono in massima parte termini tecnici o scientifici, le loro percentuali ovviamente scendono con l’avvicinarsi al lessico di maggior frequenza. Tuttavia, per un normale processo di diffusione, alcuni composti neoclassici come citofono, pediatra o semaforo sono diventati ormai voci quotidiane.
Una sottoclasse dei lessici settoriali è costituita dalle parole dei gerghi (➔ gergo). I gerghi sono varietà linguistiche parassite, nel senso che prendono a prestito la grammatica e la sintassi dalle lingue che li ‘ospitano’: in base a questa caratteristica grammaticale si distinguono gerghi a base dialettale e gerghi a base italiana. Dal punto di vista del lessico i gerghi creano i propri lessemi (quelli di origine o di ambito gergale in italiano sono qualche centinaio) modificando nella forma o nel significato le voci correnti.
Nei gerghi a base italiana le modificazioni della forma sono rare: fascio «fascista» nel gergo dei gruppi della sinistra extraparlamentare. Le modificazioni del significato sono più frequenti: erba «marijuana» o spada «siringa» nel gergo dei drogati, nonno «soldato prossimo al congedo» o spina «recluta» nel gergo militare. Per i gergalismi è particolarmente frequente quel meccanismo di osmosi sociolinguistica per cui voci che in una certa fase erano proprie di gruppi circoscritti possono diffondersi, perdere di specificità ed entrare di fatto nel lessico comune, conservando semmai dell’origine gergale solo un vago sapore: è il caso di pizzo «somma estorta da organizzazioni mafiose» o soffiata «spiata, denuncia anonima».
Varietà di italiano talvolta accostate al gergo sono le cosiddette varietà giovanili (➔ giovanile, linguaggio). L’assimilazione ai gerghi si giustifica sul piano strutturale, perché si tratta di varietà caratterizzate esclusivamente da lessico e usi pragmatici, mentre grammatica e sintassi restano quelle delle varietà che le ospitano: per lo più italiani regionali, più di rado dialetti. Spesso censurati o al più adoperati come elenchi di monstra da cui piluccare curiosità giornalistiche a scopi edificanti, i lessici giovanili sono un utile osservatorio di tendenze che nelle varietà normali hanno bisogno di tempi molto più lunghi per evidenziarsi. Il tempo di vita dei lessici giovanili è infatti molto breve, restando per definizione al di sotto di quello di una generazione: gli utenti dei lessici giovanili si rinnovano ogni 10, 15 anni, sicché molto rapido è il ricambio lessicale sia nell’inventario (lessemi giovanili che decadono: gettonare, matusa, paninaro) sia, con molto maggiore frequenza, nei mutamenti di significato. Qualche esempio di area centrale: alzare, voce gergale antica, agli inizi dell’Ottocento valeva «rimediare rubando», nel lessico giovanile degli anni Sessanta/Ottanta del Novecento valeva «guadagnare», all’inizio del terzo millennio vale «prestare»; la locuzione avverbiale a palla passa dall’accezione «a tutta velocità» a quella di «al massimo» e poi a «certamente»; scrauso, aggettivo derogatorio già cinquecentesco, nello scorcio del millennio passa dal riferimento obbligato a persone a quello preferenziale a referenti inanimati (Lorenzetti 2001).
Come già accennato, la ricchezza e la complessità del lessico italiano rispecchiano una storia di molti secoli. La stratificazione storica del lessico va esaminata in primo luogo dal punto di vista linguistico, individuandone le fonti di provenienza, e in secondo luogo dal punto di vista cronologico, collocando nel tempo l’apporto di quelle fonti.
Dal punto di vista linguistico, il lessico dell’italiano può essere diviso in quattro grandi sezioni:
(a) le parole ereditate dal latino per tradizione diretta (lessemi ereditari o patrimoniali);
(b) le parole prese dal latino per tradizione indiretta (➔ latinismi o ➔ cultismi);
(c) le parole prese da altre lingue, cioè i ➔ prestiti (o forestierismi); a questa categoria appartengono anche i ➔ dialettismi e i gergalismi;
(d) le parole formate in italiano, le cosiddette neoformazioni o formazioni endogene.
Esamineremo queste componenti, precisandone di volta in volta tipo, cronologia e storia.
I lessemi ereditari sono quelli che possono essere fatti risalire direttamente e ininterrottamente al latino parlato. Sono parole che hanno modificato forma e significato senza che per i parlanti ci fosse mai dubbio sulla loro continuità. Una parola come homo, che sicuramente risuonava nell’Italia centrale già agli inizi del primo millennio a.C., è diventata uomo in fiorentino – e poi in italiano – senza che nessuno, di generazione in generazione, si accorgesse di star usando una parola diversa da quella che aveva sentito dai propri genitori.
Quando ci riferiamo a questa parte del lessico, quindi, dovremmo forse dire non che l’italiano deriva dal latino ma piuttosto che l’italiano è il latino, trasformatosi nel corso del tempo (naturalmente, quando parliamo di lessemi latini ricomprendiamo in questa categoria anche gli elementi che il latino a sua volta aveva preso da altre lingue: it. anfora < lat. amphora(m) < gr. amphoreús).
A questo strato appartengono forme come avete, belli, di, dente, e, non, oggi, siedi, sono, tre, tu. Tali forme costituiscono meno del 15% del lessico, ma più della metà del vocabolario di base. Si tratta dei lessemi più frequenti e caratterizzanti della nostra lingua, verbi, nomi e aggettivi di alta frequenza, ma soprattutto parole grammaticali (articoli, preposizioni, congiunzioni, pronomi) che appartengono al vocabolario fondamentale.
Dal punto di vista cronologico i latinismi patrimoniali, di tradizione ininterrotta, costituiscono una categoria a sé. Per questi lessemi infatti non ha senso domandarsi quando siano ‘entrati’ in italiano: si tratta di parole che esistevano prima che nascesse l’italiano, ed è anzi proprio confrontando queste parole con le rispettive basi latine e con le corrispondenti ‘parenti’ neolatine che i linguisti possono misurare le differenze e cercare di stabilire a quale altezza si possa cominciare a parlare di lingua italiana (➔ latino e italiano).
Accanto ai latinismi patrimoniali esistono diverse migliaia di latinismi indiretti (detti anche, senz’altro, ➔ latinismi, ovvero ➔ cultismi): applicare, biblioteca, cibo, concetto, cultura, equestre, grammatica, inclinare, influenza, manuale, materno, mensile, pensione, secolo, termine, tradizione, uditivo e tante altre parole relative agli ambiti più diversi. Questi elementi hanno fatto il loro primo ingresso nel volgare medievale quando, da un lato, questo aveva già acquisito la propria fisionomia fonologica e grammaticale, e, dall’altro lato, il latino aveva cessato già da tempo di essere la principale lingua parlata e soprattutto non era più la lingua materna di nessuno. Tuttavia, il latino è rimasto in pratica l’unica lingua dello scrivere per molti secoli, ed è da questo latino scritto, unico veicolo di cultura sovralocale, che i parlanti più istruiti e dotati di un certo grado di bilinguismo (➔ bilinguismo e diglossia) hanno trasportato elementi nel proprio volgare, compreso ovviamente il volgare fiorentino. Perciò, pur subendo i normali adattamenti propri del parlato, i latinismi non sono stati esposti per intero alle evoluzioni che hanno interessato le parole di trafila diretta, ma solo parzialmente, e solo ad alcune di quelle evoluzioni.
Dal punto di vista strutturale, i latinismi sono ➔ prestiti, cioè lessemi passati da una lingua straniera (qui, il latino) in fiorentino prima e poi in italiano. Come tutti i prestiti, anche i latinismi si distinguono spesso grazie alla forma della loro espressione, rimasta più vicina al modello latino di quanto non accada invece per i lessemi patrimoniali. Ad es., nelle parole di tradizione ininterrotta i gruppi formati da consonante + l sono diventati gruppi di consonante + /j/: clavis > chiave, flumen > fiume, glaceum > ghiaccio, plus > più. In quelle di tradizione colta quei gruppi restano intatti: clavicola, fluviale, glaciazione, plurale. Il dittongo latino au diventa /o/ nell’italiano patrimoniale (causa, aurum > cosa, oro), ma si conserva nei latinismi (causa, aureo).
I latinismi seguono perciò le regole fonologiche del latino, e importandole in italiano ne modificano anche, seppur parzialmente, la fonologia, rendendo accettabili suoni e combinazioni di suoni che nell’evoluzione normale si erano invece trasformati. Al tempo stesso, grazie ai latinismi l’italiano si dota della possibilità di formare famiglie semantiche molto più complesse di quanto non sarebbe consentito dai soli lessemi di tradizione diretta. Ad es., per significare concetti che hanno a che fare con l’occhio (lessema di origine latina, patrimoniale) l’italiano ha latinismi colti, come oculare e oculista, grecismi colti, come oftalmico e ottico, e neoformazioni come occhiale, occhiata, occhiolino.
Va detto che a questa indubbia ricchezza espressiva corrisponde anche una difficoltà dal punto di vista del bambino che acquisisce la lingua e dell’adulto che la apprende. Se prendiamo un nome qualsiasi, non è infatti possibile prevedere con assoluta sicurezza quale sarà l’aggettivo che significa «relativo a nome»: a orecchio corrisponde auricolare, non *orecchiale od orecchino (che significa altro); «della pecora» si dice ovino, non pecorino, pecorale o pecoreccio (che significano tutt’altro); la carne di maiale è suina, non maialica, maialina o maialesca. Come può essere ben visto, lessico ereditario e colto da una parte e neoformazioni dall’altra (o, se si preferisce, lessico da una parte e morfologia derivativa dall’altra) interagiscono in maniera molto stretta.
Restando sul piano del significato, va anche ricordata la frequenza dei cosiddetti latinismi semantici, cioè quei lessemi italiani dotati, accanto alle accezioni comuni, di accezioni vicine a quelle della matrice latina: si pensi a imbecille «debole» o gentile «di origine nobile» (una persona potrebbe essere così al tempo stesso gentile e scortese).
I latinismi, s’è detto, sono prestiti, e come tali potrebbero essere rubricati anche insieme agli ➔ anglicismi, ai ➔ francesismi e via dicendo. La scelta tradizionale di farne una categoria a sé si giustifica quindi non tanto strutturalmente quanto storicamente: a differenza di altre correnti di prestiti, quella proveniente dal latino colto ha caratterizzato praticamente tutta la storia dell’italiano, con un apporto complessivo non paragonabile a quello delle altre lingue che hanno contribuito a formare il lessico italiano. L’afflusso dei latinismi non è infatti limitato ai primi secoli della lingua italiana, ma continua in percentuali rilevanti anche in epoca moderna. Si tratta soprattutto di lessemi appartenenti alle terminologie scientifiche e in particolare naturalistiche, da cactacea a cetaceo, da coclea a pilifero e tricipite.
Chiamiamo, non del tutto perspicuamente, prestito ciascuno di quegli elementi linguistici, soprattutto vocaboli, che una lingua assume da un’altra tramite contatti di ogni tipo e tramite. I prestiti possono designare le realtà più varie: prodotti naturali come il tè, le banane e il cacao, prodotti culturali come il jazz, il tango o l’informatica.
Nella tab. 2 (adattata da GRADIT, vol. 6°, p. 1170; dati calcolati sul lessico complessivo) riportiamo le quantità dei prestiti in italiano da altre lingue, calcolati su un lemmario di più di 230.000 voci e ordinati per numerosità. La lingua straniera più rappresentata non è l’inglese o un’altra lingua moderna, bensì il greco. Questa apparente stranezza si spiega con la grande quantità di termini, soprattutto scientifici, di remota origine greca e passati per il latino prima di raggiungere l’italiano: parole come coscienza, filosofia, problema, tema o tesi. Segue l’inglese, che supera il francese per circa un migliaio di voci; ma questo risultato è dovuto alla grande incidenza dei prestiti dall’inglese nel settore della terminologia tecnica, perché, se invece ci si limita ai circa 45.000 lemmi del vocabolario comune, la situazione si inverte e le percentuali diventano del 5% circa per il francese e meno del 3% per l’inglese. Se poi ci si restringe ulteriormente alle 7000 voci del vocabolario di base, allora gli anglicismi diventano appena una cinquantina (lo 0,7%), contro i più di quattrocento francesismi (5,7%). Spagnolo, tedesco e altre lingue hanno fornito prestiti in quantità molto minori.
Una distinzione di grande rilievo storico è quella tra prestiti non adattati (hard-disk, jihad, Weltanschauung; ➔ adattamento), che mantengono un’evidente estraneità, anche grafica, rispetto alla forma consueta delle parole italiane, e prestiti adattati (bistecca < ingl. beef-steak, catrame < arabo qatrān, guerra < longob. *werra), i quali invece per il parlante comune, che non ha accesso all’etimologia, sono indistinguibili dalle altre parole di tradizione patrimoniale e sono quindi lessemi italiani a tutti gli effetti, anche nella percezione dei parlanti.
Rispetto a questa distinzione, la tabella mostra che il grado di assimilazione differisce molto da una lingua all’altra. Inglese e giapponese sono più presenti con prestiti non assimilati, le altre lingue invece con prestiti assimilati. La differenza però non è tanto linguistica, quanto storica: essa dipende dall’epoca nella quale le varie lingue hanno esercitato il proprio influsso sull’italiano. I prestiti antichi sono sempre assimilati, mentre in tempi più recenti vari fattori, tra cui il crescere del generale livello d’istruzione e il conseguente aumento della familiarità con testi – soprattutto scritti – di altre lingue, hanno fatto sì che si preferisca mantenere la forma di partenza piuttosto che assimilarla, come avveniva normalmente in passato.
Fasi e fonti. Il criterio storico va sovrapposto al linguistico soprattutto quando si considerano i prestiti dei primi secoli, per i quali ovviamente è solo una semplificazione parlare di voci entrate ‘in italiano’, visto che l’italiano in senso proprio nasce solo nel XVI secolo, a partire dalla codifica bembiana (➔ Bembo). Ciò premesso, è possibile analizzare anche cronologicamente la quantità e la qualità degli apporti, mettendo in relazione gli andamenti dei prestiti con le grandi fasi della storia politica, culturale e letteraria italiana.
(a) La formazione tardoantica e altomedievale, con gli apporti, regionalmente differenziati, delle lingue dei dominatori germanici, arabi e bizantini. Documentano questa fase, per l’arabo, nomi di luogo siciliani (Caltagirone, Calatafimi, Mongibello) o voci come cubbaita «specie di dolce» o tabbuto «cassa da morto», filtrati in italiano in epoca recente come dialettismi siciliani (o arabismi). Per le lingue germaniche, sono esempi di voci con etimo longobardo anca, balcone e grinza; provengono dal gotico dei Visigoti albergo, elmo, guardia, rocca, spola, da quello degli Ostrogoti fiasco, grinta, nastro, stecca; la lingua francone ci ha lasciato voci della terminologia feudale (barone, feudo, ligio) e dell’abbigliamento (guanto, roba); mentre si riferiscono direttamente a contatti di epoca più antica, tra varietà germaniche e latino del tardo impero romano, lessemi come brace, martora, sapone, vanga. Vocaboli di origine bizantina sono all’origine, diretta o remota, di bottarga, duca (adattamento orientale del latino dux), fanale, schiavo, zingaro.
(b) La centralità culturale della Francia e della Provenza nel Duecento e nel Trecento. Già presente come superstrato insediato, grazie agli elementi francofoni delle aristocrazie franca (IX-X sec.), normanna (XI-XII sec.) e angioina (XIV-XV sec.), il francese antico si è imposto anche grazie agli intensi rapporti commerciali due-trecenteschi dei mercanti toscani e veneziani in Francia e nel Mediterraneo orientale (➔ mercanti e lingua). Ma un ruolo di primo piano fu svolto soprattutto dal superstrato culturale costituito dalla letteratura provenzale e francese. Esempi di provenzalismi del lessico comune sono bandiera, bugia, coraggio, noia, pensiero, sembrare, speranza; di francesismi bastardo, burro, cugino, cuscino, giallo, leggero, mangiare, puttana, roccia, romanzo, schifo, svegliare, volentieri. I principali settori di prestito sono la mercatura (derrata «merce» < fr. denrée), la caccia (artiglio e sparviere sono provenzalismi, levriero < fr. antico lévrier), l’equitazione (francesismi antichi cimurro, destriere, ronzino), la guerra (francesismi antichi scudiere, spingarda, gonfalone; provenzalismo schiera), l’abbigliamento (francesismi gioiello e guardacuore), i pellegrinaggi (francesisimi antichi viaggio, passaggio, oste, ostello).
(c) La dominazione spagnola e catalana nel Cinquecento e nel Seicento, che ha fornito o veicolato nel vocabolario di base una trentina di lessemi (➔ ispanismi), per lo più nomi di realtà esotiche: cacao, cannibale, cioccolata, negro, patata, tabacco, zebra. Sono invece assenti ispanismi nel lessico intellettuale, e sono rari i lessemi di significato astratto (complimento, disinvoltura, etichetta, puntiglio), indizio, quest’ultimo del fatto che l’accoglimento di ispanismi nell’italiano comune era legato non al prestigio culturale ma piuttosto a quello mondano, agli stereotipi caratteristici degli spagnoli: baciamano, fanfarone, grandioso, lindo, sfarzo, sussiego. Per molti ispanismi s’è stemperato l’originario carattere di tecnicismi della marineria (flotta, risacca, i nomi dei punti cardinali; ➔ marineria, lingua della) o del lessico militare (alfiere, guerriglia, parata, ronda, squadriglia; ➔ militare, linguaggio). Questi apporti erano stati preceduti dai vari e importanti arabismi scientifici giunti per il tramite spagnolo nel tardo medioevo, secondo una trafila complessa di traduzione dall’arabo allo spagnolo e da questo al latino: sono entrate così in italiano voci come algebra, alambicco, algoritmo, almanacco, astrolabio, cifra, ottone, quintale. Accanto a ispanismi e catalanismi è piccola ma non trascurabile la quota di portoghesismi (o lusismi), che testimoniano come il portoghese nei confronti dell’italiano sia stato soprattutto un tramite di esotismi, entrati nella nostra lingua a partire dai viaggi cinquecenteschi: ananas, bambù, banana, mandarino «funzionario cinese», tapiro, tifone, tucano.
(d) L’influsso del francese, esercitato a partire dalla gallomania settecentesca per finire, dopo la Rivoluzione e l’impero napoleonico, solo nel primo Novecento. Impossibile da riassumere in sintesi, il ruolo complessivo e gli ambiti sociali e culturali dei circa 5000 ➔ francesismi presenti nel lessico italiano possono essere forse intuiti dai pochi esempi seguenti, scanditi per secolo di prima attestazione:
(i) Seicento: arruolare, baionetta, chimica, equipaggio, moda, parrucchiere, plotone, rivista;
(ii) Settecento: burocratico, capoluogo, certificato, damigiana, elettricità, giornalista, impiegato, malgrado, polemica, ragù, suicidio, uniforme;
(iii) Rivoluzione ed epoca napoleonica: comitato, complotto, destra e sinistra in accezione politica, fucilare, ghigliottina, rivoluzionario, sovversivo, terrorismo, terrorista;
(iv) Ottocento: centimetro, chilo, grammo, disinfettare, psichiatria, vaccino; aeroplano, automobile, bicicletta, elicottero, telegrafo; tra i forestierismi omelette, hotel, menu dal settore della gastronomia, choc da quello della medicina, baccarà, bon-ton, boudoir, cadò, casino, chic, cotillon, élite, habitué, pardon! da quello del bon vivre. Anche il francese durante l’Ottocento ha fatto da tramite per vari esotismi: arabismi (crumiro e lillà), turchismi (colbacco, tulipano), americanismi (caucciù, colibrì, giaguaro), africanismi (scimpanzé), ➔ russismi (zibellino);
(v) Novecento: messo in crisi prima dal purismo di regime promosso dal fascismo a partire dal 1926 e poi, a partire dagli anni Sessanta, dalla crescente fortuna dell’inglese come principale lingua straniera in Italia, l’influsso lessicale del francese è tuttavia ancora evidente nei settori per i quali ancora forte era la dipendenza dalla Francia, come quelli dell’automobile (camion, carburante, garage, parabrezza, rodaggio, roulotte, semaforo, taxi) o del cinema (appunto cinema, cinematografico, riflettore, trucco). Un certo numero di francesismi è poi da riscontrare nel settore dei calchi lessicali e idiomatici: locuzioni come presa di coscienza o qualità della vita, pur costruite con materiale italiano, hanno il loro modello nei corrispondenti francesi prise de conscience e qualité de vie.
(e) Il dominio culturale ed economico angloamericano, che ha portato l’inglese ad avere un ruolo di primo piano tra le fonti di prestiti dell’italiano contemporaneo. Come abbiamo già visto nella tab. 2, gli anglicismi in italiano sono oggi circa settemila. I settori di maggior penetrazione dell’inglese sono ben noti: la tecnologia (alluminio, meccanismo, microfono, missile, telecamera, telefono, televisore), i trasporti (autocarro, clacson, locomotiva, metropolitana, motel, stop, tram, tunnel), l’informatica e le scienze della comunicazione (browser, bug, chat, computer, formattare, inizializzare, ipertesto, mail, ecc.). Su questo argomento è opportuno rinviare per approfondimenti alla specifica voce ➔ anglicismi.
(f) Esotismi e orientalismi. Sotto questa etichetta generica vanno rubricati prestiti provenienti da una quantità notevole di lingue, dagli arabismi (antichi: ammiraglio, magazzino, tariffa; e moderni: fatwa, jihad, imam, intifada) ai nipponismi (banzai, geisha, tatami, karate, origami), dai turchismi (bailamme, cacciucco, emiro, sorbetto, yogurt) agli indianismi (avatar, basmati, fachiro, karma, yoga) (➔ orientalismi).
Il ricorso a fonti esterne non è il principale mezzo di rinnovamento del lessico. Il vocabolario di base contiene un 53% di lessemi ereditati dal latino, un 12% di lessemi provenienti da altre lingue e un 35% di lessemi formati in italiano. Più di un terzo delle parole di maggiore frequenza è fatto perciò di lessemi nati in italiano a partire da altri lessemi già presenti nella lingua, siano essi ereditari (coppia → accoppiare) oppure prestiti da altre lingue (alcool, bar → alcolico, barista). La percentuale di parole complesse sale quando si passa a considerare il lessico nella sua globalità. Come è mostrato nella tab. 3 (adattata da GRADIT, vol. 6°, pp. 1174 e 1176), all’interno del lemmario del GRADIT i lessemi dotati di struttura morfologica sono circa il 50%. Di questi, quasi i tre quarti sono costituiti dai derivati (73,3%), poco più di un quarto dai composti (26,7%).
I derivati dell’italiano sono più di 97.000: di questi, poco più di 17.000 sono formati con prefissi, 60.000 circa sono formati per suffissazione; circa 20.000, infine, sono i derivati cosiddetti a suffisso zero (➔ conversione), del tipo fiore → fiorire o accusare → accusa (sostantivo). Quanto ai composti, il GRADIT ne registra un po’ più di 35.000.
Rinviando alle voci specifiche per gli approfondimenti (➔ formazione delle parole), ci si limiterà qui a osservare il riflesso nella struttura del lessico del cambiamento avvenuto tra Ottocento e Novecento, quando l’italiano, lingua di pochi letterati, diventò dapprima lingua nazionale e poi lingua materna per quasi tutti gli italiani. Ebbene, la grande maggioranza dei lessemi dotati di struttura presenti attualmente in italiano (il 78%) si formò proprio in quei due secoli: circa il 70% dei derivati e addirittura il 96% dei composti. Inoltre, a partire dal Trecento la percentuale dei lessemi dotati di struttura che entrano nel lessico di base è regolarmente superiore a quella dei lessemi semplici; anzi le due percentuali si distanziano progressivamente secolo dopo secolo, fino ad arrivare nel Novecento a un 88% di neologismi complessi (da scongelare a tergicristallo) contro un 12% di neologismi semplici (collant, goal o pigiama): i neologismi contemporanei morfologicamente semplici sono praticamente tutti prestiti da lingue straniere.
Le osservazioni precedenti autorizzano la stessa conclusione: il lessico italiano ha aumentato progressivamente la sua regolarità interna, con un incremento particolarmente netto nell’ultimo secolo. Si tratti di paradigmi ‘a ventaglio’ (lavorare → lavorabile lavorante lavorativo lavoratore lavorazione lavorio) oppure ‘a cumulo’ (forma → formale → formalizzare → formalizzazione), il risultato è un aumento quantitativo e un rafforzamento qualitativo dei rapporti tra le parole già esistenti e quelle di nuova formazione.
GRADIT 1999-2007 = De Mauro, Tullio (dir.), Grande dizionario italiano dell’uso, Torino, UTET, 8 voll.
LIF 1971 = Bortolini, Umberta, Tagliavini, Carlo & Zampolli, Antonio, Lessico di frequenza della lingua italiana contemporanea, Milano, Garzanti.
LIP 1993 = De Mauro, Tullio et al., Lessico di frequenza dell’italiano parlato, Milano, ETAS libri.
Cini, Monica (a cura di) (2008), I verbi sintagmatici in italiano e nelle varietà dialettali. Stato dell’arte e prospettive di ricerca. Atti delle giornate di studio (Torino, 19-20 febbraio 2007), Frankfurt am Main, Peter Lang.
De Mauro, Tullio (1980), Il vocabolario di base della lingua italiana, in Id., Guida all’uso delle parole, Roma, Editori Riuniti (appendice).
Lorenzetti, Luca (2001), Lingua e generazioni nella provincia romana, «Italienisch» 45, pp. 25-40.
Lorenzetti, Luca (2002), L’italiano contemporaneo, Roma, Carocci.
Masini, Francesca (2006), Diacronia dei verbi sintagmatici in italiano, «Archivio Glottologico Italiano» 91, pp. 67-105.
Simone, Raffaele (2008), Coefficienti verbali nei nomi, in Categorie del verbo. Diacronia, teoria, tipologia. Atti del XXXI convegno della Società Italiana di Glottologia (Pisa, 26-28 ottobre 2006), a cura di P.M. Bertinetto, Roma, Il Calamo, pp. 83-113.