Dalla funzione convessa alla convessita generalizzata
Sebbene l’idea geometrica di figura convessa risalga a tempi lontani, la definizione moderna di funzione convessa è relativamente recente. La si deve al matematico danese J. Jensen e risale ai primi del Novecento. La stessa terminologia – funzione convessa e funzione concava – è stata a lungo oscillante. Oggi si chiama «concava» una funzione f quando la sua opposta −f risulta convessa nel senso che verrà precisato (e questo permette di parlare, per brevità, solo di funzioni convesse).
Si consideri per semplicità una funzione reale f di una variabile reale (anche se la trattazione del caso che f dipenda da più variabili reali è formalmente identica) definita su un insieme convesso che, sempre per semplicità, si suppone coincidere con tutto R. La funzione f è detta convessa quando è convessa (nel senso che, dati due punti qualsiasi dell’insieme, allo stesso insieme appartiene tutto il segmento che li congiunge) la regione del piano che sta al di sopra del suo grafico. Questa regione viene chiamata epigrafico e può essere definita formalmente come l’insieme A = {(x, y): y ≥ f(x)}. Sempre a livello geometrico, una funzione può essere equivalentemente definita come convessa quando, presi due qualsiasi punti sul suo grafico, il segmento che li unisce giace al di sopra (o perlomeno non al di sotto) del grafico stesso. Analiticamente questa definizione porta alla cosiddetta definizione per tre punti e alla disuguaglianza:
Una funzione convessa, definita su un insieme aperto, è sempre continua ma non è detto che sia sempre differenziabile, come mostra l’esempio di f(x) = |x|; tuttavia, se la funzione f è supposta differenziabile, la situazione si presenta in un modo un po’ più semplice. Si ha la cosiddetta definizione per due punti: f è convessa (nel senso prima introdotto) quando il suo grafico sta sempre al di sopra, o comunque non al di sotto, di quello della retta tangente al suo grafico condotta per un qualunque punto x0 (in formula: f(x) ≥ f(x0) + f′ (x0)(x − x0)) oppure, equivalentemente, quando la sua derivata prima risulta una funzione crescente.
Le cose vanno ancora meglio se si suppone che f ammetta anche derivata seconda. Si ottiene la cosiddetta condizione per un punto (e la verifica della convessità è ricondotta alla soluzione di una disequazione in una variabile): f è convessa, nel senso prima introdotto, quando è soddisfatta la disuguaglianza f″ ≥ 0.
La convessità è una proprietà preziosa e particolarmente apprezzata in molti contesti, per esempio nei problemi di ottimizzazione dove generalmente trasforma condizioni necessarie in condizioni sufficienti e conferisce un carattere globale a molte proprietà locali. In particolare, per le funzioni convesse un punto di minimo relativo è anche punto di minimo assoluto e, se la funzione è differenziabile, un punto stazionario (che soddisfa cioè la condizione necessaria dell’annullamento della/e derivata/e prima/e) è sicuramente un punto di minimo.
Sono state proprio queste proprietà, e la loro importanza, a guidare l’estensione del concetto di funzione convessa verso quella che è stata chiamata convessità generalizzata. Si è voluto cioè estendere la classe delle funzioni convesse, conservando però tutte le loro proprietà o perlomeno quelle ritenute più significative.
La prima estensione – quella delle funzioni quasi convesse – è dovuta al matematico italiano B. De Finetti e al danese W. Fenchel all’inizio degli anni Cinquanta del Novecento. Si dimostra che, se f è convessa, allora risultano convessi gli insiemi di livello Ck = {x: f(x) ≤ k, k ∈ R}. Il viceversa non vale, come mostra un semplice esempio quale f(x) = x 3. La proprietà della convessità degli insiemi Ck è stata assunta come caratterizzante da De Finetti e Fenchel, che hanno definito quasi convesse tutte quelle funzioni per cui risultano convessi gli insiemi Ck oppure, equivalentemente, quelle funzioni che soddisfano la disuguaglianza f [tx1 + (1 – t )x2] ≤ max[f(x1), f(x2)].
Nel caso particolare di una funzione di una sola variabile reale, l’andamento grafico di una funzione quasi convessa può essere facilmente precisato: sono quasi convesse quelle funzioni che risultano sempre crescenti oppure sempre decrescenti oppure, ancora, che sono decrescenti in un intervallo per poi diventare crescenti. Anche per le funzioni quasi convesse si potrebbero assegnare delle caratterizzazioni relative alle funzioni differenziabili o differenziabili due volte, simili a quelle viste per le funzioni convesse. Ma quello che ora maggiormente importa sottolineare è che, dalla definizione data, segue subito che una funzione convessa è anche quasi convessa mentre non vale il viceversa: la classe delle funzioni quasi convesse rappresenta una effettiva estensione di quella delle funzioni convesse. Sono funzioni, le quasi convesse, che conservano la proprietà di convessità degli insiemi Ck (divenuta addirittura caratterizzante), ma perdono proprietà molto importanti dal punto di vista dell’ottimizzazione: non è vero che un minimo locale sia necessariamente globale e neppure è necessariamente vero che un punto stazionario sia un punto di minimo.
Per quanto riguarda l’ottimizzazione, dunque, l’estensione è stata per così dire eccessiva. All’interno della convessità generalizzata, e accanto ad altre classi funzionali, è stata allora introdotta una generalizzazione intermedia – dovuta in particolare al matematico vietnamita Hoang Tuy e a quello ungherese B. Martos – che porta a definire le funzioni pseudoconvesse. Una funzione f è detta pseudoconvessa quando per ogni formula x1, x2 con, per esempio, f(x1) < f(x2), e per ogni t ∈ [0, 1] essa soddisfa la disuguaglianza f [tx1 + (1 − t )x2] ≤ f(x2) − ta(x1, x2), dove a è una funzione positiva, dipendente da x1 e x2. Si dimostra che effettivamente la classe delle funzioni pseudoconvesse (continue) è situata tra quella delle convesse e quella delle funzioni quasi convesse. Soprattutto, ai fini delle precedenti osservazioni, si dimostra che ogni punto di minimo relativo di una funzione pseudoconvessa è anche punto di minimo assoluto e che ogni punto stazionario di una funzione pseudoconvessa differenziabile è sicuramente punto di minimo.