Articolo 20.8 Indice Codice W.I.L.A.I.

Perché i modelli dimenticano
(catastrophic forgetting)

Quando si aggiorna o si ri-addestra un modello su nuovi dati, può accadere che perda parte di ciò che sapeva prima. Questo fenomeno è noto come catastrophic forgetting: il modello diventa molto bravo sul nuovo compito ma peggiora, a volte in modo drastico, su compiti appresi in precedenza. In questa scheda vedrai perché succede, in quali scenari è più probabile e perché è un tema delicato quando si parla di aggiornare modelli nel tempo o di “continual learning”.

Che cosa si intende per “catastrophic forgetting”

Il catastrophic forgetting è un fenomeno che si verifica quando un modello neurale, dopo essere stato aggiornato o ri-addestrato su un nuovo compito o un nuovo insieme di dati, perde capacità su compiti che in precedenza svolgeva bene.

In pratica, l’ottimizzazione sui nuovi dati può “sovrascrivere” in modo brusco pattern e rappresentazioni precedenti. Il modello appare quindi molto competente nella nuova area, ma peggiora sensibilmente nelle prestazioni su task già appresi.

Questo è particolarmente evidente nei contesti di apprendimento continuo o sequenziale, in cui i dati arrivano a blocchi nel tempo invece che tutti insieme.

Come e perché i modelli “dimenticano”

Per capire il catastrophic forgetting, basta ricordare come funziona l’addestramento (Art. 20.7): i parametri del modello vengono aggiornati per ridurre l’errore sui dati che sta vedendo in quel momento. Se questi dati rappresentano solo il nuovo compito, il modello non riceve più segnali di errore sul compito precedente.

  • Aggiornamenti sbilanciati: se il nuovo dataset è molto diverso o molto più grande del precedente, gli aggiornamenti dei parametri possono spingere il modello a rappresentare bene solo il nuovo dominio, comprimendo o distorcendo rappresentazioni utili per i task originari.
  • Condivisione dei parametri: gli stessi neuroni e gli stessi pesi servono contemporaneamente a più compiti. Ottimizzarli per uno può degradare le performance sull’altro.
  • Mancanza di “memoria esplicita”: se il modello non ha accesso, durante l’aggiornamento, a esempi dei compiti passati (o a qualche forma di regolarizzazione che li “rappresenti”), non ha alcun motivo statistico per mantenere buone prestazioni su quei task.

Da qui la tensione classica dell’apprendimento automatico: bilanciare plasticità (capacità di imparare il nuovo) e stabilità (capacità di non distruggere il vecchio).

Cosa ricordare in pratica

  • Il catastrophic forgetting riguarda i parametri del modello, non il contesto di una singola chat (Art. 20.6).
  • È più probabile quando si aggiorna un modello in modo sequenziale su dati nuovi, senza tenere in conto le performance sui compiti precedenti.
  • Bilanciare stabilità e plasticità è cruciale: troppa stabilità rende il modello rigido, troppa plasticità lo fa “dimenticare”.
  • Per chi usa l’AI in contesti educativi o professionali, questo significa che ogni ri-addestramento va accompagnato da test di regressione su ciò che il modello deve assolutamente continuare a saper fare.

Catastrophic forgetting e progettazione nel W.I.L.A.I. LAB

Nel Codice W.I.L.A.I. il catastrophic forgetting è un promemoria: aggiornare un modello non è mai solo “aggiungere conoscenza”, ma anche rischiare di modificarne l’equilibrio interno. Ogni scelta sui dati, sulle etichette e sugli obiettivi di training ha un impatto potenzialmente non lineare.

Nel W.I.L.A.I. LAB questo si traduce in pratica in due attenzioni:

  • quando si parla di personalizzare modelli (ad esempio con fine-tuning su materiali di una scuola o di un’organizzazione), è importante definire quali competenze “core” non devono degradare;
  • la valutazione dell’AI non è solo sul nuovo compito, ma anche su compiti di riferimento che garantiscono continuità e affidabilità nel tempo.

Capire il catastrophic forgetting permette di passare da una visione ingenua (“più dati = meglio”) a una visione progettuale: come mantenere il meglio di ciò che il modello sa, mentre lo si spinge a funzionare meglio in nuovi contesti, senza creare regressioni nascoste che emergono solo quando è troppo tardi.

Percorso consigliato

Per avere una visione completa di cosa significa “dimenticare” per un modello, collega questa scheda a Art. 20.6 – Come i modelli gestiscono il contesto in una conversazione (dimenticanza a livello di finestra di contesto) e Art. 20.7 – Addestramento e inferenza: due processi distinti (quando i parametri vengono realmente aggiornati). A monte, è utile ripassare Art. 10.5 – Dati di addestramento: quantità vs qualità, che spiega perché la scelta dei dati è cruciale. Nei casi in cui si vogliono aggiornare modelli nel tempo senza perdere capacità precedenti, troverai un approfondimento operativo in Art. 20.9 – Continual learning: aggiornare un modello senza farlo regredire.