Articolo 20.14 Indice Codice W.I.L.A.I.

Modelli compressi:
stessa potenza, meno risorse

I grandi modelli linguistici possono richiedere molta memoria e molta potenza di calcolo. Per portarli su laptop, server più piccoli o persino dispositivi locali, serve “alleggerirli” senza distruggerne le capacità. Qui entrano in gioco i modelli compressi: versioni ridotte, ottimizzate, che puntano a mantenere prestazioni accettabili usando meno parametri, meno bit o architetture più leggere. In questa scheda vedrai quali tecniche si usano, cosa si sacrifica e cosa cambia davvero nell’esperienza d’uso.

Che cosa sono i modelli compressi

Un modello compresso è una versione ottimizzata di un modello più grande, progettata per usare meno risorse (memoria, calcolo, banda) mantenendo prestazioni il più possibile simili.

In pratica, si parte da un modello “pieno” e lo si trasforma in qualcosa di:

  • più piccolo (meno parametri o parametri più “leggeri”);
  • più veloce da eseguire su hardware meno potente;
  • più economico da usare in produzione continuativa.

L’obiettivo non è ottenere la perfezione, ma un buon compromesso: prestazioni sufficienti per il caso d’uso, con costi e latenza molto ridotti.

Tecniche principali di compressione

Esistono diverse famiglie di tecniche. Tra le più usate:

  • Quantizzazione
    I parametri del modello (normalmente rappresentati con molti bit, ad esempio 16 o 32) vengono memorizzati con meno bit (es. 8, 4 o meno).
    Effetto: memoria ridotta, inferenza più veloce; se fatta bene, perdita di qualità contenuta.
  • Pruning
    Vengono rimosse connessioni o neuroni poco utili, cioè parametri che contribuiscono poco alle prestazioni complessive.
    Effetto: modello più piccolo e veloce, ma da ri-allenare o ri-fine-tuning per non perdere troppo in accuratezza.
  • Knowledge distillation
    Un modello grande (“teacher”) viene usato per insegnare a un modello più piccolo (“student”) a produrre output simili, addestrandolo sulle risposte del teacher.
    Effetto: lo studente è più leggero ma eredità molte capacità del modello originale.
  • Architetture ottimizzate
    Invece di comprimere e basta, si progettano modelli nativamente più leggeri (es. meno layer, attention sparse, moduli condivisi), pensati per girare su edge device o hardware specifico.

Spesso queste tecniche vengono combinate in pipeline di ottimizzazione per trovare il miglior equilibrio tra qualità e costo.

Cosa ricordare in pratica

  • I modelli compressi nascono per portare l’Intelligenza Artificiale dove prima non arrivava (on-premise, locale, dispositivi meno potenti).
  • Quantizzazione, pruning e distillation sono tre strategie chiave, spesso usate insieme.
  • C’è sempre un trade-off: meno risorse in cambio di qualche perdita di qualità, più forte su compiti molto complessi.
  • Per molti casi d’uso concreti (assistenza, scrittura, supporto allo studio) un buon modello compresso può essere più che sufficiente.

Perché i modelli compressi contano nel W.I.L.A.I. LAB

Nel Codice W.I.L.A.I., i modelli compressi sono la chiave per passare dal “laboratorio” alla pratica quotidiana: permettono a scuole, enti e professionisti di usare l’AI in modo più sostenibile, controllato e, in alcuni casi, più privacy-friendly.

Nel W.I.L.A.I. LAB questo impatta su scelte concrete:

  • valutare quando ha senso un modello grande in cloud e quando basta un modello compresso in locale;
  • bilanciare qualità dell’output e vincoli di budget (tempo di risposta, costi per token, hardware disponibile);
  • progettare esperienze in cui il modello è “più vicino” ai dati, riducendo la necessità di inviare tutto a server esterni;
  • introdurre il tema efficienza come parte dell’alfabetizzazione AI, non solo come dettaglio tecnico.

Capire i modelli compressi ti aiuta a leggere con lucidità le offerte dei fornitori (“light”, “edge”, “on-device”) e a scegliere soluzioni coerenti con le tue priorità: qualità, controllo, costi, sostenibilità.

Percorso consigliato

Per contestualizzare i modelli compressi, collega questa scheda a Art. 20.10 – Come nasce una risposta: dal prompt all’output e Art. 20.11 – Perché l’AI sembra creativa anche se non lo è, che mostrano cosa deve essere preservato durante la compressione. Prosegui poi con Art. 20.15 – Perché servono le GPU (e cosa fanno davvero) e Art. 20.16 – Quanto costa davvero addestrare un modello avanzato, per capire come hardware e costi influenzano le scelte di ottimizzazione. Per un supporto visivo, vedi anche Art. 60.9 – Parametro, che chiarisce in modo grafico cosa stai effettivamente “riducendo” quando comprimi un modello.