Articolo 20.14 Indice Codice W.I.L.A.I.

Modelli compressi:
stessa potenza, meno risorse

I grandi modelli linguistici possono richiedere molta memoria e molta potenza di calcolo. Per portarli su laptop, server più piccoli o persino dispositivi locali, serve “alleggerirli” senza distruggerne le capacità. Qui entrano in gioco i modelli compressi: versioni ridotte, ottimizzate, che puntano a mantenere prestazioni accettabili usando meno parametri, meno bit o architetture più leggere. In questa scheda vedrai quali tecniche si usano, cosa si sacrifica e cosa cambia davvero nell’esperienza d’uso.

Livello: intermedio–avanzato Lettura: circa 7 minuti

Che cosa sono i modelli compressi

Un modello compresso è una versione ottimizzata di un modello più grande, progettata per usare meno risorse (memoria, calcolo, banda) mantenendo prestazioni il più possibile simili.

In pratica, si parte da un modello “pieno” e lo si trasforma in qualcosa di:

più piccolo (meno parametri o parametri più “leggeri”);
più veloce da eseguire su hardware meno potente;
più economico da usare in produzione continuativa.

L’obiettivo non è ottenere la perfezione, ma un buon compromesso: prestazioni sufficienti per il caso d’uso, con costi e latenza molto ridotti.

Tecniche principali di compressione

Esistono diverse famiglie di tecniche. Tra le più usate:

Quantizzazione
I parametri del modello (normalmente rappresentati con molti bit, ad esempio 16 o 32) vengono memorizzati con meno bit (es. 8, 4 o meno).
Effetto: memoria ridotta, inferenza più veloce; se fatta bene, perdita di qualità contenuta.
Pruning
Vengono rimosse connessioni o neuroni poco utili, cioè parametri che contribuiscono poco alle prestazioni complessive.
Effetto: modello più piccolo e veloce, ma da ri-allenare o ri-fine-tuning per non perdere troppo in accuratezza.
Knowledge distillation
Un modello grande (“teacher”) viene usato per insegnare a un modello più piccolo (“student”) a produrre output simili, addestrandolo sulle risposte del teacher.
Effetto: lo studente è più leggero ma eredità molte capacità del modello originale.
Architetture ottimizzate
Invece di comprimere e basta, si progettano modelli nativamente più leggeri (es. meno layer, attention sparse, moduli condivisi), pensati per girare su edge device o hardware specifico.

Spesso queste tecniche vengono combinate in pipeline di ottimizzazione per trovare il miglior equilibrio tra qualità e costo.

Cosa ricordare in pratica

I modelli compressi nascono per portare l’Intelligenza Artificiale dove prima non arrivava (on-premise, locale, dispositivi meno potenti).
Quantizzazione, pruning e distillation sono tre strategie chiave, spesso usate insieme.
C’è sempre un trade-off: meno risorse in cambio di qualche perdita di qualità, più forte su compiti molto complessi.
Per molti casi d’uso concreti (assistenza, scrittura, supporto allo studio) un buon modello compresso può essere più che sufficiente.

Perché i modelli compressi contano nel W.I.L.A.I. LAB

Nel Codice W.I.L.A.I., i modelli compressi sono la chiave per passare dal “laboratorio” alla pratica quotidiana: permettono a scuole, enti e professionisti di usare l’AI in modo più sostenibile, controllato e, in alcuni casi, più privacy-friendly.

Nel W.I.L.A.I. LAB questo impatta su scelte concrete:

valutare quando ha senso un modello grande in cloud e quando basta un modello compresso in locale;
bilanciare qualità dell’output e vincoli di budget (tempo di risposta, costi per token, hardware disponibile);
progettare esperienze in cui il modello è “più vicino” ai dati, riducendo la necessità di inviare tutto a server esterni;
introdurre il tema efficienza come parte dell’alfabetizzazione AI, non solo come dettaglio tecnico.

Capire i modelli compressi ti aiuta a leggere con lucidità le offerte dei fornitori (“light”, “edge”, “on-device”) e a scegliere soluzioni coerenti con le tue priorità: qualità, controllo, costi, sostenibilità.

Percorso consigliato

Per contestualizzare i modelli compressi, collega questa scheda a Art. 20.10 – Come nasce una risposta: dal prompt all’output e Art. 20.11 – Perché l’AI sembra creativa anche se non lo è, che mostrano cosa deve essere preservato durante la compressione. Prosegui poi con Art. 20.15 – Perché servono le GPU (e cosa fanno davvero) e Art. 20.16 – Quanto costa davvero addestrare un modello avanzato, per capire come hardware e costi influenzano le scelte di ottimizzazione. Per un supporto visivo, vedi anche Art. 60.9 – Parametro, che chiarisce in modo grafico cosa stai effettivamente “riducendo” quando comprimi un modello.

Modelli compressi: stessa potenza, meno risorse

Che cosa sono i modelli compressi

Tecniche principali di compressione

Cosa ricordare in pratica

Perché i modelli compressi contano nel W.I.L.A.I. LAB

Fonti e riferimenti

Modelli compressi:
stessa potenza, meno risorse