Modelli compressi:
stessa potenza, meno risorse
I grandi modelli linguistici possono richiedere molta memoria e molta potenza di calcolo. Per portarli su laptop, server più piccoli o persino dispositivi locali, serve “alleggerirli” senza distruggerne le capacità. Qui entrano in gioco i modelli compressi: versioni ridotte, ottimizzate, che puntano a mantenere prestazioni accettabili usando meno parametri, meno bit o architetture più leggere. In questa scheda vedrai quali tecniche si usano, cosa si sacrifica e cosa cambia davvero nell’esperienza d’uso.
Che cosa sono i modelli compressi
Un modello compresso è una versione ottimizzata di un modello più grande, progettata per usare meno risorse (memoria, calcolo, banda) mantenendo prestazioni il più possibile simili.
In pratica, si parte da un modello “pieno” e lo si trasforma in qualcosa di:
- più piccolo (meno parametri o parametri più “leggeri”);
- più veloce da eseguire su hardware meno potente;
- più economico da usare in produzione continuativa.
L’obiettivo non è ottenere la perfezione, ma un buon compromesso: prestazioni sufficienti per il caso d’uso, con costi e latenza molto ridotti.
Tecniche principali di compressione
Esistono diverse famiglie di tecniche. Tra le più usate:
-
Quantizzazione
I parametri del modello (normalmente rappresentati con molti bit, ad esempio 16 o 32) vengono memorizzati con meno bit (es. 8, 4 o meno).
Effetto: memoria ridotta, inferenza più veloce; se fatta bene, perdita di qualità contenuta. -
Pruning
Vengono rimosse connessioni o neuroni poco utili, cioè parametri che contribuiscono poco alle prestazioni complessive.
Effetto: modello più piccolo e veloce, ma da ri-allenare o ri-fine-tuning per non perdere troppo in accuratezza. -
Knowledge distillation
Un modello grande (“teacher”) viene usato per insegnare a un modello più piccolo (“student”) a produrre output simili, addestrandolo sulle risposte del teacher.
Effetto: lo studente è più leggero ma eredità molte capacità del modello originale. -
Architetture ottimizzate
Invece di comprimere e basta, si progettano modelli nativamente più leggeri (es. meno layer, attention sparse, moduli condivisi), pensati per girare su edge device o hardware specifico.
Spesso queste tecniche vengono combinate in pipeline di ottimizzazione per trovare il miglior equilibrio tra qualità e costo.
Cosa ricordare in pratica
- I modelli compressi nascono per portare l’Intelligenza Artificiale dove prima non arrivava (on-premise, locale, dispositivi meno potenti).
- Quantizzazione, pruning e distillation sono tre strategie chiave, spesso usate insieme.
- C’è sempre un trade-off: meno risorse in cambio di qualche perdita di qualità, più forte su compiti molto complessi.
- Per molti casi d’uso concreti (assistenza, scrittura, supporto allo studio) un buon modello compresso può essere più che sufficiente.
Perché i modelli compressi contano nel W.I.L.A.I. LAB
Nel Codice W.I.L.A.I., i modelli compressi sono la chiave per passare dal “laboratorio” alla pratica quotidiana: permettono a scuole, enti e professionisti di usare l’AI in modo più sostenibile, controllato e, in alcuni casi, più privacy-friendly.
Nel W.I.L.A.I. LAB questo impatta su scelte concrete:
- valutare quando ha senso un modello grande in cloud e quando basta un modello compresso in locale;
- bilanciare qualità dell’output e vincoli di budget (tempo di risposta, costi per token, hardware disponibile);
- progettare esperienze in cui il modello è “più vicino” ai dati, riducendo la necessità di inviare tutto a server esterni;
- introdurre il tema efficienza come parte dell’alfabetizzazione AI, non solo come dettaglio tecnico.
Capire i modelli compressi ti aiuta a leggere con lucidità le offerte dei fornitori (“light”, “edge”, “on-device”) e a scegliere soluzioni coerenti con le tue priorità: qualità, controllo, costi, sostenibilità.
Per contestualizzare i modelli compressi, collega questa scheda a Art. 20.10 – Come nasce una risposta: dal prompt all’output e Art. 20.11 – Perché l’AI sembra creativa anche se non lo è, che mostrano cosa deve essere preservato durante la compressione. Prosegui poi con Art. 20.15 – Perché servono le GPU (e cosa fanno davvero) e Art. 20.16 – Quanto costa davvero addestrare un modello avanzato, per capire come hardware e costi influenzano le scelte di ottimizzazione. Per un supporto visivo, vedi anche Art. 60.9 – Parametro, che chiarisce in modo grafico cosa stai effettivamente “riducendo” quando comprimi un modello.