Come valutare se un modello
funziona davvero
Questa scheda ti aiuta a capire cosa significa, in pratica, dire che un modello di Intelligenza Artificiale “funziona”. Andiamo oltre le impressioni di superficie e vediamo come definire obiettivi, metriche e confronti per valutare se un modello è davvero affidabile per l’uso che ti serve, nel contesto reale in cui operi.
Che cosa significa “funzionare” per un modello
Dire che un modello “funziona” non significa che sia perfetto, ma che raggiunge in modo affidabile l’obiettivo per cui è stato progettato, entro margini di errore accettabili per quel contesto.
Un modello di AI può essere eccellente in un compito (ad esempio riconoscere immagini) e poco adatto in un altro (ad esempio prevedere una domanda di mercato instabile). La domanda chiave è sempre: “per quale scopo lo sto usando e quali errori posso tollerare?”
Valutare un modello significa quindi collegare tre elementi: obiettivo, contesto d’uso e tipo di errore che è più rischioso (mancare un caso, oppure segnalarne uno inesistente?).
Come valutare un modello nella pratica
In pratica, valutare un modello richiede alcuni passaggi ricorrenti:
- Definire l’obiettivo: cosa deve fare il modello in termini concreti (classificare, prevedere, generare testo, suggerire scelte)?
- Scegliere le metriche: quali numeri misureranno la qualità? Ad esempio, percentuale di errori, quante volte manca un caso importante, quanto è grande lo scarto tra previsione e realtà.
- Usare un dataset di test separato: il modello va valutato su dati che non ha visto in addestramento, altrimenti rischi di misurare solo memoria e non capacità di generalizzare (vedi Art. 10.12 e 10.13).
- Confrontare con una baseline: il modello è davvero meglio di un metodo semplice (regole fisse, stime manuali, o un modello precedente)? Senza confronto, le metriche restano astratte.
- Analizzare gli errori: non basta il numero totale. È fondamentale capire su chi sbaglia, quando sbaglia e quanto sono gravi quegli errori per gli utenti coinvolti.
Un modello “funziona davvero” quando questi elementi sono chiari e le metriche dicono che, per lo scopo scelto, offre un vantaggio reale rispetto alle alternative.
Cosa ricordare in pratica
- Nessun modello è “buono in assoluto”: lo è sempre rispetto a uno scopo e a un contesto d’uso concreto.
- Metriche e dataset di test vanno scelti prima: altrimenti rischi di “giustificare” il modello a posteriori.
- Confrontare con una baseline semplice è spesso il test più onesto: se non supera una regola banale, il modello non vale la complessità che introduce.
- Capire dove e su chi il modello sbaglia è parte della valutazione: non è solo una questione di numeri medi.
Come si collega all’ecosistema W.I.L.A.I.
Nel Codice W.I.L.A.I. questa scheda collega i concetti di dati (Art. 10.4–10.5) e di generalizzazione (Art. 10.12–10.14) a una domanda chiave: “come capiamo se un modello è davvero utile, e non solo impressionante?”
Nel W.I.L.A.I. LAB questi criteri diventano esercizi pratici: si confrontano modelli o configurazioni diverse, si definiscono prima le metriche, si osservano gli errori e si discute se il guadagno ottenuto giustifica complessità, costi e rischi introdotti.
L’obiettivo non è diventare “giudici dei numeri”, ma sviluppare una competenza di valutazione: chiedersi con lucidità “questo modello, per il mio contesto, vale davvero la pena?”
Per capire da dove nasce la qualità di un modello, puoi partire da Art. 10.4 – Dati: la base dell’intelligenza artificiale e da Art. 10.5 – Perché i dataset contano più degli algoritmi. Per approfondire il tema della generalizzazione e degli errori in valutazione, prosegui con Art. 10.12 – Che cosa significa “generalizzare” e Art. 10.13 – Underfitting e overfitting: i due errori fondamentali.