Temperature, top-K e top-P:
come controllare la creatività
Quando chiedi a un modello di “essere più creativo” o “più preciso”, dietro le quinte entrano in gioco alcuni parametri di generazione: fra i più importanti ci sono temperature, top-K e top-P. In questa scheda vedrai cosa fanno, come influenzano la variabilità delle risposte e perché possono trasformare lo stesso prompt in un testo molto prudente o molto esplorativo. Obiettivo: capire abbastanza da non limitarti allo slider “creatività sì/no”.
Che cosa sono temperature, top-K e top-P
Quando un modello genera testo, per ogni passo assegna una probabilità ai possibili token successivi. Temperature, top-K e top-P sono tre modi diversi per decidere quali token considerare e con che variabilità.
- Temperature: un parametro che “appiana” o “accentua” le differenze fra probabilità. Valori bassi → output più prevedibili; valori alti → output più vari.
- Top-K: il modello considera solo i K token più probabili e sceglie fra quelli, ignorando tutti gli altri.
- Top-P (o nucleus sampling): invece di un numero fisso di token, considera il più piccolo insieme di token la cui probabilità cumulata supera P (per esempio 0,9 = 90% della massa di probabilità).
In pratica, sono tre manopole per passare da risposte più conservative a risposte più creative e inaspettate.
Come influenzano la creatività del modello
In modo molto semplificato, puoi immaginare questi parametri così:
-
Temperature
- con temperature basse (es. 0,1–0,3) il modello tende a scegliere quasi sempre il token più probabile → risposte più stabili e ripetibili;
- con temperature medie (es. 0,7) bilancia coerenza e varietà;
- con temperature alte (es. >1) la distribuzione si “appiana” e il modello esplora opzioni meno probabili → più creatività e rischio di output strani o incoerenti.
-
Top-K
- limita la scelta ai K token più probabili (es. K = 40);
- se K è piccolo, il modello è più controllato; se è grande, ha un ventaglio più ampio di continuazioni possibili.
-
Top-P
- include solo i token che, sommati, raggiungono una certa soglia (es. P = 0,9);
- con P bassi il modello è prudente; con P più alti lascia entrare anche token meno probabili, aumentando la varianza.
Di solito temperature, top-K e top-P vengono combinati per dare al modello un range di esplorazione coerente con il caso d’uso: raccontare storie ≠ redigere un verbale di riunione.
Cosa ricordare in pratica
- Temperature, top-K e top-P non “aggiungono intelligenza”, ma regolano quanto il modello si discosta dalle opzioni più probabili.
- Valori più bassi → risposte più prevedibili, stabili e sicure.
- Valori più alti → risposte più creative, variabili e rischiose.
- Per compiti critici (esami, decisioni, dati sensibili) conviene preferire configurazioni più conservative; per idee e brainstorming puoi permetterti parametri più “aperti”.
Dalle manopole ai casi d’uso nel W.I.L.A.I. LAB
Nel Codice W.I.L.A.I., questi parametri sono il punto di contatto fra meccanica interna del modello e esperienza d’uso: spiegano perché due piattaforme che usano modelli simili possono sembrare “più fantasiose” o “più sobrie” a seconda di come impostano temperature, top-K e top-P.
Nel W.I.L.A.I. LAB questa conoscenza si traduce in pratica: durante gli esercizi di prompting puoi sperimentare come cambia un output quando il modello è configurato per:
- generare varianti creative di un testo (temperature più alta, campionamento più ampio);
- produrre risposte più aderenti a un modello di testo dato (temperature bassa, campionamento più stretto);
- passare da “idea grezza” a “versione finale” abbassando la creatività nelle fasi di rifinitura.
Non devi ricordare formule o algoritmi: ti basta sapere che dietro lo slider “creatività” ci sono scelte tecniche precise. Più capisci come funzionano, più puoi progettare esperienze coerenti con obiettivo, contesto e rischi del tuo caso d’uso.
Per collegare bene questa scheda al resto del quadro, ripassa prima Art. 20.2 – LLM: i modelli linguistici alla base dell’AI moderna e Art. 20.5 – Attention: il meccanismo chiave dei modelli attuali, che spiegano come il modello stima le probabilità dei token. Puoi poi affiancare questa lettura alle schede di interazione e prompting, in particolare Art. 40.1 – Prompt: lo strumento principale per controllare l’AI e Art. 40.2 – Anatomia di un prompt efficace, per vedere come parametri di generazione e qualità del prompt lavorano insieme. Infine, collega questa scheda a Art. 20.10 – Come nasce una risposta: dal prompt all’output, che mette in fila l’intero “percorso” di una risposta generata.