Articolo 20.9 Indice Codice W.I.L.A.I.

Temperature, top-K e top-P:
come controllare la creatività

Quando chiedi a un modello di “essere più creativo” o “più preciso”, dietro le quinte entrano in gioco alcuni parametri di generazione: fra i più importanti ci sono temperature, top-K e top-P. In questa scheda vedrai cosa fanno, come influenzano la variabilità delle risposte e perché possono trasformare lo stesso prompt in un testo molto prudente o molto esplorativo. Obiettivo: capire abbastanza da non limitarti allo slider “creatività sì/no”.

Che cosa sono temperature, top-K e top-P

Quando un modello genera testo, per ogni passo assegna una probabilità ai possibili token successivi. Temperature, top-K e top-P sono tre modi diversi per decidere quali token considerare e con che variabilità.

  • Temperature: un parametro che “appiana” o “accentua” le differenze fra probabilità. Valori bassi → output più prevedibili; valori alti → output più vari.
  • Top-K: il modello considera solo i K token più probabili e sceglie fra quelli, ignorando tutti gli altri.
  • Top-P (o nucleus sampling): invece di un numero fisso di token, considera il più piccolo insieme di token la cui probabilità cumulata supera P (per esempio 0,9 = 90% della massa di probabilità).

In pratica, sono tre manopole per passare da risposte più conservative a risposte più creative e inaspettate.

Come influenzano la creatività del modello

In modo molto semplificato, puoi immaginare questi parametri così:

  • Temperature
    • con temperature basse (es. 0,1–0,3) il modello tende a scegliere quasi sempre il token più probabile → risposte più stabili e ripetibili;
    • con temperature medie (es. 0,7) bilancia coerenza e varietà;
    • con temperature alte (es. >1) la distribuzione si “appiana” e il modello esplora opzioni meno probabili → più creatività e rischio di output strani o incoerenti.
  • Top-K
    • limita la scelta ai K token più probabili (es. K = 40);
    • se K è piccolo, il modello è più controllato; se è grande, ha un ventaglio più ampio di continuazioni possibili.
  • Top-P
    • include solo i token che, sommati, raggiungono una certa soglia (es. P = 0,9);
    • con P bassi il modello è prudente; con P più alti lascia entrare anche token meno probabili, aumentando la varianza.

Di solito temperature, top-K e top-P vengono combinati per dare al modello un range di esplorazione coerente con il caso d’uso: raccontare storie ≠ redigere un verbale di riunione.

Cosa ricordare in pratica

  • Temperature, top-K e top-P non “aggiungono intelligenza”, ma regolano quanto il modello si discosta dalle opzioni più probabili.
  • Valori più bassi → risposte più prevedibili, stabili e sicure.
  • Valori più alti → risposte più creative, variabili e rischiose.
  • Per compiti critici (esami, decisioni, dati sensibili) conviene preferire configurazioni più conservative; per idee e brainstorming puoi permetterti parametri più “aperti”.

Dalle manopole ai casi d’uso nel W.I.L.A.I. LAB

Nel Codice W.I.L.A.I., questi parametri sono il punto di contatto fra meccanica interna del modello e esperienza d’uso: spiegano perché due piattaforme che usano modelli simili possono sembrare “più fantasiose” o “più sobrie” a seconda di come impostano temperature, top-K e top-P.

Nel W.I.L.A.I. LAB questa conoscenza si traduce in pratica: durante gli esercizi di prompting puoi sperimentare come cambia un output quando il modello è configurato per:

  • generare varianti creative di un testo (temperature più alta, campionamento più ampio);
  • produrre risposte più aderenti a un modello di testo dato (temperature bassa, campionamento più stretto);
  • passare da “idea grezza” a “versione finale” abbassando la creatività nelle fasi di rifinitura.

Non devi ricordare formule o algoritmi: ti basta sapere che dietro lo slider “creatività” ci sono scelte tecniche precise. Più capisci come funzionano, più puoi progettare esperienze coerenti con obiettivo, contesto e rischi del tuo caso d’uso.

Percorso consigliato

Per collegare bene questa scheda al resto del quadro, ripassa prima Art. 20.2 – LLM: i modelli linguistici alla base dell’AI moderna e Art. 20.5 – Attention: il meccanismo chiave dei modelli attuali, che spiegano come il modello stima le probabilità dei token. Puoi poi affiancare questa lettura alle schede di interazione e prompting, in particolare Art. 40.1 – Prompt: lo strumento principale per controllare l’AI e Art. 40.2 – Anatomia di un prompt efficace, per vedere come parametri di generazione e qualità del prompt lavorano insieme. Infine, collega questa scheda a Art. 20.10 – Come nasce una risposta: dal prompt all’output, che mette in fila l’intero “percorso” di una risposta generata.