Articolo 20.6 Indice Codice W.I.L.A.I.

Come i modelli gestiscono
il contesto in una conversazione

Una delle domande più frequenti è: “Quanto si ricorda l’AI di ciò che dico?”. La risposta dipende da come il modello gestisce il contesto: la parte di conversazione che riesce a considerare quando genera ogni nuova risposta. In questa scheda vedrai come i modelli costruiscono e aggiornano il contesto, quali sono i limiti tecnici e perché, nelle chat lunghe, può sembrare che “si dimentichino” di pezzi importanti.

Che cosa si intende per “contesto”

Per un modello linguistico, il contesto è l’insieme di token che vengono considerati quando calcola il prossimo token da generare. Non è “memoria permanente”, ma una finestra di lavoro: una porzione di conversazione (e istruzioni) che il modello vede in quel momento.

Questo contesto include tipicamente:

  • le istruzioni di sistema o di partenza (ruolo del modello, regole, tono);
  • il prompt attuale che stai inviando;
  • una selezione della storia della chat (turni precedenti) finché rientra nel limite di token del modello.

Quando la conversazione si allunga troppo, parti meno rilevanti del passato vengono ridotte, riassunte o tagliate, per restare dentro i limiti tecnici.

Come i modelli costruiscono e aggiornano il contesto

In pratica, prima di generare una risposta, il sistema fa (in modo molto semplificato) questi passi:

  • Raccolta dei pezzi: vengono combinati ruolo del modello, istruzioni, messaggi dell’utente e risposte precedenti che rientrano nel limite di token.
  • Preparazione della sequenza: tutto questo testo viene trasformato in token (Art. 20.1), poi in embedding (Art. 20.3) e passato attraverso i layer Transformer (Art. 20.4) con meccanismo di attention (Art. 20.5).
  • Selezione dei contenuti rilevanti: tramite l’attenzione, il modello decide a quali parti della sequenza dare più peso per rispondere alla richiesta attuale.
  • Update implicito: la nuova risposta viene aggiunta alla conversazione e, al turno successivo, farà parte del contesto (se non viene tagliata per limiti di lunghezza).

Da fuori sembra “memoria”, in realtà è una ricostruzione continua del contesto a ogni turno, dentro una finestra limitata.

Cosa ricordare in pratica

  • Il modello non “si ricorda” tutto: lavora con una finestra di contesto limitata.
  • Il contesto è ricostruito a ogni turno combinando istruzioni, prompt e storia recente della chat.
  • Nelle conversazioni lunghe, parti iniziali possono essere compresse, riassunte o escluse.
  • Prompt chiari, riferimenti espliciti e riassunti periodici aiutano il modello a gestire meglio il contesto.

Contesto, limiti e UX conversazionale nel W.I.L.A.I. LAB

Nel Codice W.I.L.A.I. la gestione del contesto è il punto di incontro tra modello e esperienza d’uso: ciò che per l’ingegneria è una finestra di token, per chi progetta conversazioni è la capacità di tenere il filo del discorso con l’utente.

Nel W.I.L.A.I. LAB questo si traduce in pratiche concrete: spezzare progetti lunghi in blocchi, usare riassunti intermedi, ripetere le condizioni chiave quando servono, evitare di affidare intere decisioni a chat infinite che superano i limiti di contesto.

Capire come il modello gestisce il contesto ti permette di progettare interazioni più stabili e affidabili: non ti aspetti una “memoria umana”, ma impari a dargli le informazioni giuste, nel momento giusto, nella forma più digeribile per l’architettura che sta lavorando dietro l’interfaccia.

Percorso consigliato

Per avere una visione completa di come il modello “vede” la conversazione, collega questa scheda a Art. 20.1 – Token e tokenizzazione: come l’AI legge il testo, Art. 20.3 – Embedding: come l’AI rappresenta parole e concetti, Art. 20.4 – Transformer: l’architettura che ha rivoluzionato l’AI e Art. 20.5 – Attention: il meccanismo chiave dei modelli attuali. Insieme spiegano cosa entra nella finestra di contesto e come viene elaborato. Dopo questa lettura, puoi proseguire con Art. 20.7 – Addestramento e inferenza: due processi distinti, per distinguere chiaramente tra ciò che il modello ha “imparato” durante il training e ciò che fa in tempo reale mentre conversa con te.