Articolo 20.5 Indice Codice W.I.L.A.I.

Attention:
il meccanismo chiave dei modelli attuali

Se i Transformer sono l’architettura che ha rivoluzionato l’AI, l’attention è il loro motore interno. È il meccanismo che permette al modello di decidere a quali parti del testo “guardare” di più per capire il contesto e generare la risposta. In questa scheda vedrai cos’è l’attenzione, perché è così potente e come incide concretamente sul modo in cui l’AI interpreta i tuoi prompt.

Livello: intermedio Lettura: circa 7 minuti

Che cos’è il meccanismo di attention

In un modello Transformer, attention è il meccanismo che permette a ogni token di “pesare” l’importanza degli altri token presenti nel contesto. In pratica, quando il modello elabora una parola, non la guarda isolata, ma decide quali altre parole sono più rilevanti per interpretarla correttamente.

Possiamo pensarla come una mappa di pesi: per ogni posizione nella frase, il modello assegna un livello di attenzione alle altre posizioni. Alcune ricevono molto peso (alto interesse), altre quasi nulla.

Questo consente al modello di collegare concetti lontani nella frase, capire a chi si riferisce un pronome, gestire frasi complesse e ricche di dipendenze, senza dover elaborare il testo rigidamente da sinistra a destra come facevano i modelli precedenti.

Come funziona l’attention in pratica

Senza entrare nelle formule matematiche, il flusso dell’attenzione in un Transformer può essere descritto così:

Si parte dagli embedding (Art. 20.3): ogni token è rappresentato da un vettore numerico che porta informazione sul suo significato e sulla posizione.
Si calcolano tre insiemi di vettori per ogni token: query, key e value. Sono trasformazioni diverse dello stesso embedding, con ruoli distinti nel confronto.
Si confrontano query e key: per ogni token, la sua query viene confrontata con le key di tutti gli altri token. Da qui nascono i pesi di attenzione: valori alti per i token rilevanti, bassi per gli altri.
Si combinano i value: i pesi vengono usati per fare una media pesata dei value corrispondenti. Il risultato è una nuova rappresentazione per ogni token, che integra le parti del contesto ritenute più importanti.

Ripetendo questo processo in più head di attenzione e in più layer, il modello impara diversi “modi di guardare” al testo: struttura, sintassi, collegamenti semantici, stile, ecc.

Cosa ricordare in pratica

L’attention decide a quali parti del contesto il modello dà più peso mentre elabora un token.
Ogni token può “guardare” direttamente tutti gli altri, non solo i vicini immediati: questo rende i modelli molto più flessibili.
Esistono più head di attenzione: ciascuna coglie pattern diversi (struttura della frase, ruoli grammaticali, relazioni di significato).
Quando un prompt è scritto male o confonde i ruoli, il modello può distribuire male l’attenzione e produrre output deboli o incoerenti.

Perché l’attention è centrale nel W.I.L.A.I. LAB

Nel Codice W.I.L.A.I. l’attenzione è la chiave per capire perché la formulazione del prompt conta così tanto: stai dando istruzioni a un sistema che decide, token dopo token, dove concentrare le proprie risorse di calcolo.

Nel W.I.L.A.I. LAB vedrai questa dinamica in azione: piccoli cambi di struttura (liste, titoli, ruoli, vincoli) spostano l’attenzione del modello e cambiano radicalmente il tipo di risposta che ottieni, anche se il tema resta lo stesso.

L’obiettivo non è farti “vedere le matrici” dell’attenzione, ma sviluppare una sensibilità progettuale: capire che ogni parola in più o in meno nel prompt può ridistribuire l’attenzione, migliorando o peggiorando la qualità dell’output. È qui che nasce il vero prompting consapevole.

Percorso consigliato

Per capire davvero l’attenzione, è utile ricollegarsi a Art. 20.3 – Embedding: come l’AI rappresenta parole e concetti e Art. 20.4 – Transformer: l’architettura che ha rivoluzionato l’AI, che spiegano da dove arrivano le rappresentazioni su cui l’attention lavora. Dopo questa scheda, puoi proseguire con Art. 20.6 – Come i modelli gestiscono il contesto in una conversazione, dove vedrai come attenzione, token e limiti di contesto si combinano nelle chat reali. Per un supporto visivo, puoi incrociare anche il glossario Art. 60.17 – Attention.

Attention: il meccanismo chiave dei modelli attuali

Che cos’è il meccanismo di attention

Come funziona l’attention in pratica

Cosa ricordare in pratica

Perché l’attention è centrale nel W.I.L.A.I. LAB

Fonti e riferimenti

Attention:
il meccanismo chiave dei modelli attuali