Token e tokenizzazione:
come l’AI legge il testo
Questa scheda spiega come i modelli di Intelligenza Artificiale non leggono frasi come gli esseri umani, ma sequenze di “token”: piccole unità in cui il testo viene spezzato prima di essere elaborato. Capire i token aiuta a leggere meglio limiti, costi e comportamento dei modelli linguistici.
Che cosa sono i “token” per l’AI
Quando un modello legge un testo, non lavora direttamente su lettere o parole intere: prima il testo viene trasformato in token, cioè unità più piccole (pezzi di parola, parole frequenti, simboli, segni).
Un token può essere una parola intera ("ciao"), una parte di parola ("intel" + "ligenza") o anche punteggiatura e spazi. L’insieme di tutti i token possibili forma il vocabolario del modello.
Per il modello, un testo è quindi una sequenza numerica di token. Capire questo passaggio è essenziale per leggere correttamente: lunghezza massima, costi e limiti delle risposte.
Come funziona la tokenizzazione in pratica
La tokenizzazione è il processo che converte il testo in token prima che il modello lo elabori. In modo semplificato il flusso è questo:
- il testo viene normalizzato (minuscole, spazi, caratteri speciali);
- viene spezzato in token usando un vocabolario predefinito;
- ogni token viene trasformato in un ID numerico che il modello può processare.
Modelli diversi possono tokenizzare lo stesso testo in modo diverso: alcune lingue o frasi risultano più “costose” in termini di numero di token. Questo incide sia sui limiti di lunghezza sia sui costi di utilizzo dei sistemi AI.
Cosa ricordare in pratica
- L’AI legge testi come sequenze di token, non come frasi intere.
- Il numero di token determina quanto puoi scrivere e quanto il modello può “tenere a mente” in una conversazione.
- Lingue, stili e formattazioni diverse generano numeri di token diversi.
- Prompt più chiari e sintetici riducono i token, i costi e il rischio di confusione.
Come si collega all’ecosistema W.I.L.A.I.
Nel Codice W.I.L.A.I. questa scheda apre il blocco dedicato a come funzionano i modelli. Collega i concetti dei Fondamenti dell’AI (blocco 10) al modo concreto in cui un modello linguistico legge e misura il testo.
Nel W.I.L.A.I. LAB la tokenizzazione diventa esperienza: impari a stimare i token di un prompt, a capire perché alcune richieste “sforano” il contesto e a progettare input più leggibili per i modelli.
Questa consapevolezza ti permette di usare l’AI in modo più efficiente: meno sprechi, meno frustrazione, più controllo su come il modello legge e risponde alle tue richieste.
Se non l’hai ancora fatto, puoi leggere prima Art. 10.4 – Dati: la base dell’intelligenza artificiale e Art. 10.6 – L’AI non è magia: è statistica avanzata, che ti danno il quadro di come i modelli lavorano sui dati. Poi, dopo questa scheda, prosegui con Art. 20.2 (in arrivo) per entrare più in profondità nei meccanismi interni dei modelli linguistici.