Embedding:
come l’AI rappresenta parole e concetti
I modelli di AI non lavorano direttamente con “parole” e “frasi”, ma con vettori numerici. Questa traduzione dal linguaggio ai numeri si chiama embedding. In questa scheda vedrai cosa sono gli embedding, perché sono fondamentali per far “percepire” somiglianze e differenze tra parole, frasi, documenti e come entrano in gioco nelle applicazioni che usi ogni giorno.
Che cosa sono gli embedding
Un embedding è una rappresentazione numerica di una parola, frase o oggetto in uno spazio a molte dimensioni. Invece di trattare “scuola”, “lezione” o “esame” come semplici sequenze di caratteri, il modello le mappa in vettori di numeri che catturano relazioni e somiglianze.
L’idea di base è semplice: elementi con significato simile devono avere vettori simili. Se gli embedding sono ben addestrati, parole come “insegnante” e “professore” risultano vicine tra loro, mentre “insegnante” e “motore” saranno lontane.
Gli embedding sono quindi il modo in cui l’AI costruisce una mappa concettuale del linguaggio: non ragiona in termini di definizioni, ma di posizioni e distanze in questo spazio numerico.
Come funzionano in pratica
In modo semplificato, la logica degli embedding può essere riassunta così:
- Dal token al vettore: a ogni token (Art. 20.1) viene associato un vettore di numeri. Questo vettore non è casuale: viene appreso durante l’addestramento del modello.
- Spazio delle relazioni: i vettori vivono in uno spazio a molte dimensioni. La distanza e l’angolo tra vettori misurano quanto due elementi sono “simili” per il modello.
- Frasi e testi più lunghi: per rappresentare una frase o un documento, il modello combina i vettori dei singoli token (con medie pesate, attenzione, ecc.) creando un embedding dell’intera sequenza.
- Operazioni utili: una volta che hai embedding, puoi fare ricerca semantica, clustering, raccomandazioni, classificazione: confronti numeri, non definizioni testuali.
Quando usi un sistema di ricerca “per significato” invece che per parole esatte, stai quasi sempre sfruttando embedding sotto al cofano.
Cosa ricordare in pratica
- Gli embedding sono vettori numerici che rappresentano parole, frasi o documenti.
- La distanza tra embedding esprime quanto due elementi sono simili per il modello.
- Sono il motore di ricerca semantica, sistemi di raccomandazione e molte funzioni “intelligenti” delle app moderne.
- Nel lavoro con l’AI, ragionare in termini di embedding ti aiuta a capire perché certi risultati “sembrano capire il senso” anche quando il testo non coincide parola per parola.
Embedding nel Codice W.I.L.A.I. e nel LAB
Nel Codice W.I.L.A.I. gli embedding sono il ponte tra la lettura token-per-token (Art. 20.1) e le capacità più avanzate dei modelli (Art. 20.4–20.6). Senza embedding, il modello vedrebbe solo una lista di codici; con gli embedding, quella lista diventa una struttura ricca di relazioni.
Nel W.I.L.A.I. LAB questo si traduce in esercizi molto concreti: ricerca di documenti “per significato”, confronti tra risposte simili, costruzione di piccole basi di conoscenza personali o di classe usando embedding dedicati.
Capire gli embedding ti mette in una posizione diversa: non stai solo “usando uno strumento che trova cose simili”, ma comprendi come e perché quella somiglianza viene calcolata e dove stanno i limiti (per esempio su linguaggi misti, ironia, riferimenti culturali).
Per avere un quadro completo, collega questa scheda a Art. 20.1 – Token e tokenizzazione: come l’AI legge il testo e Art. 20.2 – LLM: i modelli linguistici alla base dell’AI moderna, che spiegano come il testo viene spezzato in token e come i modelli prevedono il prossimo token. Poi prosegui con Art. 20.4 – Transformer: l’architettura che ha rivoluzionato l’AI, dove vedrai come embedding e meccanismo di attenzione lavorano insieme. Per un ripasso visivo, puoi incrociare anche il glossario Art. 60.2 – Embedding.