Articolo 20.3 Indice Codice W.I.L.A.I.

Embedding:
come l’AI rappresenta parole e concetti

I modelli di AI non lavorano direttamente con “parole” e “frasi”, ma con vettori numerici. Questa traduzione dal linguaggio ai numeri si chiama embedding. In questa scheda vedrai cosa sono gli embedding, perché sono fondamentali per far “percepire” somiglianze e differenze tra parole, frasi, documenti e come entrano in gioco nelle applicazioni che usi ogni giorno.

Livello: intermedio Lettura: circa 7 minuti

Che cosa sono gli embedding

Un embedding è una rappresentazione numerica di una parola, frase o oggetto in uno spazio a molte dimensioni. Invece di trattare “scuola”, “lezione” o “esame” come semplici sequenze di caratteri, il modello le mappa in vettori di numeri che catturano relazioni e somiglianze.

L’idea di base è semplice: elementi con significato simile devono avere vettori simili. Se gli embedding sono ben addestrati, parole come “insegnante” e “professore” risultano vicine tra loro, mentre “insegnante” e “motore” saranno lontane.

Gli embedding sono quindi il modo in cui l’AI costruisce una mappa concettuale del linguaggio: non ragiona in termini di definizioni, ma di posizioni e distanze in questo spazio numerico.

Come funzionano in pratica

In modo semplificato, la logica degli embedding può essere riassunta così:

Dal token al vettore: a ogni token (Art. 20.1) viene associato un vettore di numeri. Questo vettore non è casuale: viene appreso durante l’addestramento del modello.
Spazio delle relazioni: i vettori vivono in uno spazio a molte dimensioni. La distanza e l’angolo tra vettori misurano quanto due elementi sono “simili” per il modello.
Frasi e testi più lunghi: per rappresentare una frase o un documento, il modello combina i vettori dei singoli token (con medie pesate, attenzione, ecc.) creando un embedding dell’intera sequenza.
Operazioni utili: una volta che hai embedding, puoi fare ricerca semantica, clustering, raccomandazioni, classificazione: confronti numeri, non definizioni testuali.

Quando usi un sistema di ricerca “per significato” invece che per parole esatte, stai quasi sempre sfruttando embedding sotto al cofano.

Cosa ricordare in pratica

Gli embedding sono vettori numerici che rappresentano parole, frasi o documenti.
La distanza tra embedding esprime quanto due elementi sono simili per il modello.
Sono il motore di ricerca semantica, sistemi di raccomandazione e molte funzioni “intelligenti” delle app moderne.
Nel lavoro con l’AI, ragionare in termini di embedding ti aiuta a capire perché certi risultati “sembrano capire il senso” anche quando il testo non coincide parola per parola.

Embedding nel Codice W.I.L.A.I. e nel LAB

Nel Codice W.I.L.A.I. gli embedding sono il ponte tra la lettura token-per-token (Art. 20.1) e le capacità più avanzate dei modelli (Art. 20.4–20.6). Senza embedding, il modello vedrebbe solo una lista di codici; con gli embedding, quella lista diventa una struttura ricca di relazioni.

Nel W.I.L.A.I. LAB questo si traduce in esercizi molto concreti: ricerca di documenti “per significato”, confronti tra risposte simili, costruzione di piccole basi di conoscenza personali o di classe usando embedding dedicati.

Capire gli embedding ti mette in una posizione diversa: non stai solo “usando uno strumento che trova cose simili”, ma comprendi come e perché quella somiglianza viene calcolata e dove stanno i limiti (per esempio su linguaggi misti, ironia, riferimenti culturali).

Percorso consigliato

Per avere un quadro completo, collega questa scheda a Art. 20.1 – Token e tokenizzazione: come l’AI legge il testo e Art. 20.2 – LLM: i modelli linguistici alla base dell’AI moderna, che spiegano come il testo viene spezzato in token e come i modelli prevedono il prossimo token. Poi prosegui con Art. 20.4 – Transformer: l’architettura che ha rivoluzionato l’AI, dove vedrai come embedding e meccanismo di attenzione lavorano insieme. Per un ripasso visivo, puoi incrociare anche il glossario Art. 60.2 – Embedding.

Embedding: come l’AI rappresenta parole e concetti

Che cosa sono gli embedding

Come funzionano in pratica

Cosa ricordare in pratica

Embedding nel Codice W.I.L.A.I. e nel LAB

Fonti e riferimenti

Embedding:
come l’AI rappresenta parole e concetti