Articolo 20.3 Indice Codice W.I.L.A.I.

Embedding:
come l’AI rappresenta parole e concetti

I modelli di AI non lavorano direttamente con “parole” e “frasi”, ma con vettori numerici. Questa traduzione dal linguaggio ai numeri si chiama embedding. In questa scheda vedrai cosa sono gli embedding, perché sono fondamentali per far “percepire” somiglianze e differenze tra parole, frasi, documenti e come entrano in gioco nelle applicazioni che usi ogni giorno.

Che cosa sono gli embedding

Un embedding è una rappresentazione numerica di una parola, frase o oggetto in uno spazio a molte dimensioni. Invece di trattare “scuola”, “lezione” o “esame” come semplici sequenze di caratteri, il modello le mappa in vettori di numeri che catturano relazioni e somiglianze.

L’idea di base è semplice: elementi con significato simile devono avere vettori simili. Se gli embedding sono ben addestrati, parole come “insegnante” e “professore” risultano vicine tra loro, mentre “insegnante” e “motore” saranno lontane.

Gli embedding sono quindi il modo in cui l’AI costruisce una mappa concettuale del linguaggio: non ragiona in termini di definizioni, ma di posizioni e distanze in questo spazio numerico.

Come funzionano in pratica

In modo semplificato, la logica degli embedding può essere riassunta così:

  • Dal token al vettore: a ogni token (Art. 20.1) viene associato un vettore di numeri. Questo vettore non è casuale: viene appreso durante l’addestramento del modello.
  • Spazio delle relazioni: i vettori vivono in uno spazio a molte dimensioni. La distanza e l’angolo tra vettori misurano quanto due elementi sono “simili” per il modello.
  • Frasi e testi più lunghi: per rappresentare una frase o un documento, il modello combina i vettori dei singoli token (con medie pesate, attenzione, ecc.) creando un embedding dell’intera sequenza.
  • Operazioni utili: una volta che hai embedding, puoi fare ricerca semantica, clustering, raccomandazioni, classificazione: confronti numeri, non definizioni testuali.

Quando usi un sistema di ricerca “per significato” invece che per parole esatte, stai quasi sempre sfruttando embedding sotto al cofano.

Cosa ricordare in pratica

  • Gli embedding sono vettori numerici che rappresentano parole, frasi o documenti.
  • La distanza tra embedding esprime quanto due elementi sono simili per il modello.
  • Sono il motore di ricerca semantica, sistemi di raccomandazione e molte funzioni “intelligenti” delle app moderne.
  • Nel lavoro con l’AI, ragionare in termini di embedding ti aiuta a capire perché certi risultati “sembrano capire il senso” anche quando il testo non coincide parola per parola.

Embedding nel Codice W.I.L.A.I. e nel LAB

Nel Codice W.I.L.A.I. gli embedding sono il ponte tra la lettura token-per-token (Art. 20.1) e le capacità più avanzate dei modelli (Art. 20.4–20.6). Senza embedding, il modello vedrebbe solo una lista di codici; con gli embedding, quella lista diventa una struttura ricca di relazioni.

Nel W.I.L.A.I. LAB questo si traduce in esercizi molto concreti: ricerca di documenti “per significato”, confronti tra risposte simili, costruzione di piccole basi di conoscenza personali o di classe usando embedding dedicati.

Capire gli embedding ti mette in una posizione diversa: non stai solo “usando uno strumento che trova cose simili”, ma comprendi come e perché quella somiglianza viene calcolata e dove stanno i limiti (per esempio su linguaggi misti, ironia, riferimenti culturali).

Percorso consigliato

Per avere un quadro completo, collega questa scheda a Art. 20.1 – Token e tokenizzazione: come l’AI legge il testo e Art. 20.2 – LLM: i modelli linguistici alla base dell’AI moderna, che spiegano come il testo viene spezzato in token e come i modelli prevedono il prossimo token. Poi prosegui con Art. 20.4 – Transformer: l’architettura che ha rivoluzionato l’AI, dove vedrai come embedding e meccanismo di attenzione lavorano insieme. Per un ripasso visivo, puoi incrociare anche il glossario Art. 60.2 – Embedding.