Articolo 20.12 Indice Codice W.I.L.A.I.

Come i modelli elaborano
testo e immagini

Molti modelli recenti possono leggere una pagina di testo, analizzare un grafico o “osservare” una foto nella stessa conversazione. Sembra magia, ma alla base ci sono sempre gli stessi ingredienti: token, embedding e architetture che trasformano dati diversi in rappresentazioni confrontabili. In questa scheda vedrai, in modo semplificato, come i modelli gestiscono testo e immagini, cosa significa “multimodale” e perché è importante capire che non stanno “vedendo” come un essere umano.

Livello: intermedio Lettura: circa 7 minuti

Che cosa significa elaborare testo e immagini

Per un modello, “elaborare” testo o immagini non significa leggere o vedere come un essere umano, ma trasformare i dati grezzi in sequenze di numeri (embedding) su cui applicare le proprie operazioni interne.

In modo molto semplificato:

il testo viene spezzato in token (Art. 20.1) e convertito in vettori che rappresentano parole e concetti (Art. 20.3);
un’immagine viene suddivisa in piccole porzioni (pixel o patch), poi anch’esse trasformate in vettori che catturano pattern visivi (forme, colori, texture);
in un modello multimodale, queste rappresentazioni vengono portate nello stesso “spazio” astratto, in modo che testo e immagini possano essere messi in relazione.

Il risultato non è una “comprensione visiva”, ma una mappa numerica su cui il modello può fare confronti, associazioni e previsioni.

Pipeline semplificata: dal testo e dai pixel agli embedding

Possiamo dividere il processo in alcuni passaggi chiave, diversi per testo e immagini ma coordinati nel modello:

Testo → token → embedding
Il testo del prompt, delle istruzioni e del contesto viene tokenizzato (Art. 20.1), trasformato in embedding (Art. 20.3) e passato attraverso i layer Transformer (Art. 20.4–20.5). Qui il modello calcola relazioni tra parole, frasi, concetti.
Immagine → patch → embedding visivi
L’immagine viene ridimensionata e suddivisa in patch. Ogni patch viene convertita in un vettore che riassume informazioni su colore, forma, posizione. Un “encoder visivo” (spesso un Transformer o una rete neurale specializzata) produce embedding per l’intera immagine e per le sue parti.
Allineamento tra testo e immagine
In un modello multimodale, il sistema impara a posizionare embedding testuali e visivi in uno spazio comune: descrizioni simili (“un cane che corre sull’erba”) finiscono vicine alle immagini corrispondenti.
Generazione guidata
Quando chiedi di descrivere un’immagine, il modello usa gli embedding visivi come contesto aggiuntivo nella generazione del testo (Art. 20.10). Quando chiedi di creare un’immagine, succede l’inverso: il testo guida la generazione di contenuti visivi.

Tutto avviene in forma numerica: il modello non “vede” un gatto, ma riconosce pattern di pixel che, nello spazio degli embedding, corrispondono ai pattern associati alla parola “gatto”.

Cosa ricordare in pratica

Testo e immagini vengono trasformati in embedding: rappresentazioni numeriche su cui il modello lavora.
Nei modelli multimodali, embedding testuali e visivi vengono allineati in uno spazio comune per collegare descrizioni e contenuti.
Quando chiedi all’AI di “guardare” un’immagine, stai in realtà fornendo dati visivi strutturati che arricchiscono il contesto di generazione.
Capire questo meccanismo aiuta a progettare meglio prompt che combinano testo e immagini (ad esempio, chiedendo descrizioni precise di grafici, slide, documenti scansionati).

Perché questo cambia l’esperienza nel W.I.L.A.I. LAB

Nel Codice W.I.L.A.I., la capacità di elaborare testo e immagini insieme è uno degli snodi che trasformano l’AI da “chat che risponde” a strumento di analisi multimodale: puoi far leggere all’AI una pagina di manuale, un’infografica, una foto di lavagna, un diagramma di processo.

Nel W.I.L.A.I. LAB questo si traduce in scenari molto concreti: proporre una foto di un esperimento di scienze e chiedere di trasformarla in una scheda didattica; analizzare una slide di presentazione e ottenere una versione testuale accessibile; partire da un disegno a mano e costruire insieme un prompt per generare una versione digitale più pulita.

Sapere che dietro c’è un modello che lavora su embedding testuali e visivi ti aiuta a chiedere cose realistiche (descrizione, confronto, riformulazione, estrazione di informazioni) e a evitare aspettative magiche (“capirà da solo il contesto emotivo di questa foto”). L’obiettivo non è stupirsi della tecnologia, ma imparare a usarla in modo lucido e responsabile nei tuoi casi reali.

Percorso consigliato

Per comprendere a fondo come i modelli elaborano testo e immagini, collega questa scheda a Art. 20.1 – Token e tokenizzazione: come l’AI legge il testo e Art. 20.3 – Embedding: come l’AI rappresenta parole e concetti, che spiegano la base testuale, e a Art. 20.10 – Come nasce una risposta: dal prompt all’output, che descrive l’intera pipeline di generazione. Prosegui poi con Art. 20.13 – Modelli multimodali: oltre il linguaggio, che entra nel dettaglio delle architetture, e collega infine questi concetti a Art. 60.18 – Multimodale nel glossario visivo, per avere una sintesi grafica dei collegamenti tra testo, immagini e spazio degli embedding.

Come i modelli elaborano testo e immagini

Che cosa significa elaborare testo e immagini

Pipeline semplificata: dal testo e dai pixel agli embedding

Cosa ricordare in pratica

Perché questo cambia l’esperienza nel W.I.L.A.I. LAB

Fonti e riferimenti

Come i modelli elaborano
testo e immagini