Articolo 20.12 Indice Codice W.I.L.A.I.

Come i modelli elaborano
testo e immagini

Molti modelli recenti possono leggere una pagina di testo, analizzare un grafico o “osservare” una foto nella stessa conversazione. Sembra magia, ma alla base ci sono sempre gli stessi ingredienti: token, embedding e architetture che trasformano dati diversi in rappresentazioni confrontabili. In questa scheda vedrai, in modo semplificato, come i modelli gestiscono testo e immagini, cosa significa “multimodale” e perché è importante capire che non stanno “vedendo” come un essere umano.

Che cosa significa elaborare testo e immagini

Per un modello, “elaborare” testo o immagini non significa leggere o vedere come un essere umano, ma trasformare i dati grezzi in sequenze di numeri (embedding) su cui applicare le proprie operazioni interne.

In modo molto semplificato:

  • il testo viene spezzato in token (Art. 20.1) e convertito in vettori che rappresentano parole e concetti (Art. 20.3);
  • un’immagine viene suddivisa in piccole porzioni (pixel o patch), poi anch’esse trasformate in vettori che catturano pattern visivi (forme, colori, texture);
  • in un modello multimodale, queste rappresentazioni vengono portate nello stesso “spazio” astratto, in modo che testo e immagini possano essere messi in relazione.

Il risultato non è una “comprensione visiva”, ma una mappa numerica su cui il modello può fare confronti, associazioni e previsioni.

Pipeline semplificata: dal testo e dai pixel agli embedding

Possiamo dividere il processo in alcuni passaggi chiave, diversi per testo e immagini ma coordinati nel modello:

  • Testo → token → embedding
    Il testo del prompt, delle istruzioni e del contesto viene tokenizzato (Art. 20.1), trasformato in embedding (Art. 20.3) e passato attraverso i layer Transformer (Art. 20.4–20.5). Qui il modello calcola relazioni tra parole, frasi, concetti.
  • Immagine → patch → embedding visivi
    L’immagine viene ridimensionata e suddivisa in patch. Ogni patch viene convertita in un vettore che riassume informazioni su colore, forma, posizione. Un “encoder visivo” (spesso un Transformer o una rete neurale specializzata) produce embedding per l’intera immagine e per le sue parti.
  • Allineamento tra testo e immagine
    In un modello multimodale, il sistema impara a posizionare embedding testuali e visivi in uno spazio comune: descrizioni simili (“un cane che corre sull’erba”) finiscono vicine alle immagini corrispondenti.
  • Generazione guidata
    Quando chiedi di descrivere un’immagine, il modello usa gli embedding visivi come contesto aggiuntivo nella generazione del testo (Art. 20.10). Quando chiedi di creare un’immagine, succede l’inverso: il testo guida la generazione di contenuti visivi.

Tutto avviene in forma numerica: il modello non “vede” un gatto, ma riconosce pattern di pixel che, nello spazio degli embedding, corrispondono ai pattern associati alla parola “gatto”.

Cosa ricordare in pratica

  • Testo e immagini vengono trasformati in embedding: rappresentazioni numeriche su cui il modello lavora.
  • Nei modelli multimodali, embedding testuali e visivi vengono allineati in uno spazio comune per collegare descrizioni e contenuti.
  • Quando chiedi all’AI di “guardare” un’immagine, stai in realtà fornendo dati visivi strutturati che arricchiscono il contesto di generazione.
  • Capire questo meccanismo aiuta a progettare meglio prompt che combinano testo e immagini (ad esempio, chiedendo descrizioni precise di grafici, slide, documenti scansionati).

Perché questo cambia l’esperienza nel W.I.L.A.I. LAB

Nel Codice W.I.L.A.I., la capacità di elaborare testo e immagini insieme è uno degli snodi che trasformano l’AI da “chat che risponde” a strumento di analisi multimodale: puoi far leggere all’AI una pagina di manuale, un’infografica, una foto di lavagna, un diagramma di processo.

Nel W.I.L.A.I. LAB questo si traduce in scenari molto concreti: proporre una foto di un esperimento di scienze e chiedere di trasformarla in una scheda didattica; analizzare una slide di presentazione e ottenere una versione testuale accessibile; partire da un disegno a mano e costruire insieme un prompt per generare una versione digitale più pulita.

Sapere che dietro c’è un modello che lavora su embedding testuali e visivi ti aiuta a chiedere cose realistiche (descrizione, confronto, riformulazione, estrazione di informazioni) e a evitare aspettative magiche (“capirà da solo il contesto emotivo di questa foto”). L’obiettivo non è stupirsi della tecnologia, ma imparare a usarla in modo lucido e responsabile nei tuoi casi reali.

Percorso consigliato

Per comprendere a fondo come i modelli elaborano testo e immagini, collega questa scheda a Art. 20.1 – Token e tokenizzazione: come l’AI legge il testo e Art. 20.3 – Embedding: come l’AI rappresenta parole e concetti, che spiegano la base testuale, e a Art. 20.10 – Come nasce una risposta: dal prompt all’output, che descrive l’intera pipeline di generazione. Prosegui poi con Art. 20.13 – Modelli multimodali: oltre il linguaggio, che entra nel dettaglio delle architetture, e collega infine questi concetti a Art. 60.18 – Multimodale nel glossario visivo, per avere una sintesi grafica dei collegamenti tra testo, immagini e spazio degli embedding.