Articolo 10.16 Indice Codice W.I.L.A.I.

Dati strutturati e non strutturati:
cosa cambia

Non tutti i dati parlano allo stesso modo ai sistemi di Intelligenza Artificiale. In questa scheda vedrai la differenza tra dati strutturati e non strutturati, con esempi concreti, e capirai perché questa distinzione influenza il tipo di modelli che puoi usare, il lavoro di preparazione necessario e i risultati che puoi attenderti.

Che cosa sono dati strutturati e non strutturati

I dati strutturati sono organizzati in una struttura fissa: tabelle con colonne definite (es. nome, data, importo), database relazionali, fogli di calcolo. Ogni riga segue lo stesso schema e può essere letta direttamente da algoritmi che “si aspettano” numeri e categorie ordinati.

I dati non strutturati non seguono uno schema rigido: testi liberi, e-mail, immagini, audio, video, conversazioni in chat. Contengono informazione ricca, ma è “sparsa” nel contenuto e va prima trasformata in una forma leggibile dai modelli.

Spesso si parla anche di dati semi-strutturati (es. JSON, log, XML): hanno tag e campi, ma non sempre un’unica tabella rigida. In questa scheda useremo “strutturati” e “non strutturati” come due poli per capire come cambia il lavoro dell’AI.

Perché questa differenza conta per l’AI

Per l’AI, il tipo di dato determina il tipo di modello e la quantità di lavoro di preparazione necessaria:

  • Sui dati strutturati si usano spesso modelli di machine learning “classici” (regressioni, alberi decisionali, gradient boosting) che lavorano su colonne numeriche o categoriche.
  • Sui dati non strutturati servono passi aggiuntivi: estrarre caratteristiche da testi, immagini o audio e trasformarle in numeri. Qui entrano in gioco reti neurali, modelli di linguaggio e reti convoluzionali.
  • La pulizia e preparazione cambia: nei dati strutturati lavori su valori mancanti, outlier, formati; nei dati non strutturati su rumore, ambiguità, linguaggio naturale, qualità delle immagini.
  • Cambia anche il tipo di domanda che puoi porre: previsioni numeriche e classificazioni precise con i primi, analisi di contenuto, riassunti, riconoscimento di pattern complessi con i secondi.

Capire che tipo di dati hai è il primo passo per scegliere modello, pipeline e aspettative di risultato in modo realistico.

Cosa ricordare in pratica

  • I dati strutturati vivono in tabelle e database; i non strutturati in testi, immagini, audio e video.
  • I primi sono più facili da usare con modelli tradizionali, i secondi richiedono passi extra di trasformazione e modelli più complessi.
  • La qualità del risultato dipende anche da quanto bene hai reso “leggibili” per il modello i dati non strutturati.
  • Prima di parlare di algoritmi, chiediti sempre: che tipo di dati abbiamo e in che forma sono disponibili oggi?

Come si collega all’ecosistema W.I.L.A.I.

Nel Codice W.I.L.A.I. questa scheda collega la base sui dati (Art. 10.4 e 10.5) ai tipi di modelli che incontrerai più avanti. Sapere se stai lavorando con dati strutturati o non strutturati ti evita aspettative sbagliate sul “tipo” di AI che ti serve.

Nel W.I.L.A.I. LAB questa distinzione diventa pratica: confronti esercizi su tabelle e fogli di calcolo con esercizi su testi, immagini o conversazioni, e vedi come cambiano la preparazione dei dati, le domande da porre al modello e il modo di valutare i risultati.

L’obiettivo non è etichettare teoricamente i dati, ma sviluppare un riflesso progettuale: ogni volta che pensi a un caso d’uso AI, parti dalla materia prima, cioè dal tipo di dati con cui lavorerai davvero.

Percorso consigliato

Per capire da dove nasce la qualità di un modello, puoi partire da Art. 10.4 – Dati: la base dell’intelligenza artificiale e da Art. 10.5 – Perché i dataset contano più degli algoritmi. Per vedere come i diversi tipi di dati influenzano il funzionamento dei modelli, prosegui con Art. 10.17 – Modelli generativi: come creano contenuti e Art. 10.18 – Modelli discriminativi: come classificano dati e segnali.