AI e Data Quality: perché la qualità dei dati è il vero motore dell’innovazione

Negli ultimi anni, l’adozione dell’Intelligenza Artificiale (AI) si è diffusa con una velocità esponenziale, trasformando il modo in cui le aziende operano, prendono decisioni e si relazionano con clienti e stakeholder. Stiamo assistendo ad un cambiamento che coinvolge quasi tutti i settori: dalla finanza alla sanità, dalla manifattura al retail.
Secondo il McKinsey Global Survey on AI (2025)[1], il 78% delle aziende ha già implementato almeno una soluzione basata su AI, e sono stati riscontrati benefici tangibili in termini di produttività, efficienza e innovazione. Anche il Stanford AI Index Report[2] evidenzia come gli investimenti in tecnologie AI abbiano superato i 252 miliardi di dollari a livello globale nel 2024. Lo studio rileva inoltre le modalità con cui le tecnologie AI stiano diventando sempre più efficienti, e al contempo anche economiche e accessibili.

Tuttavia, al centro di ogni modello predittivo, algoritmo di apprendimento o sistema decisionale automatico, c’è sempre un elemento chiave: il dato. I modelli di Intelligenza Artificiale non acquisiscono la conoscenza in modo intrinseco, ma la derivano analizzando grandi quantità di dati. E se i dati sono il carburante, la qualità dei dati è ciò che determina l’efficienza e l’affidabilità del motore. Tuttavia, secondo il 2025 OUTLOOK: Data Integrity Trends and Insights[3] del Drexel University LeBow College of Business, solo il 12% delle organizzazioni ritiene che i propri dati abbiano una qualità sufficiente per le applicazioni AI.

Per questo, mentre l’Intelligenza Artificiale evolve, diventa fondamentale sviluppare una cultura aziendale solida e trasversale sul tema del Data Management, non come competenza tecnica, ma come vero e proprio abilitatore strategico dell’innovazione. È solo così che le organizzazioni possono garantire modelli affidabili, utili e conformi alle normative.

In questo articolo esploriamo perché la gestione intelligente dei dati è una leva strategica per costruire un’innovazione tangibile.

Data Management: la base infrastrutturale per l’AI

La metodologia del Data Management Body of Knowledge (DMBoK) pubblicato da DAMA International fornisce gli strumenti per guidare un’organizzazione verso un governo dei dati che sia allineato con la strategia di business e non relegato al dipartimento IT. In particolare, il Data Management assume un ruolo centrale nei processi di MLOps (Machine Learning Operations), che gestiscono il ciclo di vita delle soluzioni AI, dallo sviluppo al rilascio e al monitoraggio.

Una corretta gestione dei dati è uno dei modi migliori per garantire che i modelli di AI siano robusti, equi, trasparenti e spiegabili. Ciò richiede il coinvolgimento di molteplici figure aziendali: data owner, data steward, data custodian, data engineer, data scientist, ciascuno con ruoli e responsabilità definiti nella filiera del dato, e un forte mandato della direzione aziendale.

Data Quality come fondamento dell’AI

L’efficacia di un algoritmo AI dipende anche dalla qualità dei dati su cui è stato addestrato e con i quali viene attivato. Un modello predittivo può avere un’architettura sofisticata, ma se i dati su cui lavora sono incompleti, duplicati, obsoleti o errati, i risultati saranno inutilizzabili, se non addirittura dannosi.

Nel caso delle applicazioni finanziarie, ad esempio, un modello di credit scoring allenato su dataset storici non corretti potrebbe penalizzare ingiustamente alcune categorie di clienti o introdurre bias discriminatori, con conseguenze anche legali e reputazionali.

Il principio guida è “data fit for purpose”: i dati devono essere adeguati allo scopo per cui vengono utilizzati, con livelli di qualità proporzionati alla criticità del processo che supportano. In questo si evidenzia un indispensabile coinvolgimento delle funzioni di business, le uniche che conoscono il valore del dato per le finalità dell’organizzazione (considerando quindi il dato come asset aziendale).

Cosa significa data quality e che ruolo ha nella data governance

Secondo DAMA, la qualità dei dati è definita come “the planning, implementation, and control of activities that apply techniques for collecting and handling data ensuring it addresses the needs of the enterprise and local consumers and is fit for use[4]. La qualità è misurata tramite metriche aggregate secondo alcune dimensioni principali[5], che valutano in modo oggettivo e operativo l’idoneità dei dati rispetto al loro scopo:

  • Accuratezza: il dato riflette la realtà con precisione.
  • Completezza: tutte le informazioni necessarie sono presenti.
  • Coerenza: assenza di contraddizioni tra fonti o sistemi.
  • Integrità: le relazioni tra dati connessi sono mantenute correttamente.
  • Unicità: non duplicazione inutile di record o entità.
  • Tempestività: aggiornamento del dato in tempo utile per lo scopo.
  • Attualità: il dato è ancora corretto al momento dell’uso.
  • Validità: rispetto di regole formali e semantiche.
  • Ragionevolezza: i valori assunti dal dato rientrano in quelli previsti o prevedibili

Questo approccio è uno dei pilastri della Data Governance, l’insieme delle politiche, processi e ruoli che garantiscono il corretto presidio del dato lungo tutto il suo ciclo di vita. Esso diviene un fattore abilitante per i progetti AI, in quanto il governo dei dati è l’espressione delle strategie di business dell’azienda, che determinano la modalità di gestione e utilizzo dei dati, ovvero la Data Strategy, presidiata dalla Data Governance.

Mettere in pratica questo, considerata la grande quantità di dati gestiti da una organizzazione, può sembrare molto invasivo e costoso: un concetto basilare espresso nel DMBoK[6], che invece lo rende realizzabile, è concentrare le attività di Data Quality, come in generale quelle di Data Governance, su quei dati identificati come i più critici, ovvero quelli essenziali per lo svolgimento delle funzioni aziendali (Master Data e Reference Data), oltre che ovviamente sui metadati.

Rischi della mancata gestione dei dati

Ignorare il Data Management significa esporsi a numerosi rischi: avere dataset errati, parziali o non rappresentativi produce modelli che discriminano, dashboard che forniscono risultati errati, automatismi che prendono decisioni incoerenti o incomprensibili.

Le conseguenze possono essere di varia natura:

  • Etiche: algoritmi che generano decisioni ingiuste, amplificando stereotipi o disparità.
  • Reputazionali: perdita di fiducia da parte dei clienti e degli stakeholder.
  • Legali: sanzioni per violazioni normative (come GDPR, AI Act o regolamentazioni di settore).
  • Economiche: inefficienze operative, errori strategici, mancati ricavi.

Come osserva Thomas C. Redman in un articolo pubblicato da Harvard Business Review[7], “AI non ha bisogno di fallire su scala globale per fare enormi danni — basta un singolo errore in un singolo contesto per compromettere individui, aziende e interi settori.” Gli elementi principali da considerare per evitare potenziali rischi sono:

Qualità = “right data” + “data is right”
Non basta che i dati siano accurati (“right data”), devono anche essere i dati giusti (“data is right”) per rispondere al problema specifico che si vuole affrontare. Non considerare uno dei due aspetti porta a modelli inaffidabili, non spiegabili e potenzialmente dannosi.

La qualità va perseguita alla fonte
Un errore comune è correggere il dato solo laddove viene rilevata la scarsa qualità: invece deve essere effettuata una ricerca della causa originaria e risolta la anomalia alla fonte in modo che non si propaghi più nel sistema, evitando ripetersi di errori e di costose attività remediation.

La responsabilità della data quality deve risiedere nei livelli direttivi
Non si può delegare la qualità dei dati solo agli operativi o ai data engineer. La responsabilità deve essere affidata a chi, a livello business, è il responsabile del progetto, in possesso delle giuste conoscenze e in grado di coordinare ruoli, requisiti e processi, con l’autorità necessaria per affrontare problemi complessi e trasversali.

Monitoraggio costante sui dati utilizzati in fase di esercizio
Le condizioni di mercato, i comportamenti degli utenti, le fonti dati stesse evolvono. I responsabili della qualità devono sorvegliare costantemente i dati forniti al modello in esercizio. Se essi divergono troppo da quelli su cui è stato addestrato il modello, il rischio di “model drift” o di predizioni scorrette aumenta drasticamente.

Del resto, anche l’AI Act[8] definisce modalità precise per la valutazione della qualità dei dati imponendo un approccio sistematico, end-to-end, sostenuto da strumenti, ruoli e formazione interna, con la indispensabile attenzione da parte della direzione aziendale, finalizzato a garantire lo sviluppo di soluzioni AI corrette (fair), affidabili (trustworthy) e spiegabili (xAI), riducendo i rischi e aumentando il valore per il business.

Va infine sottolineato come l’AI contribuisca ad elevare il livello di maturità della Data Quality[9] di una organizzazione, di fatto trasformando questa disciplina da pratica manuale e reattiva, in un processo proattivo, automatizzando attività quali real-time monitoring e cleansing, catalogazione dei metadati e determinazione del lineage, labelling dei dataset, individuazione e gestione degli outliers, ecc. Ma questa materia è degna di un approfondimento ad hoc.

L’approccio di SADAS

L’approccio di SADAS si fonda sul framework DMBoK del DAMA, utilizzato non solo per governare il dato, ma integrandolo anche nei processi di Machine Learning Operations (MLOps), garantendo qualità, trasparenza e robustezza nei modelli AI sviluppati. Centrale è la costruzione del Business Glossary, che favorisce una conoscenza condivisa dei concetti chiave per l’organizzazione, e la tracciabilità dei dati attraverso la Data Lineage, indispensabile per conoscere provenienza, trasformazioni e utilizzo dei dati.

SADAS considera la Data Governance un elemento strategico, applicando i principi del DMBoK per realizzare soluzioni AI fair, trustworthy e explainable, in linea con le indicazioni normative dell’AI Act e con le esigenze operative delle organizzazioni.

Un esempio concreto: lo Spoke 3 del progetto FAIR

Nel contesto dell’importanza crescente attribuita alla qualità del dato, lo Spoke 3 del progetto FAIR, coordinato dall’Università Federico II di Napoli, ha come obiettivo lo sviluppo di metodologie e strumenti per garantire l’affidabilità e la robustezza dell’AI.

Se da un lato il dato di qualità rappresenta la condizione necessaria per un suo utilizzo strategico, dall’altro è essenziale affrontare la realtà dei contesti applicativi, dove i dati possono risultare incompleti, rumorosi o soggetti a variazioni inattese. I modelli di AI, infatti, per funzionare correttamente richiedono coerenza tra i dati di addestramento e quelli di applicazione; tuttavia, devono anche essere progettati per rimanere resilienti e fornire output affidabili nonostante imperfezioni e anomalie nei dati reali.

Per questo, nello Spoke 3 si sperimentano, tra le altre cose, tecniche di addestramento basate su dati sintetici e aumentati, così da consentire ai modelli di apprendere anche da situazioni non usuali e acquisire maggiore robustezza e confidenza in fase di inferenza.

Conclusioni

L’Intelligenza Artificiale è uno strumento potente, ma la sua efficacia dipende anche dalla qualità e dalla gestione dei dati su cui si basa. Senza un’infrastruttura solida di Data Management, persino i modelli più avanzati rischiano di generare risultati distorti, inaffidabili, poco utili o addirittura dannosi.

È proprio qui che entra in gioco la Governance del dato: un insieme di pratiche, ruoli e processi che permette alle organizzazioni di mettere ordine, garantire conformità e favorire l’evoluzione tecnologica con responsabilità. I progetti più innovativi, come il parternariato di FAIR e i progetti dello Spoke 3, mostrano chiaramente come la qualità dei dati non sia un dettaglio tecnico: dati ben gestiti e una governance responsabile sono una condizione imprescindibile per garantire modelli predittivi utili, equi, spiegabili e realmente affidabili.

Allo stesso tempo, è fondamentale che i modelli siano progettati per essere resilienti, capaci cioè di mantenere affidabilità e robustezza anche quando i dati reali risultano incompleti, rumorosi o non perfetti. L’uso di dati sintetici e aumentati in fase di addestramento rappresenta una possibilità importante in questa direzione, poiché permette di preparare i sistemi ad affrontare situazioni non usuali che possono emergere in applicazione.

In questo scenario, la qualità dei dati non è solamente un concetto teorico: è una condizione abilitante per l’AI del futuro, in linea con le direttive dell’AI Act e le strategie da adottare a livello europeo.

A cura di Franco Ricotti
Certified Data Management Professional issued by DAMA International


[1] The State of AI, McKinsey Report
[2] Stanford Ai Index Report
[3] 2025 OUTLOOK: Data Integrity Trends and Insights
[4] DMBoK v2 rev. 2024 chap. 13 pag. 426
[5] DMBoK v2 rev. 2024 chap. 13, table 29
[6] DMBoK v2 rev. 2024 chap. 13, pag. 428 e successive
[7] Articolo Harvard Business Review
[8] AI ACT art. 10 (Data e Data Governance) e art. 17 (Data Quality System)
[9] “Organizations with GenAI solutions in production have much higher rates of maturity in data quality, cataloguing, and governance”, IDC Office of the CDO Survey, citato in questo articolo

Contattaci per avere informazioni e aggiornamenti sui nostri prodotti



*Accetto termini e condizioni di tutela della privacy
Desidero iscrivermi alla newsletter

* campo obbligatorio

Si richiedono indirizzi e-mail aziendali

Ricordati di controllare la casella di spam

Rimani aggiornato sulle novità Sadas! Iscriviti alla newsletter






*Accetto termini e condizioni di tutela della privacy

* campo obbligatorio

Rimani aggiornato sulle novità di Sadas! Iscriviti alla newsletter





*Accetto termini e condizioni di tutela della privacy

* campo obbligatorio