Finalmente recepite in italiano le quattro parti della norma che si occupa di qualità dei dati per le analytics e il machine learning.
Da poco sul catalogo UNI è disponibile il recepimento in italiano delle quattro parti della UNI CEI EN ISO/IEC 5259 – Intelligenza artificiale – Qualità dei dati per l’analisi e l’apprendimento automatico (ML). La norma riguarda la qualità dei dati per le analytics e per l’apprendimento automatico – conosciuto anche come machine learning (ML) – e fornisce gli strumenti, i modelli e le linee guida per garantire che i dati usati nei sistemi di intelligenza artificiale siano affidabili, trasparenti e appropriati al loro scopo.
Nel contesto odierno in cui le decisioni, i modelli AI e le normative richiedono sempre più trasparenza, accuratezza e responsabilità, gli standard possono aiutare aziende, istituzioni e professionisti a ridurre rischi, aumentare l’affidabilità e migliorare la qualità complessiva dei sistemi basati sui dati.
Entrando nel dettaglio della UNI CEI EN ISO/IEC 5259, la prima parte – denominata “Panoramica, terminologia ed esempi” – definisce i concetti fondamentali, la terminologia standard e offre anche degli esempi a supporto della comprensione delle successive parti. Stabilendo un linguaggio condiviso e un quadro teorico per tutte le parti, l’adozione di questa norma da parte delle organizzazioni aiuterà ad evitare fraintendimenti, favorendo così l’interoperabilità e la comparabilità dei dati.
Questa prima parte della norma si rivolge non solo alle organizzazioni – aziende, enti pubblici, laboratori, startup – che utilizzano dati per le analytics o per l’apprendimento automatico, ma è utile anche ai policy makers, a chi progetta regolamenti oppure sistemi di governance dei dati. Dal momento che offre solide basi, questa norma può essere d’aiuto anche a chi si occupa di formazione e a chi vuole introdurre queste tematiche all’interno delle aziende.
La seconda parte della UNI CEI EN ISO/IEC 5259 invece si occupa della misurazione della qualità dei dati. Partendo dalla ISO/IEC 25012:2018, questa parte della norma definisce un modello di qualità dei dati proponendo nuove caratteristiche per i dataset per valutare la qualità dei dati – in input oppure in output – sia che questi siano acquisiti che utilizzati in contesti di analisi (analytics) che di apprendimento (machine learning). In questo modo la UNI CEI EN ISO/IEC 5259-2 offre gli strumenti per valutare e monitorare la qualità dei dati nel tempo e per riconoscere in quale sede e in che modo i dati possono avere problemi di varia natura – accuratezza, coerenza, completezza, credibilità, etc.
La norma aiuta anche a controllare le problematiche che possono emergere all’interno dei dataset, come rappresentatività, provenienza, etc. Infatti, l’adozione di criteri che misurano la qualità dei dati aiuta a prevenire discriminazioni, come i bias, ed errori, creando così una condizione di costante miglioramento. L’utenza a cui si rivolge la seconda parte della UNI CEI EN ISO/IEC 5259 è di natura più tecnica: data engineers o data scientist, ma anche chi si occupa della qualità dei dati, chi segue attività di auditing, reportistica o benchmarking. Può essere di supporto anche per chi fornisce i dati o per le aziende che erogano servizi AI o analitici.
La UNI CEI EN ISO/IEC 5259-3 stabilisce i requisiti e le linee guida per la gestione della qualità dei dati. Nello specifico, si occupa dell’intero ciclo di vita dei dati usati per le analytics e per il machine learning, aiutando le organizzazioni a strutturare un sistema di gestione della qualità del dato, conosciuto anche come Data Quality Management System (DQMS), che sia flessibile, verificabile e allineato ai propri obiettivi. Grazie a questo standard la qualità dei dati può diventare parte integrante della governance e della cultura aziendale.
Vista la natura più specifica, la UNI CEI EN ISO/IEC 5259-3 si rivolge a chi gestisce i servizi IT e i dati, ma anche le persone che monitorano le performance delle organizzazioni (auditing), chi si occupa di data governance, agli enti regolatori e in tutte quei settori regolamentati dove la responsabilità e la trasparenza del trattamento sono particolarmente critiche (salute, pubblica amministrazione, etc.).
Infine, la UNI CEI EN ISO/IEC 5259-4 dal titolo “Quadro di riferimento per il processo di qualità dei dati” propone un framework di processo per la gestione operativa della qualità dei dati. Copre anche le attività di data labeling, di valutazione e di gestione del ciclo di vita dei dati e si può applicare a diverse tipologie di machine learning – supervisionato, non supervisionato, semi-supervisionato, reinforcement learning o apprendimento per rinforzo.
Questo standard fornisce gli strumenti per mitigare i rischi dell’apprendimento (errori, bias, etc.) fornendo buone pratiche da implementare. Si rivolge a chi gestisce la pipeline del ML e a tutta la filiera dei dati (validazione, etichettatura, etc.), ma anche a chi si occupa di ricerca e a tutte le organizzazioni che vogliono garantire che i loro processi di sviluppo AI siano robusti, responsabili e verificabili.
In sintesi, la serie UNI CEI EN ISO/IEC 5259 si rivolge a chi vuole adottare un approccio responsabile e sistematico alla qualità dei dati negli ambiti dell’intelligenza artificiale e degli analytics. Ogni sua parte identifica e tratta un aspetto in particolare:
- Nella prima parte si identificano le basi con le terminologia ed esempi
- Nella seconda invece si parla di misure concrete per la misurazione
- Nella terza parte viene trattata la gestione della qualità di essi
- Nella quarta ed ultima parte si entra nel dettaglio dei processi operativi
Il recepimento in italiano di questa norma dimostra – ancora una volta – l’attenzione che UNI e in particolare l’Ente federato UNINFO che si occupa delle tecnologie informatiche e le loro applicazioni rivolgono alle tematiche di attualità e innovazione. L’ intelligenza artificiale sta toccando e toccherà sempre di più molti aspetti del quotidiano, sia delle persone che delle organizzazioni. Poter contare su uno standard condiviso può aiutare la collettività a fidarsi maggiormente di questo nuovo paradigma.



