In un’era caratterizzata dalla sempre maggiore digitalizzazione delle informazioni e dei processi, i dati sono diventati un bene prezioso, se non fondamentale. Grazie ad essi, infatti, si alimenta l’innovazione, la ricerca e lo sviluppo in ogni settore economico e sociale.
Tuttavia, l’aumento della mole di informazioni ha portato e porta con sé sfide significative in relazione alla tutela del diritto alla privacy e alla necessità di garantire un utilizzo sicuro e corretto dei dati personali. Una soluzione promettente a queste implicazioni critiche tra diritto, progresso ed etica è rappresentata dai cosiddetti “dati sintetici” o “artificiali”. I dati sintetici sono generati da algoritmi informatici che imitano il comportamento dei dati reali, ma senza contenere indicazioni personali o “particolari”. Di conseguenza, i dati sintetici sostituiscono quelli più sensibili, consentendo alle organizzazioni di condurre attività di addestramento, test e validazione senza violare le norme sulla privacy. Ad esempio, nel settore sanitario, i dati sintetici possono essere utilizzati per analizzare le informazioni senza rivelare l’identità delle persone coinvolte, permettendo ai ricercatori di perseguire il loro fine, garantendo allo stesso tempo la riservatezza degli individui.
I vantaggi che questa categoria di dati può assicurare sono molteplici. Come già anticipato, a fronte della sempre maggior attenzione dei legislatori nazionali e comunitari che hanno portato all’emanazione di importanti regolamenti di legge in materia di trattamento e protezione dei dati personali, come il Regolamento Generale sulla Protezione dei Dati (GDPR), i dati sintetici offrono un modo per rispettare i requisiti normativi senza dover condividere dati reali. Infatti, questo tipo di dato non rientra nella definizione di “dati personali”, ai sensi dell’Art. 4 GDPR, poiché non collegabile a persone fisiche esistenti. Inoltre, essi possono essere particolarmente utili nel campo dello sviluppo e del testing di applicazioni, software o altri strumenti informatici, perché consentono ai programmatori di creare scenari realistici e complessi per testare le applicazioni con dati anonimizzati, evitando qualsiasi rischio di ingerenza nella sfera personale. In aggiunta, la generazione di dati sintetici può risultare meno costosa rispetto alla raccolta di dati reali e si riducono inoltre anche i costi legati alle licenze e alle autorizzazioni, data la possibilità di condivisione senza restrizioni. I dati sintetici permettono di creare dataset standardizzati e riproducibili per la ricerca e lo sviluppo, permettendo coerenza e comparabilità dei risultati.
Sebbene sembrino esserci numerosi vantaggi, le sfide da affrontare sono molteplici. Bisogna infatti assicurarsi che i dati sintetici siano rappresentativi del mondo concreto e ciò può essere un compito assai complicato, data soprattutto la complessità dei dati reali da replicare. Inoltre, la qualità dei dati dipende dalla precisione degli algoritmi utilizzati per generarli; pertanto, dati sintetici di scarsa qualità potrebbero produrre risultati inattendibili. Per quanto riguarda poi la disciplina sul trattamento dei dati personali, una delle più importanti sfide che si presenta a tutti gli operatori economici è quella di trovare un giusto equilibrio tra protezione della privacy e utilità dei dati sintetici, poiché dati troppo anonimizzati potrebbero perdere di valore per analisi significative. Allo stesso tempo, se i dati reali utilizzati per addestrare gli algoritmi di sintesi sono inquinati da bias o disuguaglianze, i dati sintetici potrebbero ereditare queste stesse problematiche, come già messo in evidenza dal Garante europeo della protezione dei dati personali .
Come è evidente quindi, i dati sintetici rappresentano una risorsa per favorire l’innovazione e la ricerca in molteplici settori, consentendo al contempo di preservare la privacy e la sicurezza dei dati personali. Tuttavia, è importante adottare pratiche di generazione responsabile e garantire che i dati sintetici siano accurati, rappresentativi della realtà e utili per le finalità previste. In questo modo, è possibile sfruttare al meglio il loro potenziale per il progresso tecnologico e scientifico, senza compromettere la fiducia del pubblico nella gestione dei dati personali.
Fonti: Federprivacy, Garante europeo della protezione dei dati, Altalex, La Repubblica