DATI SINTETICI

Fra le tecnologie più promettenti per il futuro troviamo sicuramente quella dei c.d. synthetic data, ossia informazioni non generate da eventi reali, bensì artificialmente. Figlia dell’IA, la tecnologia dei dati sintetici viene creata con l’ausilio di algoritmi ed utilizzata per testare il set di dati operativi, per convalidare i modelli matematici e per addestrare i dati sintetici per i modelli di machine learning.

I dati del mondo reale, oltre a essere difficili e costosi da acquisire, sono probabilmente vulnerabili agli errori umani, alle imprecisioni e alle distorsioni. Per tale motivo, le aziende stesse potrebbero riporre maggiore fiducia nella qualità, nella diversità e nell’equilibrio delle informazioni durante la generazione di dati sintetici. Inoltre, con la crescente domanda di dati di addestramento, i data scientist non hanno altra scelta che optare per i dati sintetici, in quanto possono essere adattati alle esigenze di formazione dei modelli di apprendimento automatico.

La tecnologia dei dati sintetici viene descritta come semplice ed efficace: creare dati falsi è abbastanza semplice quando si utilizzano gli algoritmi, ma è importante assicurarsi che i dati sintetici generati non rivelino alcun legame con i dati reali, che siano privi di errori e che non presentino ulteriori pregiudizi.

Si intuisce come l’utilizzo dei dati sintetici offra diversi e significativi vantaggi, tra i quali:

a) la loro personalizzazione, in quanto è possibile creare dati sintetici per soddisfare le esigenze specifiche di un’azienda;

b) l’efficienza dei costi, in quanto i dati sintetici sono un’opzione conveniente rispetto ai dati reali;

c) la loro produzione più veloce, in quanto i dati sintetici non sono catturati da eventi reali, essendo possibile generare e costruire un set di dati molto più velocemente con strumenti e hardware adeguati, e ciò significa che un enorme volume di dati artificiali può essere reso disponibile in un periodo di tempo più breve;

d) il mantenimento della privacy, in quanto i dati sintetici assomigliano soltanto ai dati reali, ma idealmente non contengono alcuna informazione tracciabile, rendendo i dati sintetici anonimi e adatti alla condivisione, senza compromettere la normativa.

I dati sintetici trovano applicazione in diverse situazioni. È noto che l’accesso ai dati reali può essere limitato a causa di problemi di privacy, e per tale ragione molti settori potrebbero trarre notevoli vantaggi dai dati sintetici – si pensi al settore dei servizi bancari e finanziari, quello sanitario e farmaceutico, automobilistico e manifatturiero, della robotica, della pubblicità su internet e del marketing digitale, intelligence e sicurezza.

Sebbene i dati sintetici offrano diversi vantaggi alle aziende con iniziative di data science, presentano anche alcuni limiti.

Per quanto riguarda l’affidabilità dei dati, infatti, qualsiasi modello di machine learning è valido quanto la sua fonte di dati. Ne consegue che la qualità dei dati sintetici è significativamente associata alla qualità dei dati di input e del modello utilizzato per generare i dati stessi. È importante, dunque, assicurarsi che non vi siano distorsioni nei dati di partenza, altrimenti queste potrebbero riflettersi nei dati sintetici. È bene ribadire che i dati sintetici possono solo assomigliare ai dati del mondo reale, ma non possono essere un duplicato esatto. Di conseguenza, i dati sintetici potrebbero non coprire alcune anomalie presenti nei dati reali.

L’obiettivo della creazione di dati sintetici è quello di imitare i dati del mondo reale, pertanto, il controllo manuale dei dati diventa fondamentale. Per gli insiemi di dati complessi generati automaticamente mediante algoritmi, è indispensabile garantire la correttezza dei dati prima di implementarli in modelli di apprendimento automatico. Per concludere, se i dati sintetici sostituiranno i dati reali non è ancora dato saperlo. Tuttavia, si comprende come i dati sintetici abbiano lo scopo di facilitare i data scientist nella realizzazione del nuovo e dell’innovativo e che, dunque, rappresentino una tecnologia che potrebbe funzionare nel prossimo futuro.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *