Di Vincenzo Tiani
Nelle ultime settimane si sono succedute diverse notizie relative agli aggiornamenti delle privacy policy di alcune Big Tech sull’uso dei dati per allenare le AI collegate ai loro servizi. In certi casi si comunica quanto si stava già facendo, ovvero l’allenamento degli algoritmi con tutto ciò che c’è di pubblico online, in altri si fa una marcia indietro rispetto a questo approccio. Oggi vedremo i diversi approcci di Google, OpenAI e Zoom che di recente hanno apportato alcune modifiche che hanno aperto un dibattito sul tema.
A inizio luglio, riferiva Gizmodo, Google aggiornava la sua privacy policy per comunicare che avrebbe usato le informazioni che già usa per indicizzare il web, per allenare i suoi servizi di AI, in particolare Bard, Cloud AI e Google Translate. Peccato però che una privacy policy non è un documento che legittima per sé un determinato uso dei dati personali. Nella privacy policy, almeno nell’Unione europea del GDPR, si comunica in base a quale base giuridica si trattano i dati per un determinato fine. Questa base giuridica può essere il consenso dell’interessato, il contratto, in quanto necessario per poter offrire il servizio, o il legittimo interesse dell’azienda. In quest’ultimo caso sarà necessario però offrire la possibilità di fare opt-out (come per le e-mail di marketing in alcuni casi). Se queste tre opzioni si possono facilmente utilizzare per giustificare all’utente come l’azienda usa le informazioni che fornisce direttamente per usufruire dei suoi servizi, non è altrettanto facile giustificare il fatto che si usano dati presenti su siti diversi da quelli del mondo Google per migliorare i propri servizi.
Se per l’indicizzazione dei siti è possibile, per esempio, sempre fare opt-out e impedire che Google indicizzi il nostro sito sul suo motore di ricerca (si può fare in diversi modo ma bisogna avere un minimo di dimestichezza con il funzionamento di un sito internet), per il training dell’AI non sembra esserci questa opzione, o almeno non è citata nella privacy policy.
Come si vede dalle due versioni riportate di seguito, di dicembre 2022 e di luglio 2023, dall’uso dei dati trovati su siti terzi per i modelli linguistici si è passati all’addestramento dei modelli di AI.
2022: fonti accessibili pubblicamente
Ad esempio, potremmo raccogliere informazioni pubblicamente disponibili online o da altre fonti pubbliche per contribuire all’addestramento dei modelli linguistici di Google e alla creazione di funzionalità quali Google Traduttore. Oppure, se le informazioni della tua attività vengono visualizzate su un sito web, potremmo indicizzarle e visualizzarle sui servizi Google.
2023: fonti accessibili pubblicamente
Ad esempio, potremmo raccogliere informazioni pubblicamente disponibili online o da altre fonti pubbliche per contribuire all’addestramento dei modelli di AI di Google e alla creazione di prodotti e funzionalità quali Google Traduttore, Bard e funzionalità AI Cloud. Oppure, se le informazioni della tua attività vengono visualizzate su un sito web, potremmo indicizzarle e visualizzarle sui servizi Google.
È importante sottolineare che tale uso non è di per sé vietato e che non tutte le informazioni così ottenute sono dati personali, e dunque tutelate dal GDPR, ma sarebbe meglio avere qualche informazione supplementare su come avviene tale procedimento e con quali tutele visto che si tratta di siti terzi.
Continua a leggere su Wired Italia