I chatbot non tengono segrete le tue conversazioni
Le conversazioni con i chatbot vengono usate per addestrare i modelli AI, spesso senza un consenso esplicito degli utenti.
I dati di minori finiscono nell’addestramento senza distinzioni sostanziali
Hai mai pensato che la tua conversazione con un chatbot fosse una faccenda privata, quasi intima? Un luogo dove confessare un dubbio medico, una crisi di coppia, un pensiero che non diresti a nessuno? Non lo è, e non lo è mai stata. Secondo un’analisi pubblicata da Stanford HAI, dietro le interfacce rassicuranti di Google, Microsoft, Amazon, OpenAI, Anthropic e Meta si nasconde una regola semplicissima: ogni parola che scrivi diventa, per impostazione predefinita, materiale di addestramento. Se poi a scrivere è un minore, la faccenda si complica ulteriormente, e non in meglio.
Il prezzo della confidenza
C’è qualcosa di comicamente contraddittorio nel modo in cui queste aziende si rivolgono agli utenti. Da un lato ti chiedono di fidarti, di aprirti, di trattare l’assistente come un confidente sempre disponibile che capisce, consiglia, ascolta. Dall’altro, quello stesso assistente registra tutto e lo rigira nella macchina che addestra la prossima versione di sé stesso. Non è un dettaglio tecnico marginale: è il modello di business. Uno studio citato da Stanford e condotto su sei tra i principali sviluppatori di intelligenza artificiale ha verificato che tutti e sei i produttori usano i dati delle chat degli utenti per addestrare e migliorare i propri modelli, in modo predefinito. Non è un’opzione che scegli attivamente: è la condizione di partenza da cui, forse, puoi provare a uscire.
Il caso più recente e più chiacchierato è quello di Anthropic, che lo scorso agosto ha silenziosamente cambiato i termini di servizio di Claude: le conversazioni degli utenti finiscono ora nell’addestramento del modello a meno che l’utente stesso non decida di disattivare l’opzione. L’azienda ha presentato la mossa come un aggiornamento dei termini di consumo pensato per “modelli più capaci e utili” e per rafforzare le difese contro usi dannosi come truffe e abusi. Parole rassicuranti, certo, ma che lasciano aperta una domanda ovvia: perché proprio ora, dopo anni in cui la stessa Anthropic si era costruita una reputazione da alternativa più cauta e “responsabile” rispetto ai concorrenti? E perché comunicarlo in modo così poco appariscente, quando si tratta di un cambiamento che riguarda milioni di conversazioni private?
Ma i termini di servizio, letti fino in fondo, nascondono dettagli ancora più inquietanti, che riguardano proprio gli utenti più vulnerabili.
Anche i bambini nel tritacarne
A prima vista, sembra già abbastanza grave che le conversazioni degli adulti vengano usate senza un consenso realmente attivo. Poi si scopre che il problema riguarda anche i minori, e la questione cambia peso. Lo studio sulle politiche dei dati dei minori condotto sulle sei aziende esaminate ha rilevato che quattro di esse includono, nei fatti, i dati delle chat dei bambini nell’addestramento dei propri modelli. Quattro su sei: non un’eccezione isolata, ma la norma di un settore che tratta le conversazioni dei più piccoli come una risorsa di addestramento tra le tante, senza distinzioni sostanziali rispetto a quelle degli adulti.
Le eccezioni, quando esistono, sono comunque parziali. Google, secondo quanto riportato da Stanford, ha annunciato quest’anno che addestrerà i propri modelli sui dati degli adolescenti solo se questi scelgono attivamente di aderire, un opt-in che almeno sulla carta restituisce un margine di controllo. Microsoft, dal canto suo, dichiara di raccogliere dati da utenti minori di 18 anni ma di non utilizzarli per costruire modelli linguistici, una linea di demarcazione che l’azienda stessa rivendica come garanzia. Sono le uniche due, tra le sei esaminate, a introdurre qualche forma di distinzione tra dati adulti e dati minorili. Le altre quattro, semplicemente, non fanno differenza: la chat di un tredicenne che chiede aiuto per i compiti o confida un disagio finisce nello stesso calderone di addestramento delle conversazioni di un adulto consenziente, ammesso che di consenso si possa davvero parlare.
Qui il problema smette di essere solo etico e diventa immediatamente normativo. In Europa, dati di minori trattati per finalità di profilazione o addestramento algoritmico senza un consenso informato e verificabile sollevano questioni dirette rispetto al GDPR, che impone tutele rafforzate proprio per i soggetti più vulnerabili. Ma le policy descritte da Stanford riguardano aziende globali, con basi utenti che attraversano giurisdizioni diverse e regolatori diversi, ciascuno con strumenti di enforcement limitati rispetto alla velocità con cui queste piattaforme si evolvono. Se i dati dei bambini sono diventati la nuova materia prima da estrarre, la domanda che resta senza risposta è chi, concretamente, dovrebbe proteggerli da questa estrazione.
Il consenso che non c’è
Come se non bastasse, il meccanismo del consenso è di fatto una finzione. Lo studio ripreso da Stanford è netto: nessuna delle sei aziende offre agli utenti consumer un vero modello di opt-in. Quello che viene chiamato “scelta” è quasi sempre un opt-out nascosto in fondo a impostazioni poco visibili, mentre la condizione predefinita resta sempre la stessa: i tuoi dati vengono usati, a meno che tu non faccia qualcosa per impedirlo. E alcuni sviluppatori, ricorda Stanford, conservano queste informazioni nei propri sistemi a tempo indeterminato.
Nel frattempo l’industria spinge nella direzione opposta a quella della prudenza: verso una personalizzazione sempre più profonda. Google ha presentato la personalizzazione di Gemini come una funzione capace di attingere alla cronologia di ricerca e alle altre app dell’utente per fornire risposte “contestualmente rilevanti” e adattate agli interessi individuali. Detto in altri termini: più dati raccogli, più il prodotto sembra intelligente, più l’utente è invogliato a fidarsi e a raccontarsi ancora di più. È un circolo che si autoalimenta, ed è proprio questo il punto: se il progresso dei modelli dipende dal continuare a estrarre conversazioni sempre più personali, quale incentivo reale hanno queste aziende a offrire un vero opt-in? E quando l’intelligenza artificiale impara dai segreti dei più piccoli, chi risponderà quando l’algoritmo sbaglia?