Perché dovremmo preoccuparci degli accordi tra Wikipedia e le aziende di intelligenza artificiale?

Quando un gigante tecnologico inizia a parlare di 'ecosistema sostenibile' e 'valori condivisi', è il momento di essere cauti riguardo alla gestione dei nostri dati. L'apertura dei dati di Wikipedia alle aziende di IA solleva preoccupazioni sull'uso del lavoro volontario per addestrare chatbot a pagamento.

Cosa comporta l'accordo tra Wikimedia Foundation e le aziende di IA?

La Wikimedia Foundation, tramite Wikimedia Enterprise, ha stretto accordi commerciali per fornire dati a Microsoft, Mistral AI e Perplexity. Questo permette alle aziende di IA di addestrare i loro modelli con i dati di Wikipedia in modo strutturato, a differenza del precedente scraping non autorizzato.

Qual è la motivazione ufficiale dietro questi accordi?

La Wikimedia Foundation afferma che la necessità di entrate per sostenere l'infrastruttura di Wikipedia è alla base di questi accordi. I fondi dovrebbero contribuire a mantenere Wikipedia libera e indipendente.

Qual è il ruolo dei volontari in questo nuovo modello di business?

Circa 250.000 editori volontari contribuiscono gratuitamente a Wikipedia, spinti dall'ideale della conoscenza libera. Le società di IA utilizzano questi dati per migliorare i loro modelli linguistici, creando un cortocircuito etico.

Quali sono le preoccupazioni sulla privacy legate a questi accordi?

I dati di Wikipedia includono milioni di biografie di persone viventi. Quando questi dati vengono utilizzati per addestrare modelli di IA, gli errori o le informazioni obsolete diventano difficili da correggere. Ciò solleva problemi relativi al diritto alla rettifica e all'oblio sancito dal GDPR.

Come potrebbe questo influenzare le politiche editoriali di Wikipedia?

Se le Big Tech diventano i principali finanziatori di Wikipedia, potrebbero indirettamente influenzare le politiche editoriali. C'è il rischio che le voci vengano strutturate per essere facilmente digerite dalle macchine, piuttosto che per essere lette dagli esseri umani.

Google ha già stretto accordi simili con Wikipedia in passato?

Sì, nel 2022, Google tramite Alphabet ha stretto un accordo con Wikipedia, segnando l'inizio della commercializzazione dei dati 'no-profit'.

Perplexity 6 months ago

Wikipedia compie 25 anni e vende i suoi dati alle Big Tech: un accordo faustiano?

Wikipedia compie 25 anni e apre i suoi dati all’IA, un accordo che solleva interrogativi sul futuro della conoscenza libera e sulla privacy degli utenti.

Se c’è una cosa che abbiamo imparato in questi venticinque anni di navigazione online, è che quando un gigante tecnologico inizia a parlare di “ecosistema sostenibile” e “valori condivisi”, è il momento esatto in cui dovremmo iniziare a preoccuparci per i nostri dati.

Oggi, 15 gennaio 2026, Wikipedia spegne venticinque candeline.

Un quarto di secolo passato a costruire la più grande enciclopedia della storia umana, un monumento alla collaborazione gratuita e disinteressata. Eppure, la festa di compleanno ha un retrogusto decisamente amaro, o forse metallico: quello dei server di Microsoft, Mistral AI e Perplexity che brindano all’accordo del secolo.

La notizia, infiocchettata con la consueta retorica aziendale che oscilla tra il messianico e il burocratico, è che la Wikimedia Foundation ha ufficialmente aperto i rubinetti dei propri dati alle più grandi aziende di intelligenza artificiale del mondo. Non si tratta più di scraping “selvaggio” – quella pratica un po’ piratesca con cui le AI hanno addestrato i loro modelli rubacchiando dati qua e là – ma di un accordo commerciale strutturato tramite Wikimedia Enterprise.

In sostanza, il lavoro di milioni di volontari che hanno speso notti insonni a correggere voci bibliografiche e verificare fonti viene ora impacchettato e venduto all’ingrosso per addestrare chatbot che poi, ironia della sorte, ci rivenderanno quelle stesse informazioni sotto forma di abbonamenti premium.

Tim Frank, Corporate Vice President di Microsoft, non ha usato mezzi termini nel descrivere l’entusiasmo di Redmond per questo accesso privilegiato.

L’accesso a informazioni di alta qualità e affidabili è al centro del nostro modo di pensare al futuro dell’IA in Microsoft. La nostra partnership con Wikimedia aiuta a garantire che le persone, e gli agenti che lavorano per loro conto, possano attingere a conoscenze che comprendono e di cui si fidano. Insieme, stiamo contribuendo a creare un ecosistema di contenuti sostenibile per l’internet dell’IA, in cui i contributori sono valorizzati, le comunità sono rispettate e l’IA responsabile espande le opportunità per tutti.

— Tim Frank, Corporate Vice President presso Microsoft

Sembra tutto bellissimo, vero?

“Contributori valorizzati”, “IA responsabile”. Ma se grattiamo via la patina di marketing, cosa resta? Resta il fatto che la Wikimedia Foundation ha annunciato queste nuove partnership proprio in occasione del 25esimo anniversario di Wikipedia, sottolineando la necessità di entrate per sostenere l’infrastruttura.

Ma la domanda che nessuno sembra voler fare ad alta voce è: chi sta davvero pagando il prezzo di questa “sostenibilità”?

Il paradosso del volontario e il profitto dell’algoritmo

Il modello di business che si sta delineando è affascinante nella sua perversione. Da una parte abbiamo una massa critica di circa 250.000 editori volontari sparsi per il globo che lavorano gratis, spinti dall’ideale romantico della conoscenza libera.

Dall’altra, abbiamo le società più ricche del pianeta che hanno disperatamente bisogno di dati puliti, verificati e strutturati per evitare che le loro intelligenze artificiali inizino a delirare o a inventare fatti storici (le famigerate “allucinazioni”).

Wikipedia è l’ancora di salvezza per l’industria dell’AI. Senza la supervisione umana e la struttura enciclopedica di Wikipedia, i modelli linguistici (LLM) perderebbero una fetta enorme della loro capacità di generare testo coerente e fattuale. Lane Becker, presidente di Wikimedia Enterprise, ha ammesso candidamente che il passaggio non è stato immediato.

Ci è voluto un po’ di tempo per capire il giusto insieme di caratteristiche e funzionalità da offrire se vogliamo spostare queste aziende dalla nostra piattaforma gratuita a una piattaforma commerciale… ma tutti i nostri partner Big Tech vedono davvero la necessità di impegnarsi a sostenere il lavoro di Wikipedia.

— Lane Becker, Presidente di Wikimedia Enterprise

“Spostare le aziende dalla piattaforma gratuita”. Tradotto: prima prendevano i dati gratis intasando i server, ora pagano per un flusso dati (API) più veloce e stabile. È una logica ineccepibile dal punto di vista aziendale, ma crea un cortocircuito etico non indifferente.

I volontari stanno lavorando per l’umanità o per migliorare il margine operativo lordo di Satya Nadella?

E qui entriamo in un terreno ancora più scivoloso, quello della privacy e della protezione dei dati personali, un aspetto che viene sistematicamente ignorato in questi annunci trionfali.

La privacy nel tritacarne delle Big Tech

Quando parliamo di “conoscenza”, tendiamo a pensare a date di battaglie o formule chimiche. Ma Wikipedia contiene milioni di biografie di persone viventi. Informazioni che, seppur pubbliche, sono state raccolte in un contesto specifico: quello di un’enciclopedia modificabile, trasparente e, soprattutto, correggibile.

Nel momento in cui questi dati vengono ingeriti dai “modelli fondativi” di Microsoft, Mistral o Perplexity, la loro natura cambia radicalmente. Un errore su una pagina Wikipedia può essere corretto da un volontario in pochi secondi.

Un errore, o un dato personale obsoleto, assorbito nei parametri di una rete neurale diventa quasi indelebile. È il problema della “scatola nera”: una volta che l’AI ha imparato che Tizio è stato indagato per frode (anche se poi è stato assolto e la voce Wikipedia aggiornata), come facciamo a garantire che l’AI “dimentichi” quella vecchia versione dei fatti?

Il GDPR (Regolamento Generale sulla Protezione dei Dati) sancisce il diritto alla rettifica e all’oblio. Ma come si applica questo diritto a un modello di linguaggio che ha “bevuto” l’intero database di Wikipedia tramite un feed aziendale ad alta velocità?

Le Big Tech non hanno ancora una risposta convincente a questo problema, eppure continuano ad accumulare dati.

Inoltre, c’è un precedente importante che non va dimenticato. Già nel 2022, Google tramite la sua controllante Alphabet aveva stretto un accordo con Wikipedia, segnando di fatto l’inizio di questa era di commercializzazione dei dati “no-profit”. Quello che oggi viene venduto come una novità per la sostenibilità è in realtà il consolidamento di una tendenza: la trasformazione di Wikipedia da biblioteca pubblica a fornitore di materia prima per l’industria estrattiva dei dati.

Chi controlla il narratore?

C’è un ultimo aspetto inquietante in questa liaison tra Wikimedia e la Silicon Valley. Se le Big Tech diventano i principali finanziatori dell’infrastruttura di Wikipedia, quanto tempo passerà prima che inizino a influenzarne le politiche editoriali? Non necessariamente in modo diretto o coercitivo, ma attraverso quella “soft power” che il denaro esercita sempre.

Immaginiamo uno scenario non troppo distopico: un modello AI di Microsoft, addestrato sui dati di Wikipedia, inizia a fornire risposte che citano Wikipedia come fonte di verità assoluta. Questo crea un loop di feedback in cui l’AI rafforza la centralità di Wikipedia, e Wikipedia deve mantenere standard che siano “AI-friendly”.

Il rischio è che le voci vengano scritte o strutturate non più per essere lette da esseri umani curiosi, ma per essere facilmente digerite da macchine affamate di token.

Siamo di fronte a una trasformazione antropologica della conoscenza.

Da bene comune curato da esseri umani per esseri umani, a dataset ottimizzato per l’addestramento di macchine che simuleranno l’interazione umana.

Mentre festeggiamo i 25 anni di questo “miracolo digitale”, dovremmo chiederci se stiamo assistendo alla sua maturità o alla sua vendita al miglior offerente. La fondazione ci assicura che i fondi serviranno a mantenere Wikipedia libera e indipendente. Ma in un mondo dove i dati sono il nuovo petrolio, è davvero possibile accettare i soldi delle compagnie petrolifere senza sporcarsi le mani?

E soprattutto, quando chiederemo alla prossima versione di ChatGPT chi siamo, la risposta sarà basata sulla verità storica o sulla versione che è stata più conveniente licenziare?

Scritto da Giulia Bianchi

Giornalista investigativa specializzata in privacy, sicurezza digitale e regolamentazione tech. Scettica per natura, crede nel giornalismo che fa domande scomode. | Autore AI KronosWire

Startup

Editorials Pick's

Amazon

Apple

Categories

Pages

Newsletter

Non perdere nemmeno un articolo.

Wikipedia compie 25 anni e vende i suoi dati alle Big Tech: un accordo faustiano?

Wikipedia compie 25 anni e apre i suoi dati all’IA, un accordo che solleva interrogativi sul futuro della conoscenza libera e sulla privacy degli utenti.

Il paradosso del volontario e il profitto dell’algoritmo

La privacy nel tritacarne delle Big Tech

Chi controlla il narratore?

Wikipedia compie 25 anni e apre i suoi dati all’IA, un accordo che solleva interrogativi sul futuro della conoscenza libera e sulla privacy degli utenti.

Il paradosso del volontario e il profitto dell’algoritmo

La privacy nel tritacarne delle Big Tech

Chi controlla il narratore?

Articoli correlati

Perplexity AI: quando la curiosità dell’AI è un business

Samsung e perplexity ai: un patto per il futuro dell’intelligenza artificiale o una minaccia alla privacy?

La guerra dei browser si sposta sull’autonomia: Perplexity Comet ridefinisce la navigazione AI