Cosa sta succedendo tra Reddit e aziende come Perplexity?

Reddit ha accusato Perplexity di aggirare i blocchi per estrarre dati tramite scraping senza autorizzazione. Questo fa parte di un conflitto più ampio in cui le piattaforme cercano di proteggere i contenuti generati dagli utenti dall'essere utilizzati per addestrare modelli di IA senza accordi.

Cosa significa l'affermazione che gli LLM sono 'parassitari'?

L'esperta Myriam Jessier descrive gli LLM come parassitari perché, secondo questa visione, si aspettano l'accesso gratuito ai dati per monetizzarli senza fornire nulla in cambio alla comunità che ha creato quei contenuti. Non è visto come un riciclo virtuoso, ma come un furto.

Cosa si intende per 'giardini recintati digitali'?

Sono ecosistemi chiusi che stanno nascendo quando le piattaforme siglano accordi esclusivi con alcune aziende di IA e negano l'accesso ad altre. Questo frammenta il web, rendendo i contenuti accessibili solo attraverso specifici canali o servizi.

Quale potrebbe essere il futuro dell'accesso ai dati sul web?

Il futuro potrebbe vedere la nascita di nuovi protocolli tecnici più robusti del robots.txt che riconoscano e compensino il valore creato dagli utenti. In alternativa, potrebbe consolidarsi una 'grande segregazione dei dati', dove l'apertura del web sarà un ricordo e l'accesso un privilegio legato ad accordi commerciali.

Editorials Pick's 5 months ago

La Guerra dei Dati: Come i Conflitti tra Piattaforme e IA Stanno Creando un Internet Frammentato

Q: Cos'è il file robots.txt e perché è considerato inefficace?

Il robots.txt è un protocollo storico del web che regola l'accesso dei bot, come un cartello 'non entrare'. Pedro Dias lo paragona a una porta di vetro aperta con una lista degli ospiti su un post-it: facile da ignorare per chi non ha buone intenzioni, specialmente nel contesto attuale della corsa ai dati per l'IA.

Q: Cosa perde l'utente finale in questo scenario?

L'utente perde la possibilità che motori di ricerca indipendenti o assistenti AI emergenti mostrino quei contenuti. Il rischio è che la conoscenza online si spezzetti in blocchi accessibili solo a chi paga o ha sottoscritto determinati servizi, portando potenzialmente a un internet a due velocità.

Reddit accusa Perplexity di scraping illegittimo per addestrare IA. Gli esperti definiscono gli LLM parassitari. Si rischia un internet frammentato in giardini recintati.

La pratica rischia di frammentare il web in giardini recintati e a pagamento

Ti è mai capitato di cercare una soluzione per un problema tecnico ostinato, una ricetta infallibile o un consiglio di viaggio, e l’unica risposta davvero utile veniva da un forum di Reddit? Quella discussione piena di commenti umani, esperienze reali e persino battute. Ora immagina che domani, quella stessa risposta ti venga servita da un chatbot pulito e impersonale, che ha assimilato tutto senza che tu o chi ha scritto quel post ne abbia ricavato nulla.

Quando il parassita bussa alla porta: il caso Reddit vs. Perplexity

Non è fantascienza, è la guerra fredda che sta silenziosamente ridisegnando il web. Al centro c’è una pratica antica quanto internet stessa, lo “scraping” (estrazione automatica di dati), diventata ora il campo di battaglia per l’intelligenza artificiale. Le aziende che costruiscono modelli linguistici (LLM) hanno un bisogno vorace di dati per addestrare i loro cervelli digitali. E dove trovarli, se non nell’immenso archivio di conversazioni, opinioni e conoscenze creato dagli utenti? Piattaforme come Reddit si sono accorte che il valore dei contenuti generati dalla comunità sta finendo dritto nei sistemi di altri, senza accordi. Tanto che Reddit ha accusato Perplexity di aggirare i blocchi per prendere ciò che non era autorizzato a prendere.

La reazione non si è fatta attendere. Si alzano barriere, si cambiano le regole di accesso. Ma la posta in gioco è più alta del singolo caso. L’esperta Myriam Jessier non usa mezzi termini: gli LLM sono parassitari. “Si aspettano l’accesso gratuito e la monetizzazione che ne deriva senza fornire nulla in cambio”, ha dichiarato. E il concetto è chiaro: non è un riciclo virtuoso, è furto, non riciclaggio. Questa percezione sta guidando le scelte delle piattaforme, che ora trattano i loro dati come un tesoro da proteggere a tutti i costi.

Robots.txt: la lista degli ospiti attaccata col nastro adesivo

Storicamente, sul web aperto, esisteva un protocollo gentileman’s agreement per regolare l’accesso dei bot: il file robots.txt. È come mettere un cartello “non entrare” sulla porta di casa digitale. Pedro Dias, però, ci invita a guardare la realtà: robots.txt è una porta di vetro aperta, con una lista degli ospiti scritta su un post-it. Facile da ignorare per chi non ha buone intenzioni.

Il punto è proprio qui. L’ideale di un web aperto, dove tutti possono accedere e contribuire liberamente, si scontra con un nuovo mercato. Il web non dovrebbe essere un archivio gratuito per il riutilizzo indiscriminato, sostiene Dias. Quando il valore estratto è sproporzionato rispetto al contributo dato, il sistema si inceppa. Le piattaforme, per proteggersi, iniziano a siglare accordi esclusivi con alcune aziende di IA e a negare l’accesso ad altre. Nascono così i giardini recintati digitali. E tu, utente, cosa perdi? Perdi la possibilità che un motore di ricerca indipendente o un assistente AI emergente ti mostri quei contenuti. Il rischio è che la conoscenza online si spezzetti in blocchi accessibili solo a chi paga il pedaggio.

Verso un internet a due velocità (e due prezzi)

Il risultato di questa guerra dei dati è sotto i nostri occhi: la frammentazione. Un internet dove l’accesso all’informazione dipende dagli accordi commerciali tra il sito che ospita i dati e l’azienda che li vuole usare. Myriam Jessier descrive gli LLM come parassiti che si nutrono del valore creato dagli altri. E se la fonte del cibo si ribella, erigendo muri, il parassita cerca altre strade o fa accordi con chi i muri li alza per primo.

Questo ci porta a un futuro prossimo in cui, per avere risposte complete, dovremo forse abbonarci a più servizi. Uno per l’accesso all’archivio “premium” delle discussioni tecniche, un altro per le recensioni di prodotti. L’accusa precisa di furto e non riciclaggio non è solo una questione lessicale: è il grido di battaglia che legittima la chiusura. La stessa chiusura che Reddit ha mosso contro Perplexity diventerà la norma.

Guardiamo avanti. L’entusiasmo per le potenzialità dell’IA è più che giustificato, ma non possiamo ignorare la resa dei conti sulla provenienza del suo nutrimento. Dovremo tenere d’occhio come si evolvono le normative, ma soprattutto gli standard tecnici che emergeranno dal conflitto.

Forse assisteremo alla nascita di nuovi protocolli, più robusti del fragile robots.txt, che riconoscano e compensino il valore creato dalle persone. O forse assisteremo semplicemente alla grande segregazione dei dati, dove l’apertura sarà un ricordo e l’accesso un privilegio. La partita è aperta, e il nostro modo di usare il web ne uscirà cambiato.

Scritto da Marco Rossi

Giornalista tech con 10 anni di esperienza nel settore. Appassionato di innovazione e early adopter incallito. Ama raccontare come la tecnologia cambia la vita quotidiana delle persone. | Autore AI KronosWire

Startup

Editorials Pick's

Amazon

Apple

Categories

Pages

Newsletter

Non perdere nemmeno un articolo.

La Guerra dei Dati: Come i Conflitti tra Piattaforme e IA Stanno Creando un Internet Frammentato

La pratica rischia di frammentare il web in giardini recintati e a pagamento

Quando il parassita bussa alla porta: il caso Reddit vs. Perplexity

Robots.txt: la lista degli ospiti attaccata col nastro adesivo

Verso un internet a due velocità (e due prezzi)

La pratica rischia di frammentare il web in giardini recintati e a pagamento

Quando il parassita bussa alla porta: il caso Reddit vs. Perplexity

Robots.txt: la lista degli ospiti attaccata col nastro adesivo

Verso un internet a due velocità (e due prezzi)

Articoli correlati

La valutazione dell’IA è un rompicapo

scoprire un agente ai è facile, validarlo è un incubo

Da assistente a co-creatore: come l’AI sta riscrivendo le regole della creatività