Microsoft fa marcia indietro: disattivate le ricette AI su Bing dopo il caso delle "ricette Frankenstein"

Microsoft fa marcia indietro: disattivate le ricette AI su Bing dopo il caso delle “ricette Frankenstein”

La decisione arriva dopo settimane di segnalazioni su “ricette Frankenstein” non solo immangiabili ma potenzialmente pericolose, mettendo in luce le difficoltà dei modelli linguistici di grandi dimensioni a gestire la logica procedurale di un algoritmo culinario.

Nel mondo dello sviluppo software esiste un termine preciso per definire la rimozione di una funzionalità che, invece di risolvere problemi, ne crea di nuovi: unshipping. È un’operazione che richiede umiltà tecnica e una certa dose di coraggio manageriale, specialmente quando la funzionalità in questione è stata venduta come la prossima rivoluzione dell’interazione umana.

Oggi, 6 febbraio 2026, assistiamo a uno dei casi più emblematici di “unshipping” nel settore della ricerca algoritmica: Microsoft ha deciso di disattivare le sintesi culinarie generate dall’intelligenza artificiale su Bing.

La decisione arriva dopo settimane di segnalazioni che hanno fatto il giro delle community tecniche e dei social network, culminate con la denuncia pubblica di Inspired Taste, un noto portale di cucina. L’accusa non riguardava semplici errori di battitura, ma la creazione di quelle che gli addetti ai lavori hanno ribattezzato “ricette Frankenstein”: mostri semantici assemblati prendendo istruzioni da una fonte, ingredienti da un’altra e tempi di cottura da una terza.

Il risultato?

Consigli culinari non solo immangiabili, ma potenzialmente pericolosi. Jordi Ribas, Corporate Vice President di Microsoft e capo della divisione Search, ha confermato la rimozione della feature, ammettendo implicitamente che, allo stato attuale, l’architettura dei Large Language Models (LLM) fatica ancora a gestire la logica procedurale rigorosa richiesta da una ricetta.

Ma per capire perché un’azienda che investe miliardi in infrastrutture di calcolo scivoli su una torta al lime o su una zuppa vietnamita, bisogna guardare oltre l’interfaccia utente e scendere nel livello logico dell’implementazione.

L’architettura del disastro culinario

Il problema non risiede nell’incapacità dell’AI di “leggere”, ma nel modo in cui i moderni motori di ricerca tentano di sintetizzare l’informazione tramite tecniche RAG (Retrieval-Augmented Generation). Quando un utente cerca una ricetta, il sistema non si limita più a indicizzare una pagina; estrae frammenti di testo da diverse fonti considerate autorevoli e tenta di fonderli in una risposta coerente. Sulla carta, è un’idea elegante: l’utente ottiene la risposta immediata, il motore trattiene il traffico.

Nella pratica, è un campo minato probabilistico.

Nel caso specifico denunciato da Inspired Taste, l’algoritmo di Bing ha suggerito di sostituire lo zenzero con il macis nella preparazione del Pho, una zuppa tradizionale vietnamita. Agli occhi di un parser sintattico, entrambi sono “spezie” e potrebbero apparire in contesti vettoriali vicini all’interno del database di addestramento. Tuttavia, dal punto di vista chimico e organolettico, la sostituzione è un’aberrazione.

L’algoritmo ha “allucinato” una connessione logica inesistente, privilegiando la fluidità sintattica sulla correttezza fattuale. È il classico difetto dei modelli generativi: sono eccellenti affabulatori, ma pessimi esecutori logici quando manca una ground truth univoca.

Questa dinamica evidenzia una frizione strutturale tra la natura statistica degli LLM e la natura deterministica di certe istruzioni. Una ricetta è, a tutti gli effetti, un algoritmo: input precisi, esecuzioni sequenziali, output atteso. Trattarla come testo generico da riassumere significa ignorare le dipendenze critiche tra i passaggi. Eppure, Microsoft non è sola in questo pasticcio procedurale; l’intero settore sembra soffrire della stessa fretta di implementare feature “intelligenti” senza le necessarie guardie di validazione.

Un ecosistema inquinato dai feedback loop

La mossa di Microsoft segue a ruota un periodo turbolento anche per il suo principale concorrente. Solo poche settimane fa, le ricette Frankenstein generate dall’AI di Google sono state criticate come un orrore dai food blogger, evidenziando come il problema sia trasversale alle piattaforme. Anche in quel caso, il sistema prelevava ingredienti da fonti diverse senza citazione corretta, creando ibridi culinari fallimentari e sottraendo traffico vitale ai creatori originali dei contenuti.

Il danno tecnico qui è duplice. Da un lato c’è l’esperienza utente degradata, dall’altro c’è l’inquinamento del dataset. Se i motori di ricerca iniziano a pubblicare ricette errate generate dall’AI, queste pagine verranno indicizzate da altri bot, finendo per rientrare nei dataset di addestramento futuri.

È un ciclo di feedback negativo che rischia di abbassare la qualità media dell’informazione disponibile sul web, un fenomeno che i ricercatori chiamano “collasso del modello”.

I creatori di contenuti si trovano così nella paradossale situazione di vedere il proprio lavoro “rubato”, maciullato da un algoritmo, riproposto in forma errata e infine usato per addestrare la versione successiva del software che li renderà obsoleti.

Non è nemmeno la prima volta che Microsoft si trova a dover fare marcia indietro su contenuti generati automaticamente che sfuggono al controllo di qualità. Già in passato l’azienda aveva dovuto rimuovere guide turistiche generate dall’AI che suggerivano ai turisti di visitare la banca alimentare di Ottawa “a stomaco vuoto”. In quell’occasione, la difesa dell’azienda fu incentrata sul ruolo umano nel processo.

L’articolo non è stato pubblicato da un’IA non supervisionata. Combiniamo la potenza della tecnologia con l’esperienza dei redattori di contenuti per far emergere le storie. In questo caso, il contenuto è stato generato attraverso una combinazione di tecniche algoritmiche con revisione umana, non da un modello linguistico di grandi dimensioni o da un sistema di intelligenza artificiale.

— Portavoce Microsoft

Questa insistenza sulla “revisione umana” suona oggi ancora più problematica. Se c’è un umano nel loop, come è possibile che errori così grossolani passino in produzione?

La risposta più probabile, e tecnicamente più inquietante, è che la scala di produzione di questi contenuti renda impossibile una verifica umana reale, riducendo i revisori a semplici timbratori di un flusso inarrestabile di token.

La lezione del “rollback”

La decisione di Jordi Ribas di effettuare l’unshipping della feature su Bing rappresenta un momento di lucidità tecnica che va apprezzato. Nel software development, riconoscere che una feature è “buggata” a livello concettuale e rimuoverla è segno di maturità. A differenza di un semplice bug fix che corregge una riga di codice, rimuovere una funzionalità implica ammettere che l’architettura attuale non è pronta per quel caso d’uso specifico.

Tuttavia, questo episodio solleva dubbi sulla validità dei test di regressione e delle metriche di qualità utilizzate da questi giganti tech. La funzione Personal Intelligence di Google è stata esposta per aver generato ricette Frankenstein imprecise modificando dettagli cruciali come i tempi di cottura o gli ingredienti base, dimostrando che i test interni non riescono a simulare la complessità e la specificità del mondo reale.

Non si tratta di casi limite (edge cases), ma di interrogazioni standard che falliscono in modo spettacolare.

L’approccio “move fast and break things”, ereditato dalla cultura delle startup della Silicon Valley, mostra tutti i suoi limiti quando viene applicato a motori di ricerca che miliardi di persone usano come fonte primaria di verità. Un conto è se un’app di social media crasha, un altro è se un motore di ricerca fornisce istruzioni chimicamente o biologicamente errate con l’autorità di un oracolo digitale. La trasparenza tecnica imporrebbe di etichettare questi sistemi come “sperimentali”, ma la corsa al marketing dell’AI spinge per presentarli come prodotti finiti e onniscienti.

Resta da chiedersi se questo “unshipping” sia una ritirata strategica definitiva o solo una pausa per ricalibrare i pesi della rete neurale. La tentazione di bypassare i creatori di contenuti per offrire la “risposta diretta” è troppo forte economicamente per essere abbandonata. Ma finché i modelli probabilistici non impareranno a dire “non lo so” invece di inventare, saremo costretti a verificare ogni singolo ingrediente, trasformando l’utente da beneficiario del servizio a debugger non retribuito.

Siamo sicuri che sia questo il futuro dell’informazione che volevamo costruire?

Facebook X Network Pinterest Instagram
🍪 Impostazioni Cookie