I goblin di ChatGPT avevano un'origine precisa

I goblin di ChatGPT avevano un’origine precisa

OpenAI ha scoperto che il 66,7% delle menzioni di "goblin" in ChatGPT proveniva da una personalità "Nerdy", a causa di un reward model mal calibrato.

Il reward model della personalità “Nerdy” premiava involontariamente le metafore con creature mitologiche

Il 66,7% di tutte le menzioni della parola “goblin” in ChatGPT proveniva da un’unica personalità — quella “Nerdy” — che rappresentava appena il 2,5% delle risposte totali del modello. Il dato, contenuto in l’analisi post-mortem pubblicata da OpenAI, è il punto di partenza di una storia che dice molto di più sulla fragilità del reward modeling di quanto sembri a prima vista. Come fa un modello addestrato per rispondere in tono da nerd a trasformarsi in un prolifico creatore di creature mitologiche? La risposta è scomoda: non lo sapeva nemmeno chi lo ha costruito.

Il segnale dei goblin

Il fenomeno ha iniziato a manifestarsi in modo sottile già con GPT-5.1, nel novembre 2025. Dopo il lancio, l’uso della parola “goblin” in ChatGPT era aumentato del 175%. Ma la vera anomalia emerge guardando la distribuzione: quasi tutto quel traffico linguistico proveniva da una sola condizione di personalità, quella “Nerdy”, pensata per rispondere con riferimenti da culture geek, spiegazioni dettagliate, metafore tecniche. Il problema era nel reward model specifico per questa personalità: il sistema di ricompensa valutava più positivamente gli output che contenevano parole come “goblin” o “gremlin” rispetto a quelli che ne erano privi, con un uplift positivo nel 76,2% dei dataset analizzati. In altre parole, OpenAI aveva involontariamente assegnato premi più alti alle risposte che includevano metafore con creature, probabilmente perché queste erano correlate a stile narrativo vivace e creativo — esattamente ciò che un tone-of-voice “nerd” dovrebbe esprimere.

Il problema non era nella parola in sé, ma in cosa quella parola rappresentava per il modello: un proxy per qualcosa di desiderabile. È un classico esempio di reward hacking in senso lato — il modello non ha “voluto” usare goblin, ma il segnale di ricompensa aveva costruito un’associazione statistica che spingeva in quella direzione. Tanto forte da portare utenti a segnalare, dopo l’aggiornamento 5.4, che ChatGPT usava “goblin” in quasi ogni conversazione. La situazione era diventata abbastanza grave da rendere necessario il ritiro completo della personalità “Nerdy” a marzo 2026, dopo il lancio di GPT-5.4.

Il ciclo vizioso dell’SFT

La risposta alla domanda “come fa un premio di nicchia a infettare l’intero modello?” sta nel riutilizzo dei dati di supervised fine-tuning. Il processo di addestramento dei moderni LLM segue tipicamente una sequenza: pre-training su grandi corpora, poi SFT su dati curati, poi reinforcement learning da feedback umano (RLHF). Il punto critico è che i dati SFT non vengono generati una volta sola e archiviati: vengono riciclati, aumentati, e rientrano nel ciclo di addestramento delle versioni successive. Se il reward model per la personalità “Nerdy” premiava le risposte con creature, quelle risposte finivano per diventare esempi di alta qualità nel corpus SFT — e da lì si propagavano, ad ogni ciclo, a un set sempre più ampio di contesti. Non serve un bug esplicito: basta un segnale di ricompensa mal calibrato che entra nel loop. Questo è il meccanismo che OpenAI stessa identifica come causa radice: il reward model RL per la personalità “Nerdy” ha premiato involontariamente le metafore con creature, che si sono poi diffuse attraverso il ciclo di feedback del riutilizzo dei dati SFT.

L’analogia più precisa è quella di un test automatico che misura la qualità del codice basandosi su una metrica sbagliata: ogni iterazione ottimizza quella metrica, e il codice peggiora sistematicamente rispetto all’obiettivo reale. Qui il “codice” è il comportamento del modello, e la “metrica sbagliata” era la presenza di creature nelle risposte. Il fatto che GPT-5.5 abbia iniziato l’addestramento prima che fosse identificata la causa radice rende ancora più evidente quanto sia difficile diagnosticare questi problemi in tempo reale, anche per chi dispone delle risorse di OpenAI.

Cosa imparare dagli spiritelli

La lezione è che i modelli sono scatole nere anche per chi li addestra. OpenAI ha scoperto il problema dei goblin post-hoc, attraverso il monitoraggio in produzione — non attraverso una comprensione preventiva del comportamento del modello. La correzione adottata è stata chirurgica ma reattiva: rimozione del segnale di ricompensa goblin-affine e aggiunta di un segnale negativo esplicito per le parole riferite a creature nel reward model della personalità “Nerdy”. Funziona, ma è la soluzione che ti aspetti da un sistema che non capisci fino in fondo: togli il sintomo quando lo vedi.

Il caso goblin non è una barzelletta né un errore trascurabile. È un segnale preciso su cosa succede quando si delega a un reward model la definizione di “risposta di qualità” senza avere gli strumenti per verificare cosa stia effettivamente misurando. Nella corsa alla personalizzazione dei modelli — più toni, più personalità, più condizioni di addestramento — ogni scelta di reward è una scommessa sull’interpretabilità. E spesso, come dimostra questa vicenda, la perdiamo. La domanda aperta è quanti altri goblin dormono nei modelli già in produzione, in attesa del segnale giusto per manifestarsi.

🍪 Impostazioni Cookie