OpenAI ha messo un prezzo sulla sicurezza di GPT-5.5
OpenAI rilascia GPT-5.5 con un programma di bug bounty da 25.000 dollari per testare la sicurezza bio-chimica del modello.
OpenAI invita la comunità a testare le protezioni bio-chimiche con una ricompensa
Oggi, 23 aprile 2026, OpenAI rilascia GPT-5.5. Secondo la system card ufficiale di GPT-5.5, il modello è progettato per lavori complessi nel mondo reale — scrivere codice, fare ricerche online, analizzare informazioni, produrre documenti — ed è accompagnato da quello che l’azienda definisce “the strongest set of safeguards to date”. Ma il dettaglio tecnico più interessante non sta nei benchmark: sta in un programma di bug bounty da 25.000 dollari, lanciato in parallelo con il rilascio, che offre quella cifra a chiunque riesca a costruire un jailbreak universale capace di superare tutte e dieci le domande di sicurezza bio-chimica del modello.
Il Prezzo della Sicurezza
La tensione è questa: da un lato, OpenAI dichiara di aver sottoposto GPT-5.5 a una suite completa di valutazioni pre-distribuzione, al Preparedness Framework, a sessioni mirate di red-teaming su capacità avanzate di cybersecurity e biologia, e a feedback su casi d’uso reali raccolti da quasi 200 partner in accesso anticipato. Dall’altro, lancia un programma pubblico che mette un prezzo esplicito sulla possibilità che le stesse protezioni vengano aggirate. Questi due gesti non si contraddicono: si completano. Il GPT-5.5 Bio Bug Bounty è esattamente quello che sembra — un invito formale alla comunità a cercare i punti deboli prima che lo faccia qualcun altro con intenzioni meno trasparenti.
Il perché della soglia biologica è specifico: già con GPT-5, OpenAI aveva classificato il proprio modello di pensiero come “High capability” nei domini biologici e chimici secondo il Preparedness Framework. Una classificazione che implica un livello di scrutinio più alto, e che spiega perché il bug bounty si concentri proprio su quel dominio. Non è una scelta arbitraria: è la risposta diretta a una valutazione interna di rischio. La domanda che resta aperta, però, è tecnica: come funziona il sistema che si sta cercando di bucare?
Sotto il Cofano: Router e Ragionamento
La risposta sta nell’architettura che GPT-5.5 eredita da GPT-5. Quest’ultimo è costruito come un sistema unificato con tre componenti distinti: un modello veloce per la maggior parte delle domande, un modello di ragionamento più profondo per i problemi complessi, e un router in tempo reale che decide quale dei due attivare basandosi su tipo di conversazione, complessità, necessità di strumenti e intento esplicito dell’utente. L’analogia più utile è quella di un centralino intelligente che non si limita a smistare le chiamate, ma le classifica in base al contenuto prima ancora di instradarle.
Ciò che rende questo router interessante dal punto di vista della sicurezza è il suo ciclo di apprendimento. Non è statico: viene addestrato continuamente su segnali reali, inclusi i cambi di modello da parte degli utenti, i tassi di preferenza per le risposte e la correttezza misurata nel tempo. In pratica, il sistema osserva quando gli utenti scartano una risposta in favore di un’altra, e usa questo segnale come proxy per migliorare sia la qualità che — implicitamente — la pertinenza delle salvaguardie. Un jailbreak che funziona oggi potrebbe smettere di funzionare la prossima settimana non perché qualcuno l’abbia patchato manualmente, ma perché il router ha aggiornato i propri pesi. Questo rende il bug bounty non solo un atto di trasparenza, ma uno strumento di raccolta dati su vulnerabilità che altrimenti sarebbero difficili da osservare sistematicamente.
La forza di questo approccio è anche la sua potenziale debolezza. Un router che si aggiorna su segnali di preferenza è esposto, in teoria, a poisoning attacks — tentativi di manipolarne il comportamento attraverso segnali artificiali. OpenAI non descrive le contromisure a questo livello di dettaglio nella system card, il che lascia aperta una domanda tecnica legittima: quanto è robusto il ciclo di training del router rispetto a input avversariali distribuiti nel tempo?
Che Cambia per Chi Costruisce
Per chi sviluppa applicazioni su questi modelli, il confronto con il panorama competitivo è istruttivo. La scorsa settimana, Anthropic ha rilasciato Claude Opus 4.7, un modello con un approccio speculare: salvaguardie automatiche per rilevare e bloccare richieste di uso informatico ad alto rischio, accompagnate da una system card di 232 pagine che riflette un investimento massiccio nella documentazione. È una strategia diversa — più documentation-heavy, meno bounty-driven — e chi sceglie su quale stack costruire deve tenere conto non solo dei benchmark, ma di come ciascun fornitore gestisce il ciclo di vita delle vulnerabilità.
La domanda pratica per uno sviluppatore è semplice: quando integri un modello con salvaguardie architetturali, stai delegando parte del tuo threat model al provider. Il bug bounty attivo su GPT-5.5 ti dice due cose: che OpenAI è abbastanza sicura delle proprie protezioni da metterle sotto stress pubblico, e che quelle protezioni non sono considerate definitive nemmeno da chi le ha costruite. Costruire su un sistema del genere richiede di capire dove finisce la responsabilità del modello e dove inizia la tua.
GPT-5.5 dimostra che la sicurezza può e deve essere un elemento architetturale, non un post-processing applicato a valle. Il router, i segnali di preference, il Preparedness Framework, il bounty biologico: sono tutti pezzi di un unico disegno. Ma un disegno su carta non è codice in produzione. La partita si gioca nei dettagli implementativi, nelle edge case che nessun red team riesce a coprire completamente, e nelle scelte che ogni sviluppatore fa quando costruisce sopra questi layer. Il vero test non è nel paper. È nel codice che scriveremo.