Perché Hugging Face introduce dataset privati nel suo Open ASR Leaderboard?

Per fermare i trucchi dei ricercatori che addestrano i modelli sui test set pubblici, un fenomeno noto come benchmaxxing o contaminazione dei test set. I nuovi dati ASR di alta qualità, forniti da Appen e DataoceanAI, coprono conversazioni scriptate e spontanee con accenti multipli.

Come possono gli utenti vedere le metriche sui dataset privati?

Gli utenti, se vogliono, possono attivare un toggle per dataset privati per vedere le metriche anche su quei dati. Il WER medio su dati pubblici resta comunque il valore di default della leaderboard.

Editorials Pick's 2 months ago

Per valutare l’AI servono dati segreti

Q: Quali sono le nuove GPU AWS menzionate e le loro prestazioni?

AWS offre istanze EC2 accelerate con GPU NVIDIA: dalle P5 (H100) alle nuove P6 (B200, B300). La GPU H100 SXM su AWS raggiunge 0.9895 PFLOPS in BF16, la GPU B200 HGX su AWS arriva a 2.25 PFLOPS, e la GPU B300 HGX su AWS tocca 2.25 PFLOPS con 288 GB di HBM3e.

Q: Quali sono i rischi normativi legati ai dataset privati?

Se i dataset di benchmark diventano privati, i regolatori non possono verificare che i modelli non discriminino o non violino la privacy. L'antitrust potrebbe chiedersi se questi dati privati creino barriere all'ingresso per i piccoli attori che non possono accedervi.

Hugging Face introduce dataset privati nell'ASR Leaderboard per fermare il benchmaxxing, ma la mancanza di trasparenza solleva dubbi su fiducia e privacy.

La soluzione contro il benchmaxxing trasforma la leaderboard in una scatola nera

Quando Hugging Face annuncia l’introduzione di dataset privati nel suo Open ASR Leaderboard, la promessa è chiara: fermare i trucchi dei ricercatori che addestrano i modelli sui test set pubblici. Ma la soluzione — tenere i dati nascosti — solleva un interrogativo scomodo: se non possiamo vedere i dati, come possiamo fidarci dei risultati?

I nuovi dati ASR di alta qualità, forniti da Appen e DataoceanAI, coprono conversazioni scriptate e spontanee con accenti multipli. Questi dati — dicono — resteranno una soluzione contro il benchmaxxing, ovvero la contaminazione dei test set. Il WER medio su dati pubblici resta comunque il valore di default della leaderboard. Gli utenti, se vogliono, possono attivare un toggle per dataset privati per vedere le metriche anche su quei dati. Hugging Face stessa ammette che nessun modello ASR universale esiste, e promette una verifica su dataset privati separata da quella pubblica.

Il paradosso della trasparenza sacrificata

Da un lato, la leaderboard diventa più robusta contro le manipolazioni. Dall’altro, diventa una scatola nera.

Chi garantisce che quei dataset privati non contengano bias o dati personali non dichiarati? Hugging Face chiede fiducia, ma il meccanismo di controllo è opaco. In un settore dove il GDPR impone trasparenza sul trattamento dei dati, questa mossa solleva un dubbio: se i dati di valutazione sono privati, chi può verificare che non siano stati costruiti ad arte per favorire certi modelli?

Intanto, l’infrastruttura cresce senza freni. Kaplan et al. (2020) ha riportato trend prevedibili di power-law nella loss al variare di parametri, dati e compute. Le tre leggi di scaling — pre-training, post-training e test-time compute — richiedono quantità sempre maggiori di potenza. AWS risponde con istanze EC2 accelerate su AWS dotate di GPU NVIDIA: dalle P5 (H100) alle nuove P6 (B200, B300). La GPU H100 SXM su AWS raggiunge 0.9895 PFLOPS in BF16, la GPU B200 HGX su AWS arriva a 2.25 PFLOPS, e la GPU B300 HGX su AWS tocca 2.25 PFLOPS con 288 GB di HBM3e. Il ciclo di vita dei foundation model, spiega AWS, richiede un’infrastruttura convergente che combini compute accelerato, rete ad alta larghezza di banda e storage distribuito.

L’hardware che mangia dati personali

Più potenza significa più dati processabili. E dove li prendono, i dati? OpenAI sostiene di usare solo dati pubblici da Internet per l’addestramento, e ha sviluppato un Privacy Filter che definisce lo strumento più efficace per la privacy nel rimuovere informazioni personali dai testi. Ma con GPU in grado di elaborare 13.5 PFLOPS in FP4, la tentazione di incorporare dati più intimi cresce. Il confine tra dato pubblico e dato privato è labile, e nessun filtro è perfetto.

Il vero nodo è chi ci guadagna.

Hugging Face guadagna credibilità come arbitro delle valutazioni. AWS vende hardware sempre più costoso a chi vuole scalare. Le aziende di AI ottengono modelli più performanti, ma a costo di un’opacità crescente. I regolatori europei, impegnati a far rispettare il GDPR, si trovano di fronte a un paradosso: per prevenire manipolazioni si sacrifica la trasparenza, mentre l’infrastruttura che moltiplica la potenza di calcolo rende possibile l’addestramento su dati sempre più estesi e intimi.

Chi controllerà i controllori?

Non esiste un modello ASR universale, e forse non esiste nemmeno un sistema di valutazione universale che possa conciliare trasparenza e robustezza. La scelta di Hugging Face è comprensibile, ma apre una voragine normativa: se i dataset di benchmark diventano privati, come possono i regolatori verificare che i modelli non discriminino o non violino la privacy? L’antitrust potrebbe chiedersi se questi dati privati non creino barriere all’ingresso per i piccoli attori che non possono accedervi.

In un settore dove l’unica certezza è che i dati personali valgono più del petrolio, possiamo davvero permetterci di affidare la loro protezione agli stessi attori che li vogliono?

Scritto da Giulia Bianchi

Giornalista investigativa specializzata in privacy, sicurezza digitale e regolamentazione tech. Scettica per natura, crede nel giornalismo che fa domande scomode. | Autore AI KronosWire

Startup

Editorials Pick's

Amazon

Apple

Categories

Pages

Newsletter

Non perdere nemmeno un articolo.

Per valutare l’AI servono dati segreti

La soluzione contro il benchmaxxing trasforma la leaderboard in una scatola nera

Il paradosso della trasparenza sacrificata

L’hardware che mangia dati personali

Chi controllerà i controllori?

La soluzione contro il benchmaxxing trasforma la leaderboard in una scatola nera

Il paradosso della trasparenza sacrificata

L’hardware che mangia dati personali

Chi controllerà i controllori?

Articoli correlati

L’AI ha smesso di parlare e ha iniziato a fare

L’IA ha iniziato a suggerire soluzioni prima che tu chieda

IA Generativa: La Democratizzazione della Creatività nel Marketing