Quale aggiornamento ha apportato Hugging Face a metà maggio 2026?

Hugging Face ha aggiunto il continuous batching asincrono alla libreria transformers, rimuovendo i colli di bottiglia sincroni durante l'inferenza e permettendo a più richieste di fluire in parallelo senza bloccare il batch.

Editorials Pick's 2 months ago

Nvidia, Ibm e Hugging Face stanno chiudendo i loro giardini

Q: Cosa ha ottenuto Hermes Agent nel 2026?

Hermes Agent ha superato 140.000 stelle GitHub, ma il suo codice celebra l'hardware sottostante. NVIDIA lo presenta come sistema di agenti auto-miglioranti pubblicizzato come agente indipendente dal provider e dal modello.

Q: Quale hardware è il palcoscenico ideale per Hermes Agent?

Il DGX Spark con 128 GB di memoria unificata e 1 petaflop di potenza AI è il palcoscenico ideale, mentre NemoClaw ottimizza l'esperienza OpenClaw su hardware NVIDIA con maggiore sicurezza e supporto locale.

Q: Cosa ha rilasciato IBM con licenza Apache 2.0?

IBM ha rilasciato il modello Granite Embedding Multilingual R2 basato su ModernBERT. Offre un contesto di 32K token e supporta retrieval di codice in 9 linguaggi di programmazione (Python, Go, Java, JavaScript, PHP, Ruby, SQL, C, C++).

Hermes Agent supera 140.000 stelle GitHub ma è ottimizzato per hardware NVIDIA, sollevando dubbi sulla neutralità dell'infrastruttura AI.

Nvidia, Ibm e Hugging Face chiudono i propri ecosistemi attorno a chip, architetture e librerie

Il 2026 ha portato una sorpresa tecnica: Hermes Agent ha superato 140.000 stelle GitHub, ma il suo codice celebra l’hardware sottostante. NVIDIA lo presenta come sistema di agenti auto-miglioranti pubblicizzato come agente indipendente dal provider e dal modello. Basta guardare lo stack per capire dove batte il cuore: il DGX Spark con 128 GB di memoria unificata e 1 petaflop di potenza AI è il palcoscenico ideale, mentre NemoClaw ottimizza l’esperienza OpenClaw su hardware NVIDIA con maggiore sicurezza e supporto locale. L’open source c’è, ma l’architettura è progettata per esaltare un solo tipo di silicio.

Il codice è open, la dipendenza è hardware

Il pattern è chiaro: si apre l’agente, si chiude il nodo. NVIDIA non trattiene i sorgenti, ma costruisce un percorso in cui ogni ottimizzazione — dal batching alla memoria unificata — diventa un vantaggio competitivo per le proprie GPU. Per lo sviluppatore, la scelta è tecnica: usare Hermes significa adottare un ecosistema che gira al massimo solo su RTX e DGX. La promessa di indipendenza dal modello resta vera, ma l’infrastruttura che la esegue è tutt’altro che neutrale.

Embedding aperti su architettura chiusa

IBM ha seguito una strada diversa: rilasciato con licenza Apache 2.0, il modello Granite Embedding Multilingual R2 è basato su ModernBERT. La scelta architetturale è audace: ModernBERT non è lo standard di fatto, ma offre un contesto di 32K token e supporta retrieval di codice in 9 linguaggi di programmazione (Python, Go, Java, JavaScript, PHP, Ruby, SQL, C, C++). La licenza è permissiva, ma l’integrazione è pensata per funzionare con sentence-transformers e transformers. Chi vuole usare un embedding di IBM deve adottare la sua architettura preferita — una dipendenza strutturale che non è legale, ma è tecnica.

Inferenza asincrona e supply chain spezzata

Hugging Face ha risposto con un aggiornamento profondo: il continuous batching asincrono è stato aggiunto alla libreria transformers a metà maggio 2026. L’implementazione rimuove i colli di bottiglia sincroni durante l’inferenza, permettendo a più richieste di fluire in parallelo senza bloccare il batch. È una mossa per standardizzare l’infrastruttura di inferenza, ma arriva in un momento in cui la catena di fornitura del software mostra crepe profonde. OpenAI ha dovuto rispondere a un attacco alla supply chain di TanStack npm, parte del più ampio Mini Shai-Hulud. La reazione è stata drastica: tutte le applicazioni sono state ri-firmate e rilasciate con nuovi certificati.

La fragilità non è solo dell’infrastruttura hardware, ma di tutto lo stack software su cui si reggono questi sistemi.

La vera battaglia non è per il modello migliore. È per chi controlla i binari su cui quel modello corre — il chip, il framework di inferenza, il formato degli embedding. NVIDIA ha il suo hardware, IBM la sua architettura, Hugging Face la sua libreria standard. Ognuno sta chiudendo un pezzo di giardino. L’open source, frammentato ma senza padroni, potrebbe essere l’unico a non chiedere un biglietto d’ingresso.

Scritto da Luca Verdi

Developer e tech writer. Spiega la tecnologia dal punto di vista tecnico senza perdere di vista l'accessibilità. Ex software engineer, ora si dedica al giornalismo tech. | Autore AI KronosWire

Startup

Editorials Pick's

Amazon

Apple

Categories

Pages

Newsletter

Non perdere nemmeno un articolo.

Nvidia, Ibm e Hugging Face stanno chiudendo i loro giardini

Nvidia, Ibm e Hugging Face chiudono i propri ecosistemi attorno a chip, architetture e librerie

Il codice è open, la dipendenza è hardware

Embedding aperti su architettura chiusa

Inferenza asincrona e supply chain spezzata

Nvidia, Ibm e Hugging Face chiudono i propri ecosistemi attorno a chip, architetture e librerie

Il codice è open, la dipendenza è hardware

Embedding aperti su architettura chiusa

Inferenza asincrona e supply chain spezzata

Articoli correlati

Google può generare video pubblicitari per te

I retailer hanno bloccato gli assistenti AI dai loro negozi online

Nvidia non vende più solo GPU