Nvidia, Ibm e Hugging Face stanno chiudendo i loro giardini

Nvidia, Ibm e Hugging Face stanno chiudendo i loro giardini

Hermes Agent supera 140.000 stelle GitHub ma è ottimizzato per hardware NVIDIA, sollevando dubbi sulla neutralità dell'infrastruttura AI.

Nvidia, Ibm e Hugging Face chiudono i propri ecosistemi attorno a chip, architetture e librerie

Il 2026 ha portato una sorpresa tecnica: Hermes Agent ha superato 140.000 stelle GitHub, ma il suo codice celebra l’hardware sottostante. NVIDIA lo presenta come sistema di agenti auto-miglioranti pubblicizzato come agente indipendente dal provider e dal modello. Basta guardare lo stack per capire dove batte il cuore: il DGX Spark con 128 GB di memoria unificata e 1 petaflop di potenza AI è il palcoscenico ideale, mentre NemoClaw ottimizza l’esperienza OpenClaw su hardware NVIDIA con maggiore sicurezza e supporto locale. L’open source c’è, ma l’architettura è progettata per esaltare un solo tipo di silicio.

Il codice è open, la dipendenza è hardware

Il pattern è chiaro: si apre l’agente, si chiude il nodo. NVIDIA non trattiene i sorgenti, ma costruisce un percorso in cui ogni ottimizzazione — dal batching alla memoria unificata — diventa un vantaggio competitivo per le proprie GPU. Per lo sviluppatore, la scelta è tecnica: usare Hermes significa adottare un ecosistema che gira al massimo solo su RTX e DGX. La promessa di indipendenza dal modello resta vera, ma l’infrastruttura che la esegue è tutt’altro che neutrale.

Embedding aperti su architettura chiusa

IBM ha seguito una strada diversa: rilasciato con licenza Apache 2.0, il modello Granite Embedding Multilingual R2 è basato su ModernBERT. La scelta architetturale è audace: ModernBERT non è lo standard di fatto, ma offre un contesto di 32K token e supporta retrieval di codice in 9 linguaggi di programmazione (Python, Go, Java, JavaScript, PHP, Ruby, SQL, C, C++). La licenza è permissiva, ma l’integrazione è pensata per funzionare con sentence-transformers e transformers. Chi vuole usare un embedding di IBM deve adottare la sua architettura preferita — una dipendenza strutturale che non è legale, ma è tecnica.

Inferenza asincrona e supply chain spezzata

Hugging Face ha risposto con un aggiornamento profondo: il continuous batching asincrono è stato aggiunto alla libreria transformers a metà maggio 2026. L’implementazione rimuove i colli di bottiglia sincroni durante l’inferenza, permettendo a più richieste di fluire in parallelo senza bloccare il batch. È una mossa per standardizzare l’infrastruttura di inferenza, ma arriva in un momento in cui la catena di fornitura del software mostra crepe profonde. OpenAI ha dovuto rispondere a un attacco alla supply chain di TanStack npm, parte del più ampio Mini Shai-Hulud. La reazione è stata drastica: tutte le applicazioni sono state ri-firmate e rilasciate con nuovi certificati.

La fragilità non è solo dell’infrastruttura hardware, ma di tutto lo stack software su cui si reggono questi sistemi.

La vera battaglia non è per il modello migliore. È per chi controlla i binari su cui quel modello corre — il chip, il framework di inferenza, il formato degli embedding. NVIDIA ha il suo hardware, IBM la sua architettura, Hugging Face la sua libreria standard. Ognuno sta chiudendo un pezzo di giardino. L’open source, frammentato ma senza padroni, potrebbe essere l’unico a non chiedere un biglietto d’ingresso.

🍪 Impostazioni Cookie