Qual è il cambio di paradigma fondamentale che si sta verificando nel mondo dell'intelligenza artificiale?

Il cambio di paradigma fondamentale è il passaggio dalla manipolazione del linguaggio alla comprensione dello spazio, con un focus sui 'World Models' che vengono addestrati sulla fisica e la geometria per prevedere lo stato successivo della realtà.

Cos'è World Labs e qual è il suo obiettivo?

World Labs, fondata da Fei-Fei Li, mira a risolvere il problema della 'Spatial Intelligence' (intelligenza spaziale) costruendo 'World Models' che creano una rappresentazione tridimensionale persistente dell'ambiente.

Cos'è Marble e come funziona?

Marble è il primo prodotto commerciale di World Labs. Permette di generare ambienti 3D editabili dove la coerenza fisica è una proprietà del modello. Utilizza tecniche come i *Gaussian Splats* per dare alle macchine un 'senso' dello spazio.

Perché i World Models sono importanti per la robotica?

I World Models sono essenziali per la robotica perché consentono ai robot di simulare le conseguenze fisiche delle loro azioni prima di compierle, cosa impossibile con i modelli linguistici che si basano su probabilità linguistiche.

Chi è Yann LeCun e cosa sta facendo nel campo dell'intelligenza spaziale?

Yann LeCun ha fondato AMI Labs dopo aver lasciato Meta. La sua tesi è che l'intelligenza nasce dall'interazione con l'ambiente e si sta concentrando sullo sviluppo di modelli che permettano la pianificazione e la previsione degli effetti delle azioni sul mondo.

Qual è il rischio tecnico principale associato ai World Models?

Il problema tecnico principale è garantire l'accuratezza fisica dei modelli. Non è sufficiente che un modello sia visivamente plausibile; deve essere fisicamente corretto per essere utile in applicazioni critiche come la guida autonoma e la robotica.

Startup 3 months ago

World labs: l’intelligenza artificiale spaziale vale 5 miliardi di dollari

Q: Qual è la sfida dell'addestramento dei World Models?

L'addestramento richiede una grande quantità di dati video e 3D etichettati, che è molto più complessa da gestire rispetto al testo semplice. Inoltre, i World Models rischiano di 'allucinare' la fisica, generando simulazioni inaccurate.

L’attenzione si sposta dai modelli linguistici alla comprensione dello spazio, con World Labs di Fei-Fei Li pronta a rivoluzionare la robotica e l’AI generale

C’è un momento preciso in cui l’hype smette di essere solo rumore di fondo e diventa un segnale tecnico inequivocabile. Nel mondo dell’intelligenza artificiale, quel momento sembra essere arrivato oggi, 23 gennaio 2026.

Mentre la maggior parte dell’attenzione pubblica è ancora catturata dai chatbot che scrivono poesie o riassumono email, nei laboratori di ricerca si sta consumando un cambio di paradigma fondamentale: il passaggio dalla manipolazione del linguaggio alla comprensione dello spazio.

La notizia che domina i feed tecnici di questa mattina non riguarda un nuovo LLM (Large Language Model) con più parametri, ma qualcosa di strutturalmente diverso. Secondo indiscrezioni ormai solide, World Labs è in trattative per un nuovo round di finanziamento con una valutazione di 5 miliardi di dollari.

Una cifra che potrebbe sembrare ordinaria nella bolla della Silicon Valley, se non fosse per la natura della scommessa tecnica che sottende.

Fondata da Fei-Fei Li, pioniera della computer vision e “madrina” dell’AI moderna, World Labs non sta cercando di costruire un altro ChatGPT. L’obiettivo è risolvere quello che i tecnici chiamano il problema della “Spatial Intelligence” (intelligenza spaziale).

Se gli LLM sono stati addestrati su tutto il testo di internet per prevedere la parola successiva, i “World Models” (modelli di mondo) vengono addestrati sulla fisica e la geometria per prevedere lo stato successivo della realtà.

E la differenza, a livello di implementazione e di potenziale, è abissale.

Oltre la statistica del linguaggio

Per capire perché gli investitori siano disposti a valutare 5 miliardi un’azienda con poco più di un anno di vita pubblica, bisogna guardare sotto il cofano della tecnologia attuale.

Gli attuali modelli generativi video (pensate a quelli che creano clip da un prompt testuale) sono spesso tecnicamente “stupidi”.

Generano pixel che sembrano coerenti frame dopo frame, ma non hanno una rappresentazione interna della scena. Ecco perché le mani si deformano o gli oggetti scompaiono se la telecamera gira: il modello non sa che esiste un oggetto 3D, sa solo come appare quell’oggetto in 2D.

L’approccio di World Labs, concretizzatosi con il lancio di Marble, il primo prodotto commerciale dell’azienda, inverte questa logica. Invece di dipingere pixel, il sistema costruisce una rappresentazione tridimensionale persistente.

Marble permette di generare ambienti 3D editabili, dove la coerenza fisica non è un’illusione ottica ma una proprietà del modello. Utilizzando tecniche come i Gaussian Splats (una metodologia di rendering che rappresenta la scena come nuvole di punti 3D con proprietà di opacità e colore), World Labs sta cercando di dare alle macchine un “senso” dello spazio.

Non è solo una questione di grafica per videogiochi. È il prerequisito fondamentale per la robotica.

Un robot non può operare nel mondo reale basandosi su probabilità linguistiche; deve simulare le conseguenze fisiche delle sue azioni prima di compierle. Deve avere, appunto, un modello del mondo.

La guerra dei modelli mentali

Questa valutazione astronomica non avviene nel vuoto. È la conferma che il settore ha identificato nei World Models il prossimo grande collo di bottiglia da superare per avvicinarsi all’AGI (Intelligenza Artificiale Generale).

Non è un caso che Yann LeCun, uno dei padri del Deep Learning e da sempre critico verso l’approccio puramente linguistico degli LLM, abbia fatto una mossa analoga.

Pochi mesi fa, LeCun ha lasciato Meta dopo 12 anni per fondare AMI Labs, raccogliendo capitali su una valutazione pre-lancio di 3 miliardi di euro. La sua tesi è sempre stata che l’intelligenza non nasce dal linguaggio, ma dall’interazione con l’ambiente.

Puoi immaginare una sequenza di azioni che potresti intraprendere, e il tuo modello del mondo ti permetterà di prevedere quale sarà l’effetto di quella sequenza di azioni sul mondo.

— Yann LeCun, Executive Chairman presso AMI Labs

LeCun tocca il nervo scoperto dell’AI attuale: la pianificazione. Gli LLM sono eccellenti improvvisatori, ma pessimi pianificatori a lungo termine perché mancano di un sistema di feedback con la realtà fisica.

Google DeepMind, non volendo restare indietro, ha rilasciato Genie 3 all’inizio di questo mese, un modello capace di generare ambienti interattivi a 24 frame al secondo. La competizione non è più su chi ha il chatbot più eloquente, ma su chi ha il simulatore di realtà più accurato.

La mossa di Fei-Fei Li con World Labs si inserisce esattamente in questa fessura tra la percezione visiva e il ragionamento logico. Mentre LeCun attacca il problema dal punto di vista teorico e architetturale, World Labs sta cercando di “prodottizzare” questa intelligenza spaziale rendendola accessibile a creatori e sviluppatori.

Ma c’è un rischio tecnico non indifferente in questa corsa all’oro.

Una scommessa da cinque miliardi

Siamo onesti: valutare 5 miliardi un’azienda che ha appena rilasciato il suo primo prodotto software è una manovra che ha più a che fare con la FOMO (Fear Of Missing Out) dei Venture Capitalist che con i fondamentali economici attuali.

Marble è uno strumento impressionante, con i suoi piani di abbonamento che arrivano fino a 95 dollari al mese per i power user, ma la strada per giustificare tale valutazione è ripida.

Il problema tecnico principale rimane l’accuratezza. Un “world model” per essere utile in ambiti critici (come la guida autonoma o la robotica industriale) non può limitarsi a essere visivamente plausibile; deve essere fisicamente corretto.

Se il modello genera un bellissimo video di un bicchiere che cade, ma calcola male la frammentazione del vetro o la gravità, per un regista di VFX va bene, ma per un robot è un disastro.

C’è poi la questione della “ground truth”, la verità di base. Gli LLM allucinano fatti; i World Models rischiano di allucinare la fisica.

Addestrare questi sistemi richiede una quantità di dati video e 3D etichettati che è ordini di grandezza più complessa da gestire rispetto al testo semplice. La scommessa di World Labs è che la loro architettura proprietaria riesca a inferire le leggi della fisica guardando video, senza che queste leggi vengano programmate esplicitamente.

Il tuo modello mentale di come si comporta il mondo.

— Yann LeCun, Executive Chairman presso AMI Labs

Questa frase di LeCun riassume la sfida. World Labs, AMI Labs e DeepMind stanno cercando di codificare l’intuizione umana in matrici matematiche. Se Fei-Fei Li avrà ragione, la valutazione di 5 miliardi sembrerà un affare tra qualche anno, perché avranno sbloccato la capacità delle macchine di uscire dagli schermi e agire nel mondo reale.

Tuttavia, c’è un’ombra di scetticismo che ogni buon ingegnere dovrebbe mantenere.

Siamo sicuri che scalare i dati video sia sufficiente per far emergere una comprensione causale del mondo? O stiamo semplicemente costruendo un motore di rendering neurale incredibilmente costoso che imita la realtà senza capirla?

La differenza tra simulare e comprendere è sottile per un osservatore esterno, ma è l’abisso che separa un videogioco ultra-realistico da una vera intelligenza artificiale. Per ora, il mercato ha deciso di scommettere sul primo per arrivare alla seconda.

Scritto da Luca Verdi

Developer e tech writer. Spiega la tecnologia dal punto di vista tecnico senza perdere di vista l'accessibilità. Ex software engineer, ora si dedica al giornalismo tech.

Startup

Editorials Pick's

Amazon

Apple

Categories

Pages

Newsletter

Non perdere nemmeno un articolo.

World labs: l’intelligenza artificiale spaziale vale 5 miliardi di dollari