Qual è l'ironia tecnica dietro la creazione di Visual Brain da parte degli ex ingegneri di Face ID?

L'ironia risiede nel fatto che le stesse menti che hanno sviluppato la tecnologia per il riconoscimento facciale su iPhone, ora si concentrano su una sfida molto più complessa: dotare i robot della capacità di 'vedere' e comprendere l'ambiente circostante in modo quasi umano.

Qual è la sfida principale affrontata da Visual Brain nella percezione visiva dei robot?

La sfida principale è trasformare flussi di pixel grezzi in una comprensione semantica dello spazio, permettendo ai robot di interpretare l'ambiente in modo simile a come fanno gli umani.

Perché la transizione da Face ID alla robotica non è così semplice come sembra?

Face ID opera in un ambiente controllato con un soggetto cooperativo, mentre un robot deve navigare in ambienti caotici, distinguere oggetti e calcolare traiettorie in tempo reale.

Qual è l'eredità di Face ID che Visual Brain intende sfruttare?

Visual Brain intende sfruttare l'integrazione maniacale tra hardware e software, tipica della cultura di Cupertino, per creare una sinergia tra sensori e machine learning nei robot.

Qual è il problema attuale dell'hardware robotico e come Visual Brain intende risolverlo?

Attualmente, l'hardware meccanico dei robot è spesso superiore ai loro 'cervelli' percettivi. Visual Brain mira a colmare questo vuoto portando l'esperienza della computer vision ad alta fedeltà su piattaforme robotiche più ampie.

Qual è il progetto J595 di Apple e come si collega alla fuga di talenti verso Visual Brain?

Il progetto J595 è un ambizioso dispositivo robotico da tavolo che rappresenta il tentativo di Apple di entrare nelle case degli utenti con dispositivi attivi e mobili. La fuga di talenti verso Visual Brain evidenzia il paradosso di Apple che perde competenze fondamentali per il suo futuro robotico.

Perché gli ingegneri di Visual Brain hanno scelto di fondare una startup invece di rimanere in Apple?

La scelta suggerisce che la visione di Apple potrebbe essere troppo limitante o troppo lenta per questi ingegneri, che in una startup possono permettersi di sperimentare e innovare più rapidamente.

Cos'è la 'embodied AI' e come si collega al lavoro di Visual Brain?

La 'embodied AI' è l'intelligenza artificiale incarnata, che permette ai robot di associare il comando vocale alla comprensione visiva dell'ambiente. Visual Brain sta costruendo il ponte tra l'intelligenza astratta dei modelli linguistici e la realtà fisica.

Apple 4 months ago

Ex ingegneri Face ID lanciano Visual Brain: la nuova era della robotica?

La startup Visual Brain promette di rivoluzionare la robotica, portando la percezione visiva dei robot a un livello quasi umano grazie all’esperienza maturata nel team Face ID di Apple

C’è una certa ironia tecnica, quasi poetica, nel fatto che le stesse menti che hanno insegnato al nostro iPhone a riconoscerci in una frazione di secondo abbiano deciso che quella scatola chiusa non fosse più abbastanza.

Per anni, la tecnologia dietro il Face ID è stata il gold standard dell’autenticazione biometrica: una proiezione di 30.000 punti infrarossi per creare una mappa di profondità del volto umano. Un capolavoro di miniaturizzazione e sicurezza hardware.

Ma applicare quella stessa logica al mondo esterno, per permettere a un robot di “vedere” e comprendere l’ambiente circostante, è un problema di ordini di grandezza più complesso.

È proprio su questo dislivello tecnologico che si gioca la partita di Visual Brain.

Uscendo dalla modalità “stealth” proprio oggi, tre ingegneri chiave del team Face ID hanno lanciato Visual Brain, una startup che promette di portare la percezione visiva dei robot a un livello quasi umano.

Non si tratta semplicemente di montare telecamere su un automa; la sfida che questi ex dipendenti Apple stanno affrontando riguarda il cervello visivo, ovvero la capacità di trasformare flussi di pixel grezzi in comprensione semantica dello spazio.

Se guardiamo sotto il cofano, la transizione da Face ID a robotica non è così lineare come potrebbe sembrare ai non addetti ai lavori. Il riconoscimento facciale opera in un ambiente controllato, con un soggetto cooperativo e una geometria nota.

Un robot, al contrario, deve navigare nel caos entropico di un appartamento o di un magazzino, distinguere un gatto da un cuscino e calcolare traiettorie in tempo reale senza latenze fatali.

L’eleganza della soluzione proposta da Visual Brain risiederebbe proprio nell’utilizzo di modelli di AI visiva che non si limitano a mappare lo spazio, ma lo interpretano semanticamente, un approccio che ricorda molto da vicino come noi umani processiamo le informazioni visive.

L’eredità di Face ID e la sfida della percezione

Per un tecnico, l’aspetto più affascinante di questa notizia non è tanto il “chi”, quanto il “cosa”. Gli ingegneri dietro Visual Brain provengono da una cultura, quella di Cupertino, dove l’integrazione tra hardware e software è maniacale.

Il Face ID funzionava così bene perché il sensore e il Neural Engine parlavano la stessa lingua.

Nel mercato attuale della robotica, questa sinergia spesso manca. Abbiamo hardware meccanici eccellenti – pensiamo ai robot umanoidi che fanno parkour – ma spesso dotati di “cervelli” percettivi imbarazzanti, che faticano a riconoscere una porta a vetri o inciampano sui cavi.

Visual Brain sembra voler colmare questo vuoto, portando l’esperienza della computer vision ad alta fedeltà su piattaforme robotiche più ampie.

Se riuscissero a replicare l’affidabilità del riconoscimento facciale su scala ambientale, riducendo al contempo il carico computazionale, potremmo essere di fronte a un cambio di paradigma.

Tuttavia, bisogna mantenere un sano scetticismo.

Passare da un sistema statico e proprietario come quello di iPhone a soluzioni generaliste per la robotica comporta rischi enormi. La variabilità degli ambienti reali è il cimitero di molti algoritmi di visione artificiale che sulla carta sembravano perfetti.

La fuga di cervelli e il paradosso di Cupertino

Questa mossa arriva in un momento storicamente delicato per Apple. L’azienda non sta guardando la rivoluzione robotica dalla panchina; al contrario, le indiscrezioni confermano che il team esecutivo ha approvato un ambizioso dispositivo robotico da tavolo noto come progetto J595.

Questo progetto, guidato da Kevin Lynch, rappresenta il tentativo di Apple di entrare nelle nostre case non più solo come fornitore di schermi passivi, ma con dispositivi attivi e mobili.

Il paradosso è evidente: proprio mentre Apple cerca di costruire il suo futuro robotico – reclutando tra l’altro centinaia di ingegneri dopo la chiusura del progetto auto a guida autonoma – perde i talenti che possiedono le competenze più critiche per quel futuro.

La percezione visiva è il collo di bottiglia fondamentale per qualsiasi robot domestico che voglia essere più utile di un semplice timer da cucina costoso.

Se il robot non capisce che stai gesticolando verso di lui o non riesce a seguirti con lo sguardo in modo naturale, l’illusione di intelligenza crolla.

La scelta di fondare Visual Brain suggerisce che, per questi ingegneri, la visione di Apple potrebbe essere troppo limitante o troppo lenta. In un gigante tech, l’innovazione deve spesso aspettare i cicli di rilascio dell’hardware consumer e conformarsi a standard di design rigidissimi.

Una startup, al contrario, può permettersi di “rompere le cose” pur di far funzionare un algoritmo sperimentale di visione stereoscopica.

Oltre l’hardware: il problema del software cieco

C’è un altro livello di lettura che riguarda l’ecosistema software. Con l’integrazione pervasiva dell’intelligenza artificiale annunciata alla WWDC nel 2024, Apple ha chiarito che Siri e i modelli linguistici saranno l’interfaccia utente del futuro.

Ma un LLM (Large Language Model) è cieco.

Può scrivere poesie, ma non sa se il robot sta per cadere dal tavolo.

Qui si inserisce la necessità di quella che in gergo chiamiamo “embodied AI” (intelligenza artificiale incarnata). Visual Brain, lavorando sulla “vista”, sta costruendo il ponte necessario tra l’intelligenza astratta dei modelli linguistici e la realtà fisica.

Un robot deve poter associare il comando vocale “prendi quella tazza” alla comprensione visiva di quale oggetto sia la tazza e dove si trovi nello spazio 3D.

La nascita di Visual Brain evidenzia una frattura nel monolite di Apple. Da una parte l’azienda cerca di trattenere tutto internamente, verticalizzando ogni componente; dall’altra, la complessità della robotica moderna richiede una specializzazione tale che persino i migliori ingegneri preferiscono staccarsi per focalizzarsi su un singolo, difficile problema: insegnare alle macchine a vedere.

Resta da capire se Visual Brain riuscirà a diventare il fornitore di “occhi” per l’industria robotica o se, in un classico colpo di scena della Silicon Valley, verrà riacquistata tra due anni proprio dall’azienda che i suoi fondatori hanno appena lasciato, magari per salvare un progetto J595 in difficoltà.

Nel codice, come nel business, a volte le soluzioni più eleganti sono quelle ricorsive.

Scritto da Luca Verdi

Developer e tech writer. Spiega la tecnologia dal punto di vista tecnico senza perdere di vista l'accessibilità. Ex software engineer, ora si dedica al giornalismo tech.

Startup

Editorials Pick's

Amazon

Apple

Categories

Pages

Newsletter

Non perdere nemmeno un articolo.

Ex ingegneri Face ID lanciano Visual Brain: la nuova era della robotica?

La startup Visual Brain promette di rivoluzionare la robotica, portando la percezione visiva dei robot a un livello quasi umano grazie all’esperienza maturata nel team Face ID di Apple

L’eredità di Face ID e la sfida della percezione

La fuga di cervelli e il paradosso di Cupertino

Oltre l’hardware: il problema del software cieco

La startup Visual Brain promette di rivoluzionare la robotica, portando la percezione visiva dei robot a un livello quasi umano grazie all’esperienza maturata nel team Face ID di Apple

L’eredità di Face ID e la sfida della percezione

La fuga di cervelli e il paradosso di Cupertino

Oltre l’hardware: il problema del software cieco

Articoli correlati

Apple in Cina: un trionfo nella sorveglianza digitale?

Apple si arrende: Siri diventa un chatbot AI per non perdere il controllo

iPhone 17e: il lancio di Apple tra MagSafe e la strategia di lock-in