Ex ingegneri Face ID lanciano Visual Brain: la nuova era della robotica?
La startup Visual Brain promette di rivoluzionare la robotica, portando la percezione visiva dei robot a un livello quasi umano grazie all’esperienza maturata nel team Face ID di Apple
C’è una certa ironia tecnica, quasi poetica, nel fatto che le stesse menti che hanno insegnato al nostro iPhone a riconoscerci in una frazione di secondo abbiano deciso che quella scatola chiusa non fosse più abbastanza.
Per anni, la tecnologia dietro il Face ID è stata il gold standard dell’autenticazione biometrica: una proiezione di 30.000 punti infrarossi per creare una mappa di profondità del volto umano. Un capolavoro di miniaturizzazione e sicurezza hardware.
Ma applicare quella stessa logica al mondo esterno, per permettere a un robot di “vedere” e comprendere l’ambiente circostante, è un problema di ordini di grandezza più complesso.
È proprio su questo dislivello tecnologico che si gioca la partita di Visual Brain.
Uscendo dalla modalità “stealth” proprio oggi, tre ingegneri chiave del team Face ID hanno lanciato Visual Brain, una startup che promette di portare la percezione visiva dei robot a un livello quasi umano.
Non si tratta semplicemente di montare telecamere su un automa; la sfida che questi ex dipendenti Apple stanno affrontando riguarda il cervello visivo, ovvero la capacità di trasformare flussi di pixel grezzi in comprensione semantica dello spazio.
Se guardiamo sotto il cofano, la transizione da Face ID a robotica non è così lineare come potrebbe sembrare ai non addetti ai lavori. Il riconoscimento facciale opera in un ambiente controllato, con un soggetto cooperativo e una geometria nota.
Un robot, al contrario, deve navigare nel caos entropico di un appartamento o di un magazzino, distinguere un gatto da un cuscino e calcolare traiettorie in tempo reale senza latenze fatali.
L’eleganza della soluzione proposta da Visual Brain risiederebbe proprio nell’utilizzo di modelli di AI visiva che non si limitano a mappare lo spazio, ma lo interpretano semanticamente, un approccio che ricorda molto da vicino come noi umani processiamo le informazioni visive.
L’eredità di Face ID e la sfida della percezione
Per un tecnico, l’aspetto più affascinante di questa notizia non è tanto il “chi”, quanto il “cosa”. Gli ingegneri dietro Visual Brain provengono da una cultura, quella di Cupertino, dove l’integrazione tra hardware e software è maniacale.
Il Face ID funzionava così bene perché il sensore e il Neural Engine parlavano la stessa lingua.
Nel mercato attuale della robotica, questa sinergia spesso manca. Abbiamo hardware meccanici eccellenti – pensiamo ai robot umanoidi che fanno parkour – ma spesso dotati di “cervelli” percettivi imbarazzanti, che faticano a riconoscere una porta a vetri o inciampano sui cavi.
Visual Brain sembra voler colmare questo vuoto, portando l’esperienza della computer vision ad alta fedeltà su piattaforme robotiche più ampie.
Se riuscissero a replicare l’affidabilità del riconoscimento facciale su scala ambientale, riducendo al contempo il carico computazionale, potremmo essere di fronte a un cambio di paradigma.
Tuttavia, bisogna mantenere un sano scetticismo.
Passare da un sistema statico e proprietario come quello di iPhone a soluzioni generaliste per la robotica comporta rischi enormi. La variabilità degli ambienti reali è il cimitero di molti algoritmi di visione artificiale che sulla carta sembravano perfetti.
La fuga di cervelli e il paradosso di Cupertino
Questa mossa arriva in un momento storicamente delicato per Apple. L’azienda non sta guardando la rivoluzione robotica dalla panchina; al contrario, le indiscrezioni confermano che il team esecutivo ha approvato un ambizioso dispositivo robotico da tavolo noto come progetto J595.
Questo progetto, guidato da Kevin Lynch, rappresenta il tentativo di Apple di entrare nelle nostre case non più solo come fornitore di schermi passivi, ma con dispositivi attivi e mobili.
Il paradosso è evidente: proprio mentre Apple cerca di costruire il suo futuro robotico – reclutando tra l’altro centinaia di ingegneri dopo la chiusura del progetto auto a guida autonoma – perde i talenti che possiedono le competenze più critiche per quel futuro.
La percezione visiva è il collo di bottiglia fondamentale per qualsiasi robot domestico che voglia essere più utile di un semplice timer da cucina costoso.
Se il robot non capisce che stai gesticolando verso di lui o non riesce a seguirti con lo sguardo in modo naturale, l’illusione di intelligenza crolla.
La scelta di fondare Visual Brain suggerisce che, per questi ingegneri, la visione di Apple potrebbe essere troppo limitante o troppo lenta. In un gigante tech, l’innovazione deve spesso aspettare i cicli di rilascio dell’hardware consumer e conformarsi a standard di design rigidissimi.
Una startup, al contrario, può permettersi di “rompere le cose” pur di far funzionare un algoritmo sperimentale di visione stereoscopica.
Oltre l’hardware: il problema del software cieco
C’è un altro livello di lettura che riguarda l’ecosistema software. Con l’integrazione pervasiva dell’intelligenza artificiale annunciata alla WWDC nel 2024, Apple ha chiarito che Siri e i modelli linguistici saranno l’interfaccia utente del futuro.
Ma un LLM (Large Language Model) è cieco.
Può scrivere poesie, ma non sa se il robot sta per cadere dal tavolo.
Qui si inserisce la necessità di quella che in gergo chiamiamo “embodied AI” (intelligenza artificiale incarnata). Visual Brain, lavorando sulla “vista”, sta costruendo il ponte necessario tra l’intelligenza astratta dei modelli linguistici e la realtà fisica.
Un robot deve poter associare il comando vocale “prendi quella tazza” alla comprensione visiva di quale oggetto sia la tazza e dove si trovi nello spazio 3D.
La nascita di Visual Brain evidenzia una frattura nel monolite di Apple. Da una parte l’azienda cerca di trattenere tutto internamente, verticalizzando ogni componente; dall’altra, la complessità della robotica moderna richiede una specializzazione tale che persino i migliori ingegneri preferiscono staccarsi per focalizzarsi su un singolo, difficile problema: insegnare alle macchine a vedere.
Resta da capire se Visual Brain riuscirà a diventare il fornitore di “occhi” per l’industria robotica o se, in un classico colpo di scena della Silicon Valley, verrà riacquistata tra due anni proprio dall’azienda che i suoi fondatori hanno appena lasciato, magari per salvare un progetto J595 in difficoltà.
Nel codice, come nel business, a volte le soluzioni più eleganti sono quelle ricorsive.