GEN-1 da Generalist: 99% de Sucesso e 3x Mais Rapidez

Sejamos sinceros: a maioria das demonstrações de robótica é um ballet coreografado de desilusão, pautado por movimentos lentos e desajeitados que nos fazem questionar se a morte térmica do universo não chegará antes de a tarefa estar concluída. Mas, de vez em quando, surge algo que rasga o ruído. Hoje, esse “algo” é o novo modelo de IA da Generalist, o GEN-1. A empresa está a lançar promessas audazes: um cérebro de IA de uso geral para robôs que não se limita a funcionar — ele brilha.

A Generalist apresenta o GEN-1 como o primeiro modelo a “dominar” verdadeiramente tarefas físicas simples, e traz as provas na mão. Estamos a falar de taxas de sucesso médias de 99% em tarefas onde o seu antecessor, o GEN-0, ficava por uma nota positiva mas modesta de 64%. Além disso, completa as tarefas até três vezes mais rápido do que o estado da arte anterior e, mais importante ainda, consegue aprender uma nova função com apenas cerca de uma hora de dados específicos do robô. Não estamos perante uma atualização incremental; é uma potencial mudança de paradigma em direção a robôs que são, finalmente, comercialmente viáveis.

Das Leis de Escala ao Domínio Físico

Há apenas cinco meses, a Generalist introduziu o GEN-0, um modelo que forneceu a primeira prova real de que as leis de escala (scaling laws) — que sustentam a ascensão meteórica de LLMs como o GPT — também se poderiam aplicar à robótica. Mais dados e mais computação levaram a um desempenho previsivelmente melhor e mais generalizado. Foi um ponto académico crucial, mas o GEN-0 ainda não estava pronto para o horário nobre.

O GEN-1 é o resultado de levar esses parâmetros ao extremo. Foi treinado num conjunto de dados muito maior — agora com mais de meio milhão de horas de dados de interação física de alta fidelidade — e acelerado por novos avanços algorítmicos. O ingrediente secreto, no entanto, é a fonte dos dados. Em vez de depender apenas de conjuntos de dados de teleoperação caros e difíceis de escalar, a base do GEN-1 é construída sobre dados de dispositivos wearable de baixo custo usados por humanos. Isto proporciona um corpus rico de pré-treino sobre a física do mundo real e microcorreções intuitivas que as simulações ou a teleoperação muitas vezes deixam escapar.

“Acreditamos que o GEN-1 é o primeiro modelo de IA física geral a ultrapassar um limiar crítico: desbloquear a viabilidade comercial numa vasta gama de tarefas”, afirmou a empresa no seu anúncio.

Um braço robótico a embalar meticulosamente um smartphone numa caixa, demonstrando precisão de alta velocidade.

A Santíssima Trindade: Fiabilidade, Velocidade e Improviso

A Generalist define “domínio” como uma combinação de três capacidades fundamentais, duas das quais têm sido o pilar da automação industrial nos últimos 60 anos. É a terceira que muda o jogo.

Fiabilidade e Velocidade: O Padrão Industrial, Turbinado

Primeiro, os números são simplesmente impressionantes. Em testes de longa duração, o GEN-1 embalou blocos mais de 1.800 vezes seguidas, dobrou caixas mais de 200 vezes e até fez a manutenção de um aspirador robô mais de 200 vezes consecutivas — um robô a cuidar de outro robô, o que é ou o sonho da produtividade ou o início de um filme de terror muito específico. Estas tarefas decorreram durante horas sem intervenção, com uma taxa de sucesso de 99%.

Depois, há a velocidade. Robôs equipados com o GEN-1 conseguem montar uma caixa em 12,1 segundos, uma tarefa que levava ao seu antecessor cerca de 34 segundos. Colocar um telemóvel numa capa é feito em 15,5 segundos, 2,8 vezes mais rápido do que antes. Isto não é apenas uma questão de aumentar a rotação dos motores; o modelo aprende com a experiência e utiliza técnicas de inferência avançadas para executar tarefas de forma mais eficiente do que as demonstrações humanas que lhe serviram de base.

Video thumbnail

Improviso: A Faísca da Inteligência

Fiabilidade e velocidade são marcas registadas de braços industriais aparafusados ao chão de uma fábrica. O que lhes falta é a capacidade de lidar com a persistente recusa do universo em seguir o guião. É aqui que entra a “inteligência de improviso” do GEN-1.

A Generalist descreve isto como uma capacidade emergente, uma forma de “resolução de problemas em estilo livre”. Numa demonstração, um robô que organiza peças automóveis bate acidentalmente numa anilha. Em vez de congelar ou falhar, o sistema alimentado pelo GEN-1 avalia a situação e adapta-se. Pode pousar a anilha para a agarrar de novo com firmeza, ou usar de forma astuta a borda de uma ranhura para reorientar a peça, ou até usar a outra mão para uma assistência bimanual. Estas não são rotinas de recuperação pré-programadas; são soluções inéditas geradas no momento, muito além da distribuição de treino original. Esta é a diferença entre automação e autonomia.

Mais do que um Modelo, é um Sistema

É fundamental compreender que o GEN-1 não é apenas um conjunto de pesos de um modelo. É um sistema completo que inclui inovações no pré-treino, técnicas de pós-treino e processamento em tempo de inferência. Esta abordagem ao nível do sistema é o que o torna tão eficiente em termos de dados, capaz de se adaptar a um novo corpo robótico e a uma nova tarefa simultaneamente com cerca de uma hora de novos dados.

Um braço robótico a fazer a manutenção de um aspirador robô, demonstrando uma interação complexa entre duas máquinas.

Claro que o GEN-1 não é uma panaceia para a AGI física. A empresa apressa-se a apontar as suas limitações. Nem todas as tarefas atingem essa taxa de sucesso de 99%+, e algumas aplicações industriais exigem uma fiabilidade ainda maior. Além disso, o improviso emergente levanta a questão crítica do alinhamento da IA. Um robô que consegue resolver um problema de forma criativa é fantástico, mas também é preciso garantir que as suas soluções criativas não envolvam, por exemplo, abrir um buraco na parede em nome da eficiência.

Um par de braços robóticos a trabalhar em conjunto para dobrar uma t-shirt, um desafio clássico de manipulação destra.

Ainda assim, o lançamento do GEN-1 parece um marco histórico. Reforça o argumento de que escalar modelos com vastas quantidades de dados de interação física do mundo real é o caminho mais promissor para robôs generalistas. Ao focar-se num trio de desempenho — fazer a tarefa bem, fazê-la depressa e saber o que fazer quando algo corre mal — a Generalist pode ter acabado de dar um passo de gigante para tornar realidade o sonho do robô útil e de uso geral. Para nós, isto é mais do que um modelo; é um sinal de que o mundo físico está finalmente prestes a tornar-se muito mais inteligente.