O segredo mais bem guardado da robótica moderna é que a maioria das demonstrações impressionantes que vemos por aí não passa de um teatro de marionetes de alta tecnologia. Um exército de operadores humanos, presos a equipamentos de teleoperação complexos e caríssimos, guia remotamente cada movimento do robô apenas para gerar os dados necessários para ensiná-lo algo útil. É um processo lento, dispendioso e, sejamos sinceros, impossível de escalar. Tony Zhao e Cheng Chi, ex-doutorandos de Stanford e fundadores da Sunday AI, olharam para esse “impasse de escala” e decidiram simplesmente ignorá-lo.
A solução deles, que impulsiona o novo modelo de fundação chamado ACT-1, é de uma simplicidade desconcertante: se você quer que um robô aprenda uma tarefa, faça você mesmo. Em vez de um suporte de teleoperação de US$ 20.000, os engenheiros da Sunday utilizam uma “Luva de Captura de Habilidades” de apenas US$ 200. Esta luva, projetada para espelhar a geometria e os sensores da mão do robô Memo, captura os dados sutis e táteis do movimento humano. A premissa é audaciosa: se um humano consegue realizar a tarefa usando a luva, o robô pode aprendê-la — sem a necessidade de titereiros.
O Gargalo de Dados e a Solução da Luva
A crença central da Sunday é que a robótica não está estagnada por falta de hardware, processamento ou financiamento, mas sim por uma restrição única e definitiva: dados. Enquanto os Grandes Modelos de Linguagem (LLMs) puderam devorar a internet inteira, a robótica não possui um corpus semelhante de dados de interação do mundo real. Empresas como a Tesla podem aproveitar milhões de carros para coletar informações, mas as startups de robótica não têm esse luxo. A teleoperação foi a resposta da indústria, mas é uma abordagem de força bruta, lenta e que consome muito capital.

A Luva de Captura de Habilidades é a jogada de mestre da Sunday para contornar esse problema. Ao descentralizar a coleta de dados, qualquer pessoa, em qualquer lugar, pode contribuir para o conjunto de treinamento sem precisar da presença física de um robô. Isso oferece duas vantagens cruciais:
- Eficiência de Capital: A Sunday afirma que a luva é duas ordens de magnitude mais barata do que uma configuração padrão de teleoperação, reduzindo drasticamente o custo de aquisição de dados.
- Qualidade dos Dados: Para tarefas que dependem do “tato” — como determinar a força necessária para dobrar uma meia ou encaixar uma taça de vinho na máquina de lavar — a luva fornece um feedback de força natural que a teleoperação remota simplesmente não consegue replicar.
Essa abordagem permite que a Sunday capture dados de centenas de lares reais e bagunçados, construindo um dataset que reflete a “cauda longa da vida cotidiana” — com gatos pulando em máquinas de lavar louça e tudo mais.
Da Mesa de Jantar à Máquina de Lavar Louça
Para provar o valor do ACT-1, a Sunday apresentou o que chama de “a tarefa mais complexa já realizada por um robô de forma autônoma”: tirar a mesa de jantar e carregar a máquina de lavar louça. Não se trata apenas de pegar e largar objetos. A tarefa envolve 33 interações únicas e um total de 68 movimentos destros com 21 objetos diferentes — desde taças de vinho delicadas e transparentes até pratos de cerâmica e utensílios de metal.
Durante essa maratona, o robô Memo percorre mais de 40 metros, descarta restos de comida e até opera a máquina de lavar. É uma sinfonia de manipulação fina e navegação em escala de ambiente, tudo controlado por um único modelo de ponta a ponta (end-to-end). O cofundador Tony Zhao admite que quebraram muitas taças durante o desenvolvimento, mas conseguiram zero quebras em mais de 20 demonstrações ao vivo, um testamento à sensibilidade refinada do modelo.
Generalização Zero-Shot no Mundo Real
Um robô que só funciona no próprio laboratório não passa de um projeto de feira de ciências. Para provar a adaptabilidade do ACT-1, a equipe enviou o Memo para seis Airbnbs desconhecidos. O objetivo: limpar a mesa e carregar a máquina de lavar sem qualquer treinamento específico para aqueles ambientes.

Ao condicionar o modelo a mapas 3D durante o treinamento, o ACT-1 aprende a interpretar novos layouts em vez de memorizar locais específicos. Quando colocado em uma casa nova, ele usa o mapa fornecido para navegar até pontos-chave, demonstrando uma capacidade crucial para qualquer robô destinado ao caos de um lar real. Até o momento, o ACT-1 é o primeiro modelo de fundação a combinar este nível de manipulação de longo prazo com navegação condicionada por mapas.
Expandindo as Fronteiras da Destreza
Além do desafio da máquina de lavar louça, a Sunday também está exibindo a finesse do ACT-1 com dois desafios notoriamente difíceis: dobrar meias e preparar um café expresso. Enquanto outros robôs já dobraram itens grandes e previsíveis, meias são um pesadelo de deformabilidade e auto-oclusão. O ACT-1 identifica com sucesso os pares em uma pilha desordenada, faz o “rolinho” usando movimentos multi-digitais e as deposita em um cesto.
Já a operação de uma máquina de café demonstra uma combinação de precisão milimétrica e força bruta. O robô realiza a compactação do café (tamping) no ar, insere o porta-filtro e gera o alto torque necessário para travá-lo antes de apertar o botão. Estas não são apenas demonstrações chamativas; são provas meticulosas da qualidade e das nuances dos dados que a Luva de Captura de Habilidades pode fornecer.
A estratégia da Sunday é uma aposta ousada. Ao apostar tudo em um método inovador de coleta de dados, a empresa ignorou o maior gargalo do setor e produziu um modelo com capacidades surpreendentes. O robô Memo, com suas rodas, pode não ter o apelo sci-fi de um humanoide bípede, mas sua inteligência prática é inegável. A Sunday lançou o desafio, sugerindo que o futuro da robótica pode não ser construído por titereiros, mas simplesmente mostrando ao robô como a coisa é feita.













