Este robô descascou uma maçã, e esse gesto simples representa um grande avanço para a robótica

03/04/2026
14:39

Descascar uma maçã parece banal. Para um robô, é um pesadelo de coordenação: uma mão precisa girar a fruta sem deixá-la cair, enquanto a outra conduz a faca com força calibrada ao milímetro, e as duas precisam processar, em tempo real, o que os dedos estão sentindo. A Sharpa Robotics, empresa chinesa fundada como spin-off do Shanghai AI Lab, publicou um artigo descrevendo como seu sistema conseguiu fazer exatamente isso, de forma autônoma, pela primeira vez registrada na literatura científica.

O problema que derruba robôs inteligentes

Os modelos VLA (visão-linguagem-ação) vigentes, que traduzem comandos em linguagem natural em movimentos físicos, acumulam vitórias em tarefas simples de pegar e largar objetos com garras de dois dedos. O problema começa quando a manipulação deixa de ser agarrar e passa a ser manusear dentro da mão: girar, reposicionar, ajustar a pressão dos dedos quadro a quadro. O robô SharpaNorth, plataforma usada nos testes, tem 63 graus de liberdade distribuídos entre dois braços de 7 articulações cada e duas mãos SharpaWave com 22 articulações cada, além de pescoço, torso e cintura. Teleoperá-lo por exoesqueleto é tão cognitivamente desgastante que operadores experientes conseguem rotação estável de objetos dentro da mão em apenas 27% das tentativas com uma maçã — o objeto mais escorregadio dos testes.

IMCopilot: o copiloto que ensina e depois executa

Para resolver o gargalo de coleta de dados, a equipe criou o IMCopilot (copiloto de manipulação dentro da mão), um conjunto de habilidades treinadas por aprendizado por reforço (PPO no simulador IsaacLab) que desempenha dois papéis no mesmo ciclo de vida. Durante a gravação de demonstrações, o operador humano controla os movimentos grosseiros dos braços via exoesqueleto e transfere a fase de rotação dos dedos para o IMCopilot acionando um pedal de pé, o que elevou a taxa geral de rotação bem-sucedida de 34% (31/90 tentativas) para 89% (80/90). Na execução autônoma, o VLA de alto nível decide quando acionar o copiloto: um escalar c ∈ no vetor de ação ativa o IMCopilot sempre que c > 0,5, mantendo o controle dos braços com o VLA principal. Essa arquitetura hierárquica espelha o controle motor humano — o córtex planeja, o cerebelo executa os reflexos finos.

MoDE-VLA: especialistas que se revezam pelo tato

Com os dados coletados, entra em cena o MoDE-VLA (VLA de mistura de especialistas em destreza), construído sobre o backbone π₀ da Physical Intelligence (PaliGemma 3B + expert de ação Gemma 300M). O problema central que o MoDE resolve é de heterogeneidade modal: concatenar leituras de força e tato diretamente ao vetor de estado de um VLA pré-treinado piora o desempenho, como demonstrado por trabalhos anteriores citados no artigo, porque esses sinais têm semânticas físicas distintas e escalas temporais diferentes das imagens e do texto.

A solução tem três camadas. Primeiro, os sinais de força (torques de 14 juntas dos braços) e de tato (wrench de 6 graus de liberdade em cada um dos 10 dedos, totalizando 60 dimensões) são projetados para o espaço de embeddings do PaliGemma e replicados ao longo do horizonte de ação de 50 passos, criando janelas temporais independentes. Segundo, esses tokens passam por uma camada de atenção própria junto às representações visuais e linguísticas, e depois por um roteamento esparso de Mistura de Especialistas (MoE) com 8 redes especialistas e seleção top-1 por passo — ou seja, em cada instante do movimento, um especialista diferente é ativado: um para o primeiro contato da faca com a casca, outro para a fase de deslizamento estável, outro para a rotação. Terceiro, as correções geradas não substituem a predição base do VLA — são injetadas como resíduos, preservando o conhecimento pré-treinado para movimentos no espaço livre.

O que os números mostram

Em quatro tarefas de complexidade crescente, montagem de engrenagens, encaixe de carregador, reposicionamento de tubos e descascar maçã, o MoDE-VLA alcançou taxa média de sucesso de 34% contra 15% do modelo base π₀, mais que dobrando o desempenho. Os ganhos variam por tarefa: na montagem de engrenagens, subiu de 40% para 60%; no encaixe de carregador, de 5% para 15%; no reposicionamento de tubos, de 15% para 30%. No descascar maçã, o modelo base falha em 100% das tentativas, enquanto o MoDE-VLA completa a tarefa em 30% dos casos e, nas tentativas restantes, ainda descasca em média 73% da superfície-alvo (métrica de completude de descasque).

Os estudos de ablação revelam o peso de cada componente: retirar o sinal de força derruba a média para 23% (queda de 11 pontos percentuais), retirar o tato leva a 26% (queda de 8 pontos), e tentar treinar o VLA para aprender os movimentos de mão do IMCopilot diretamente, sem o copiloto dedicado, colapsa a métrica de completude do descasque de 73% para 25%.

O SharpaNorth usa câmeras visuais internas nos dedos da SharpaWave para detectar deformações minúsculas na ponta de cada dígito — uma abordagem de “sentir vendo” que elimina a necessidade de sensores de força externos nas pontas dos dedos. O sistema de coleta de dados combina exoesqueleto para os braços, luvas exoesqueléticas para as mãos, headset de realidade virtual com visão estereoscópica e feedback vibrotátil nos dedos do operador quando os dedos robóticos fazem contato. Durante os testes de coleta, o feedback sensorial reduziu o tempo de 100 demonstrações de engrenagem de 75 para 65 minutos, com a taxa de demonstrações aproveitáveis subindo de 85% para 93%

Fonte: hardware.com.br

Este robô descascou uma maçã, e esse gesto simples representa um grande avanço para a robótica

O problema que derruba robôs inteligentes

IMCopilot: o copiloto que ensina e depois executa

MoDE-VLA: especialistas que se revezam pelo tato

O que os números mostram

Leia mais

Encontro no Rio debate papel da mulher preta em postos de decisão

A psicologia afirma: quem sempre se afasta quando alguém tira uma foto em grupo pode não odiar fotografias, mas temer a imagem que ficará registrada

PF apreende carros de luxo em operação contra Careca do INSS

Gartner prevê que IA fará 25% do trabalho de operações de TI até 2030, mas pode aumentar falhas críticas

Acordo regulamenta trabalho no comércio em feriados

É por isso que as roupas ficam com cheiro de mofo depois de lavadas – veja como resolver o problema

Mais lidas hoje

Moraes arquiva investigação contra Bolsonaro no caso Abin Paralela

Famosos mostram choque ao falar de diretor da Globo encontrado morto

Quase oito anos depois, Red Dead Redemption 2 continua mobilizando jogadores com novas descobertas e teorias

Ryzen 7 5700X ainda vale a pena? Processador da AMD aparece com super desconto

Nem hortênsias nem roseiras: esta planta resistente ao sol floresce por meses e quase não exige cuidados

Jardineiro ensina instalar uma borda de jardim sem refazer o canteiro inteiro