Este robô descascou uma maçã, e esse gesto simples representa um grande avanço para a robótica

Descascar uma maçã parece banal. Para um robô, é um pesadelo de coordenação: uma mão precisa girar a fruta sem deixá-la cair, enquanto a outra conduz a faca com força calibrada ao milímetro, e as duas precisam processar, em tempo real, o que os dedos estão sentindo. A Sharpa Robotics, empresa chinesa fundada como spin-off do Shanghai AI Lab, publicou um artigo descrevendo como seu sistema conseguiu fazer exatamente isso, de forma autônoma, pela primeira vez registrada na literatura científica.

O problema que derruba robôs inteligentes

Os modelos VLA (visão-linguagem-ação) vigentes, que traduzem comandos em linguagem natural em movimentos físicos, acumulam vitórias em tarefas simples de pegar e largar objetos com garras de dois dedos. O problema começa quando a manipulação deixa de ser agarrar e passa a ser manusear dentro da mão: girar, reposicionar, ajustar a pressão dos dedos quadro a quadro. O robô SharpaNorth, plataforma usada nos testes, tem 63 graus de liberdade distribuídos entre dois braços de 7 articulações cada e duas mãos SharpaWave com 22 articulações cada, além de pescoço, torso e cintura. Teleoperá-lo por exoesqueleto é tão cognitivamente desgastante que operadores experientes conseguem rotação estável de objetos dentro da mão em apenas 27% das tentativas com uma maçã — o objeto mais escorregadio dos testes.

IMCopilot: o copiloto que ensina e depois executa

Para resolver o gargalo de coleta de dados, a equipe criou o IMCopilot (copiloto de manipulação dentro da mão), um conjunto de habilidades treinadas por aprendizado por reforço (PPO no simulador IsaacLab) que desempenha dois papéis no mesmo ciclo de vida. Durante a gravação de demonstrações, o operador humano controla os movimentos grosseiros dos braços via exoesqueleto e transfere a fase de rotação dos dedos para o IMCopilot acionando um pedal de pé, o que elevou a taxa geral de rotação bem-sucedida de 34% (31/90 tentativas) para 89% (80/90). Na execução autônoma, o VLA de alto nível decide quando acionar o copiloto: um escalar c ∈ no vetor de ação ativa o IMCopilot sempre que c > 0,5, mantendo o controle dos braços com o VLA principal. Essa arquitetura hierárquica espelha o controle motor humano — o córtex planeja, o cerebelo executa os reflexos finos.

MoDE-VLA: especialistas que se revezam pelo tato

Com os dados coletados, entra em cena o MoDE-VLA (VLA de mistura de especialistas em destreza), construído sobre o backbone π₀ da Physical Intelligence (PaliGemma 3B + expert de ação Gemma 300M). O problema central que o MoDE resolve é de heterogeneidade modal: concatenar leituras de força e tato diretamente ao vetor de estado de um VLA pré-treinado piora o desempenho, como demonstrado por trabalhos anteriores citados no artigo, porque esses sinais têm semânticas físicas distintas e escalas temporais diferentes das imagens e do texto.

A solução tem três camadas. Primeiro, os sinais de força (torques de 14 juntas dos braços) e de tato (wrench de 6 graus de liberdade em cada um dos 10 dedos, totalizando 60 dimensões) são projetados para o espaço de embeddings do PaliGemma e replicados ao longo do horizonte de ação de 50 passos, criando janelas temporais independentes. Segundo, esses tokens passam por uma camada de atenção própria junto às representações visuais e linguísticas, e depois por um roteamento esparso de Mistura de Especialistas (MoE) com 8 redes especialistas e seleção top-1 por passo — ou seja, em cada instante do movimento, um especialista diferente é ativado: um para o primeiro contato da faca com a casca, outro para a fase de deslizamento estável, outro para a rotação. Terceiro, as correções geradas não substituem a predição base do VLA — são injetadas como resíduos, preservando o conhecimento pré-treinado para movimentos no espaço livre.

O que os números mostram

Em quatro tarefas de complexidade crescente, montagem de engrenagens, encaixe de carregador, reposicionamento de tubos e descascar maçã, o MoDE-VLA alcançou taxa média de sucesso de 34% contra 15% do modelo base π₀, mais que dobrando o desempenho. Os ganhos variam por tarefa: na montagem de engrenagens, subiu de 40% para 60%; no encaixe de carregador, de 5% para 15%; no reposicionamento de tubos, de 15% para 30%. No descascar maçã, o modelo base falha em 100% das tentativas, enquanto o MoDE-VLA completa a tarefa em 30% dos casos e, nas tentativas restantes, ainda descasca em média 73% da superfície-alvo (métrica de completude de descasque).

Os estudos de ablação revelam o peso de cada componente: retirar o sinal de força derruba a média para 23% (queda de 11 pontos percentuais), retirar o tato leva a 26% (queda de 8 pontos), e tentar treinar o VLA para aprender os movimentos de mão do IMCopilot diretamente, sem o copiloto dedicado, colapsa a métrica de completude do descasque de 73% para 25%.

O SharpaNorth usa câmeras visuais internas nos dedos da SharpaWave para detectar deformações minúsculas na ponta de cada dígito — uma abordagem de “sentir vendo” que elimina a necessidade de sensores de força externos nas pontas dos dedos. O sistema de coleta de dados combina exoesqueleto para os braços, luvas exoesqueléticas para as mãos, headset de realidade virtual com visão estereoscópica e feedback vibrotátil nos dedos do operador quando os dedos robóticos fazem contato. Durante os testes de coleta, o feedback sensorial reduziu o tempo de 100 demonstrações de engrenagem de 75 para 65 minutos, com a taxa de demonstrações aproveitáveis subindo de 85% para 93%

 

Leia mais

Variedades
O que a psicologia explica sobre quem se sente pressionado pelo tempo o tempo todo
Tecnologia
O PS1 definitivo: entusiasta cria console híbrido que roda jogos via microSD e tem saída HDMI nativa
Variedades
Via Sacra do Morro da Capelinha no DF chega à 53ª edição
Variedades
Como fazer uma máscara hidratante para os pés e conquistar pele de bebê sem sair de casa
Tecnologia
14.000 petaflops, 10.000 chips, zero da NVIDIA: o que o maior complexo de IA da China revela sobre o impacto das restrições impostas pelos EUA
Variedades
Janela de migração partidária termina nesta sexta-feira

Mais lidas hoje