Google planeja integrar Gemini ao cursor do mouse para interpretar comandos na tela

13/05/2026
16:39

O Google DeepMind quer ressignificar um dos elementos mais antigos e onipresentes da computação pessoal: o cursor do mouse. Em demos experimentais divulgados em sua conta no X, a divisão de pesquisa do Google apresentou um conceito que coloca o modelo Gemini por trás do ponteiro, transformando o simples ato de apontar para a tela em um comando interpretado por inteligência artificial. A proposta vai além do assistente flutuante ou do chatbot lateral, e é justamente isso que torna a ideia ao mesmo tempo interessante e polêmica.

We’re reimagining a 50-year-old interface – the mouse pointer – with AI. 🖱️

These experimental demos show how people can intuitively direct Gemini on their screens using motion, speech, and natural shorthand to get things done 🧵 pic.twitter.com/p6fhgNcopz

— Google DeepMind (@GoogleDeepMind) May 12, 2026

O ponteiro como interface conversacional

A premissa foi articulada por Adrien Baranes, pesquisador sênior de prototipagem de interações humano-IA no Google DeepMind: “O cursor do mouse é algo que foi esquecido. E se por trás do ponteiro houvesse um modelo de IA, como o Gemini, tentando interpretar o que estamos dizendo, como outra pessoa faria?” A lógica é atacar um problema real dos modelos de linguagem atuais: a dependência de instruções precisas e descontextualizadas.

A solução proposta combina gestos do cursor com linguagem natural e atalhos coloquiais, tipo “move isso aqui”. Em vez de exigir que o modelo entenda sozinho a diferença entre uma lista de compras, uma receita ou um bloco de código, o ponteiro age como âncora contextual: ao passar sobre um elemento, o Gemini “enxerga” o que está sob o cursor e restringe o escopo da interpretação. Conforme o próprio Google DeepMind colocou: “ao ‘ver’ o que está sob seu cursor, ele entende instantaneamente a palavra específica, a imagem ou o bloco de código com que você precisa de ajuda.”

Casos de uso: do trivial ao agêntico

Os demos exploram dois cenários. O primeiro é doméstico: copiar ingredientes de uma receita para uma lista de compras com menos cliques do que o fluxo tradicional de copiar e colar exigiria. O segundo é mais ambicioso, e levanta mais questões: o usuário assiste a um vídeo de “top 10 lugares para comer em Tóquio”, arrasta o cursor sobre a placa de um restaurante e o Gemini inicia o processo agêntico de reservar uma mesa para a noite seguinte, acessando e-mails e outros dados do usuário no caminho.

É nesse ponto que a proposta entra em território conhecido pelos riscos que já documentamos: agentes de IA com acesso a dados sensíveis são um vetor de erro bem estabelecido. A fonte pondera que, no exemplo do restaurante, existem múltiplos passos intermediários que permitem ao usuário recuar, o que é um sinal de que há algum cuidado de UX no desenho do fluxo. Mas a margem para equívocos causados por um misclick, em um sistema que age autonomamente, não é trivial.

A questão de privacidade que não vai embora

Se o conceito saísse do laboratório, o Gemini estaria, em tese, monitorando tudo o que aparece sob o cursor ao longo do dia de trabalho. A documentação oficial de suporte do Gemini esclarece que “resumos, trechos, mídias geradas e inferências” resultantes dos prompts do usuário são o que alimenta o treinamento, não o conteúdo bruto do desktop. Isso repete a mesma distinção que o Google usa para o Gmail: não é o e-mail completo que vai para o modelo, mas o que o modelo produz a partir dele. Para muitos usuários, essa distinção não é suficientemente tranquilizadora, e com razão, dado que o padrão de comportamento no desktop pode revelar tanto quanto o conteúdo em si.

Reinventar o que já funciona tem um custo

O cursor existe há mais de 50 anos e sobreviveu a tentativas de substituição por toque, voz e gestos justamente porque é preciso, de baixa latência e não exige nenhuma camada de interpretação extra do sistema. Inserir um modelo de linguagem nessa cadeia significa adicionar latência de inferência, dependência de conectividade e uma superfície nova para erros contextuais em uma interface que, por definição, precisa ser imediata e previsível.

Fonte: hardware.com.br

Google planeja integrar Gemini ao cursor do mouse para interpretar comandos na tela

O ponteiro como interface conversacional

Casos de uso: do trivial ao agêntico

A questão de privacidade que não vai embora

Reinventar o que já funciona tem um custo

Leia mais

Pesquisa aponta que fake news sobre eleições miram urnas eletrônicas

Anvisa adia análise de recurso da Ypê contra suspensão de produtos

Operação “Dia das Mães 2026” tem 69 pontos fiscalizados pelo Procon Sorocaba

5 filmes imperdíveis que chegam aos cinemas em 14 de maio de 2026

Governo cria subsídio de até R$ 0,89 para segurar preço da gasolina

GCM realiza operação de trânsito em alusão ao Maio Amarelo na região central de Sorocaba

Mais lidas hoje

Flu, Inter e Cruzeiro vencem e avançam na Copa do Brasil

Pesquisadores da Marinha escanearam o fundo do mar e rastrearam um sinal. Então, encontraram um naufrágio impressionante de 500 anos

Jordana, do BBB 26, manda a real sobre romance com Jonas: “Tem muita pressão”

Adeus crosta no vaso: o método barato que ajuda a remover manchas sem usar química pesada

O hábito de receber amigos em casa está sumindo e isso revela muito sobre nossa vida atual

Fluminense supera o Operário-PR no Maracanã e avança às oitavas da Copa do Brasil