O Google DeepMind apresentou nesta terça-feira (30) dois novos modelos de inteligência artificial generativa voltados à criação de mídia: o Nano Banana 2 Lite e o Gemini Omni Flash. Ambos estão integrados ao ecossistema Gemini e já estão disponíveis no Google AI Studio e via API do Gemini.
A proposta não é lançar mais um modelo para competir no benchmark da semana, mas sim fechar uma cadeia de produção multimídia dentro de um único ambiente: gera a imagem em segundos, passa para o vídeo, itera via linguagem natural. O ritmo de produção criativa vai mudar de patamar, e o preço de entrada foi calculado para viabilizar isso em escala.
Quatro segundos e três centavos por mil imagens
O Nano Banana 2 Lite integra a família Gemini 3.1 Flash Lite Image e foi desenhado com uma premissa clara: velocidade acima de tudo. O modelo consegue gerar imagens a partir de texto em cerca de quatro segundos, com custo estimado de 0,034 dólar por mil imagens, conforme dados divulgados pelo Google DeepMind. Para quem trabalha com prototipagem rápida ou produção em grande volume, esses números mudam a equação de viabilidade de forma concreta.
O Google posiciona o modelo para testes visuais e processos iterativos, o que faz sentido dado o seu perfil técnico. O sistema mantém boa aderência aos prompts e preserva consistência na representação de elementos visuais, mas o desempenho cai em cenários que exigem leitura precisa de textos inseridos nas imagens ou maior rigor na construção de infográficos. Para quem precisa de imagens limpas com tipografia integrada, as limitações são reais e o Google não tenta escondê-las.
Vídeo conversacional com entrada multimodal

O Gemini Omni Flash opera em outro eixo da criação digital: geração e edição de vídeos a partir de interações em linguagem natural. O modelo aceita texto, imagens e vídeos como entrada, produzindo cenas editáveis de forma conversacional, o que representa uma mudança significativa no fluxo de trabalho de quem precisa iterar rapidamente sobre conteúdo audiovisual.
Na fase atual, o sistema suporta vídeos de até dez segundos. As limitações declaradas pelo Google incluem restrições no uso de áudio e descontinuidade de personagens entre cenas, dois pontos que limitam o uso em produções mais elaboradas. Ainda assim, o controle narrativo via linguagem natural é o diferencial que o mercado vai observar de perto, especialmente em fluxos de produção automatizados.
Uma cadeia, dois modelos, um watermark obrigatório
A proposta de integração entre os dois modelos é onde a estratégia do Google fica mais clara: imagens geradas pelo Nano Banana 2 Lite podem ser usadas como base para animações e vídeos produzidos pelo Omni Flash, criando um pipeline contínuo de criação multimídia sem precisar sair do ecossistema Gemini. Geração de imagem, refinamento e animação em sequência, com o mesmo ambiente de API e os mesmos parâmetros de controle.
Os dois modelos contam com marcação de segurança SynthID, mecanismo do Google DeepMind que identifica conteúdos gerados por inteligência artificial mesmo após edições posteriores ao material original. A rastreabilidade está embutida na produção, não é um recurso opcional.
Fonte: Google
Você também pode gostar dos artigos abaixo:
Nome de usuário do WhatsApp é liberado — veja como ocultar seu número
Kindle no Prime Day: veja os modelos em oferta e escolha o ideal para você



