GPT-Realtime-2: OpenAI revela modelo de voz para tradução e transcrição em tempo real

08/05/2026
16:39

A OpenAI lançou o GPT-Realtime-2, o primeiro modelo de voz da empresa com capacidade de raciocínio da classe GPT-5. A tecnologia permite que aplicativos lidem com interrupções e mudanças de assunto em tempo real durante conversas ao vivo. O sistema expandiu a janela de contexto de 32 mil para 128 mil tokens, garantindo que o software mantenha a coerência em diálogos longos. Desenvolvedores podem ajustar o nível de processamento entre o mínimo e o “muito alto” (xhigh), dependendo da necessidade de velocidade ou da complexidade da tarefa. Um usuário pode interromper a explicação da IA no meio da frase e o sistema reorganiza a resposta sem perder o fio da meada.

US$ 32 por milhão de tokens de entrada e US$ 64 por milhão de tokens de saída é o custo para utilizar o modelo principal. Junto a ele, a empresa introduziu o GPT-Realtime-Translate, que traduz fala de mais de 70 idiomas para 13 saídas diferentes sem pausas. Para transcrição contínua, o GPT-Realtime-Whisper entrega texto em tempo real para legendas e notas de reuniões. A cobrança para tradução é de US$ 0,034 por minuto, enquanto a transcrição custa US$ 0,017. Ninguém paga esses valores por curiosidade técnica, mas para viabilizar fluxos de trabalho onde a voz substitui o teclado em ambientes profissionais.

O anúncio atinge diretamente o ecossistema da Apple em 2026. Com o iOS 27 preparando um sistema de extensão para assistentes de terceiros, desenvolvedores já utilizam permissões para rodar IAs conversacionais no painel do CarPlay. A integração ocorre através do aplicativo Codex para Mac, que agora opera o desktop em segundo plano em conjunto com o Xcode 26.3. Para o motorista que precisa ditar comandos complexos enquanto navega no trânsito, a latência reduzida significa que a IA entende o contexto antes mesmo da frase terminar.

A capacidade de o modelo realizar tarefas em segundo plano enquanto emite avisos verbais curtos — como “deixe-me verificar isso” — resolve o silêncio desconfortável do processamento. Os três modelos estão disponíveis imediatamente para integração. O mercado de interfaces de voz deixa de ser uma promessa de suporte básico para se tornar uma camada de computação invisível que exige hardware capaz de sustentar conexões constantes e baixa latência.

Fonte: hardware.com.br

GPT-Realtime-2: OpenAI revela modelo de voz para tradução e transcrição em tempo real

Leia mais

Governo renova contratos com distribuidoras de energia em 13 estados

Quintal de terra pode virar área limpa e útil sem gastar com piso caro

Bibliotecas Municipais de Sorocaba terão contação de história em homenagem ao Dia das Mães

SP: Virada Cultural 2026 terá samba, cinema e atrações internacionais

Site falso do Claude espalha malware para roubar dados e controlar computadores

Produção de veículos cresceu 2,4% em abril, diz Anfavea

Mais lidas hoje

Palit admite erro de comunicação e confirma permanência da marca Galax sob nova gestão

Jogo do Flamengo na Colômbia é cancelado após atos de violência da torcida

Tempestade histórica e mergulho acidental levam à descoberta de lendário navio pirata submerso

Supremo profere nova decisão para barrar criação de penduricalhos

2º Open de Plastimodelismo de Sorocaba é realizado nos dias 23 e 24 de maio

Crescer onde todo mundo se conhecia deixava a infância mais segura e acolhedora