GPT-Realtime-2: OpenAI revela modelo de voz para tradução e transcrição em tempo real

A OpenAI lançou o GPT-Realtime-2, o primeiro modelo de voz da empresa com capacidade de raciocínio da classe GPT-5. A tecnologia permite que aplicativos lidem com interrupções e mudanças de assunto em tempo real durante conversas ao vivo. O sistema expandiu a janela de contexto de 32 mil para 128 mil tokens, garantindo que o software mantenha a coerência em diálogos longos. Desenvolvedores podem ajustar o nível de processamento entre o mínimo e o “muito alto” (xhigh), dependendo da necessidade de velocidade ou da complexidade da tarefa. Um usuário pode interromper a explicação da IA no meio da frase e o sistema reorganiza a resposta sem perder o fio da meada.

US$ 32 por milhão de tokens de entrada e US$ 64 por milhão de tokens de saída é o custo para utilizar o modelo principal. Junto a ele, a empresa introduziu o GPT-Realtime-Translate, que traduz fala de mais de 70 idiomas para 13 saídas diferentes sem pausas. Para transcrição contínua, o GPT-Realtime-Whisper entrega texto em tempo real para legendas e notas de reuniões. A cobrança para tradução é de US$ 0,034 por minuto, enquanto a transcrição custa US$ 0,017. Ninguém paga esses valores por curiosidade técnica, mas para viabilizar fluxos de trabalho onde a voz substitui o teclado em ambientes profissionais.

O anúncio atinge diretamente o ecossistema da Apple em 2026. Com o iOS 27 preparando um sistema de extensão para assistentes de terceiros, desenvolvedores já utilizam permissões para rodar IAs conversacionais no painel do CarPlay. A integração ocorre através do aplicativo Codex para Mac, que agora opera o desktop em segundo plano em conjunto com o Xcode 26.3. Para o motorista que precisa ditar comandos complexos enquanto navega no trânsito, a latência reduzida significa que a IA entende o contexto antes mesmo da frase terminar.

A capacidade de o modelo realizar tarefas em segundo plano enquanto emite avisos verbais curtos — como “deixe-me verificar isso” — resolve o silêncio desconfortável do processamento. Os três modelos estão disponíveis imediatamente para integração. O mercado de interfaces de voz deixa de ser uma promessa de suporte básico para se tornar uma camada de computação invisível que exige hardware capaz de sustentar conexões constantes e baixa latência.

Leia mais

Economia
Produção de veículos cresceu 2,4% em abril, diz Anfavea
Sorocaba
2º Open de Plastimodelismo de Sorocaba é realizado nos dias 23 e 24 de maio
Variedades
Supremo profere nova decisão para barrar criação de penduricalhos
Variedades
Como corrigir tomada frouxa e deixar a parede segura sem acabamento torto
Tecnologia
Redragon Zeus Lite com 38% de desconto: esse headset gamer custa pouco e entrega muito
Economia
Ministro do TCU libera novos consignados do INSS após recurso da AGU

Mais lidas hoje