A OpenAI lançou o GPT-Realtime-2, o primeiro modelo de voz da empresa com capacidade de raciocínio da classe GPT-5. A tecnologia permite que aplicativos lidem com interrupções e mudanças de assunto em tempo real durante conversas ao vivo. O sistema expandiu a janela de contexto de 32 mil para 128 mil tokens, garantindo que o software mantenha a coerência em diálogos longos. Desenvolvedores podem ajustar o nível de processamento entre o mínimo e o “muito alto” (xhigh), dependendo da necessidade de velocidade ou da complexidade da tarefa. Um usuário pode interromper a explicação da IA no meio da frase e o sistema reorganiza a resposta sem perder o fio da meada.
US$ 32 por milhão de tokens de entrada e US$ 64 por milhão de tokens de saída é o custo para utilizar o modelo principal. Junto a ele, a empresa introduziu o GPT-Realtime-Translate, que traduz fala de mais de 70 idiomas para 13 saídas diferentes sem pausas. Para transcrição contínua, o GPT-Realtime-Whisper entrega texto em tempo real para legendas e notas de reuniões. A cobrança para tradução é de US$ 0,034 por minuto, enquanto a transcrição custa US$ 0,017. Ninguém paga esses valores por curiosidade técnica, mas para viabilizar fluxos de trabalho onde a voz substitui o teclado em ambientes profissionais.
O anúncio atinge diretamente o ecossistema da Apple em 2026. Com o iOS 27 preparando um sistema de extensão para assistentes de terceiros, desenvolvedores já utilizam permissões para rodar IAs conversacionais no painel do CarPlay. A integração ocorre através do aplicativo Codex para Mac, que agora opera o desktop em segundo plano em conjunto com o Xcode 26.3. Para o motorista que precisa ditar comandos complexos enquanto navega no trânsito, a latência reduzida significa que a IA entende o contexto antes mesmo da frase terminar.
A capacidade de o modelo realizar tarefas em segundo plano enquanto emite avisos verbais curtos — como “deixe-me verificar isso” — resolve o silêncio desconfortável do processamento. Os três modelos estão disponíveis imediatamente para integração. O mercado de interfaces de voz deixa de ser uma promessa de suporte básico para se tornar uma camada de computação invisível que exige hardware capaz de sustentar conexões constantes e baixa latência.



