GPT-Realtime-2: OpenAI revela modelo de voz para tradução e transcrição em tempo real

08/05/2026
16:39

A OpenAI lançou o GPT-Realtime-2, o primeiro modelo de voz da empresa com capacidade de raciocínio da classe GPT-5. A tecnologia permite que aplicativos lidem com interrupções e mudanças de assunto em tempo real durante conversas ao vivo. O sistema expandiu a janela de contexto de 32 mil para 128 mil tokens, garantindo que o software mantenha a coerência em diálogos longos. Desenvolvedores podem ajustar o nível de processamento entre o mínimo e o “muito alto” (xhigh), dependendo da necessidade de velocidade ou da complexidade da tarefa. Um usuário pode interromper a explicação da IA no meio da frase e o sistema reorganiza a resposta sem perder o fio da meada.

US$ 32 por milhão de tokens de entrada e US$ 64 por milhão de tokens de saída é o custo para utilizar o modelo principal. Junto a ele, a empresa introduziu o GPT-Realtime-Translate, que traduz fala de mais de 70 idiomas para 13 saídas diferentes sem pausas. Para transcrição contínua, o GPT-Realtime-Whisper entrega texto em tempo real para legendas e notas de reuniões. A cobrança para tradução é de US$ 0,034 por minuto, enquanto a transcrição custa US$ 0,017. Ninguém paga esses valores por curiosidade técnica, mas para viabilizar fluxos de trabalho onde a voz substitui o teclado em ambientes profissionais.

O anúncio atinge diretamente o ecossistema da Apple em 2026. Com o iOS 27 preparando um sistema de extensão para assistentes de terceiros, desenvolvedores já utilizam permissões para rodar IAs conversacionais no painel do CarPlay. A integração ocorre através do aplicativo Codex para Mac, que agora opera o desktop em segundo plano em conjunto com o Xcode 26.3. Para o motorista que precisa ditar comandos complexos enquanto navega no trânsito, a latência reduzida significa que a IA entende o contexto antes mesmo da frase terminar.

A capacidade de o modelo realizar tarefas em segundo plano enquanto emite avisos verbais curtos — como “deixe-me verificar isso” — resolve o silêncio desconfortável do processamento. Os três modelos estão disponíveis imediatamente para integração. O mercado de interfaces de voz deixa de ser uma promessa de suporte básico para se tornar uma camada de computação invisível que exige hardware capaz de sustentar conexões constantes e baixa latência.

Fonte: hardware.com.br

GPT-Realtime-2: OpenAI revela modelo de voz para tradução e transcrição em tempo real

Leia mais

Semob altera sentido de trânsito em rua no Parque São Bento

EUA leiloam espectro 5G por US$ 3,5 bi para banir Huawei e ZTE das redes americanas

Prévia da inflação perde força pelo 2º mês e fecha junho em 0,41%

O segredo dos jardineiros para eliminar pulgões e cochonilhas usando sabão neutro nas plantas

Equador amplia militarização com os EUA e dá imunidade a estrangeiros

Diferença salarial entre sexos é menor em entidades sem fim lucrativo

Mais lidas hoje

Saúde cria comitê para reduzir morte materna e infantil indígena

Saúde anuncia ampliação do atendimento à população em situação de rua

Brasil vence Escócia e marca retorno de Neymar

Tata Werneck lamenta morte nas redes em forte desabafo

A psicologia diz que pessoas que caminham devagar e com as mãos atrás das costas refletem calma e controle

Como fazer textura na parede e esconder imperfeições sem refazer todo o reboco