Google Gemini e GPT avançam no domínio de idiomas raros

A Inteligência Artificial está prestes a resolver um dos maiores gargalos da comunicação global. Um novo estudo da empresa RWS, destacado, revela que modelos de ponta como o Google Gemini Pro alcançaram um nível de proficiência surpreendente em idiomas raros e pouco documentados digitalmente, como o quiniaruanda (falado por 12 milhões de pessoas na África Central).

O segredo da “Transferência Interlinguística”

O que impressiona os engenheiros é que a IA não precisou de terabytes de textos nesses idiomas para aprendê-los. Através de um mecanismo chamado “transferência entre línguas”, a IA utiliza padrões estatísticos que ela já conhece de idiomas globais para preencher as lacunas das línguas menores. É como se ela usasse a “lógica universal” da linguagem para entender dialetos específicos.

Outro herói silencioso desse avanço é a evolução dos tokenizadores. Essas ferramentas, que quebram as palavras em pedaços (tokens) para a IA processar, tornaram-se 3,5 vezes mais eficientes em algumas versões, permitindo que o sistema entenda estruturas gramaticais complexas com muito menos esforço computacional.

O fim dos dados em inglês

Há uma razão pragmática para esse interesse repentino em línguas raras: os dados em inglês acabaram. As grandes empresas de IA já treinaram seus modelos com quase tudo o que existe de qualidade em inglês na web. Para continuar evoluindo e expandindo o alcance, os desenvolvedores agora buscam o conhecimento guardado em idiomas que antes eram ignorados pelos grandes laboratórios do Vale do Silício.

Nem tudo é perfeito. O estudo alerta para o “desvio de benchmark”, onde uma versão nova da IA pode, curiosamente, performar pior que uma versão menor em tarefas específicas de idiomas locais. 

Leia mais

Variedades
Se você tem malas de viagem velhas ou quebradas, possui um tesouro: a solução é reutilizá-las em casa e não jogá-las fora
Variedades
TRE-RJ faz plantão para regularizar situação de eleitores
Sorocaba
UniSENAI-SP e Parque Tecnológico de Sorocaba lançam pós-graduação em Data Science e Big Data
Variedades
Além do Tempo: 5 segredos de bastidores que você não sabia sobre a novela
Tecnologia
ASRock HUDIMM: entenda o novo padrão que usa apenas um canal de memória para reduzir custos
Variedades
Princípio de incêndio atinge restaurante em edifício histórico do Rio

Mais lidas hoje