Google Gemini e GPT avançam no domínio de idiomas raros

A Inteligência Artificial está prestes a resolver um dos maiores gargalos da comunicação global. Um novo estudo da empresa RWS, destacado, revela que modelos de ponta como o Google Gemini Pro alcançaram um nível de proficiência surpreendente em idiomas raros e pouco documentados digitalmente, como o quiniaruanda (falado por 12 milhões de pessoas na África Central).

O segredo da “Transferência Interlinguística”

O que impressiona os engenheiros é que a IA não precisou de terabytes de textos nesses idiomas para aprendê-los. Através de um mecanismo chamado “transferência entre línguas”, a IA utiliza padrões estatísticos que ela já conhece de idiomas globais para preencher as lacunas das línguas menores. É como se ela usasse a “lógica universal” da linguagem para entender dialetos específicos.

Outro herói silencioso desse avanço é a evolução dos tokenizadores. Essas ferramentas, que quebram as palavras em pedaços (tokens) para a IA processar, tornaram-se 3,5 vezes mais eficientes em algumas versões, permitindo que o sistema entenda estruturas gramaticais complexas com muito menos esforço computacional.

O fim dos dados em inglês

Há uma razão pragmática para esse interesse repentino em línguas raras: os dados em inglês acabaram. As grandes empresas de IA já treinaram seus modelos com quase tudo o que existe de qualidade em inglês na web. Para continuar evoluindo e expandindo o alcance, os desenvolvedores agora buscam o conhecimento guardado em idiomas que antes eram ignorados pelos grandes laboratórios do Vale do Silício.

Nem tudo é perfeito. O estudo alerta para o “desvio de benchmark”, onde uma versão nova da IA pode, curiosamente, performar pior que uma versão menor em tarefas específicas de idiomas locais. 

Leia mais

Sorocaba
Ação solidária arrecada alimentos com troca de álbum de figurinhas neste sábado (16)
Variedades
Esses sinais de linguagem não verbal muitas vezes passam despercebidos, mas pertencem a pessoas altamente inteligentes
Variedades
Fundação Casa de Jorge Amado inicia comemorações de seus 40 anos
Tecnologia
Cientistas criam músculo artificial com metal líquido que dá tato a robôs
Variedades
Confusão marca show de Marina Sena no Festival LED no Rio; assista
Variedades
EBC reforça aposta no futuro com Política de Inovação

Mais lidas hoje