A Inteligência Artificial está prestes a resolver um dos maiores gargalos da comunicação global. Um novo estudo da empresa RWS, destacado, revela que modelos de ponta como o Google Gemini Pro alcançaram um nível de proficiência surpreendente em idiomas raros e pouco documentados digitalmente, como o quiniaruanda (falado por 12 milhões de pessoas na África Central).
O segredo da “Transferência Interlinguística”
O que impressiona os engenheiros é que a IA não precisou de terabytes de textos nesses idiomas para aprendê-los. Através de um mecanismo chamado “transferência entre línguas”, a IA utiliza padrões estatísticos que ela já conhece de idiomas globais para preencher as lacunas das línguas menores. É como se ela usasse a “lógica universal” da linguagem para entender dialetos específicos.
Outro herói silencioso desse avanço é a evolução dos tokenizadores. Essas ferramentas, que quebram as palavras em pedaços (tokens) para a IA processar, tornaram-se 3,5 vezes mais eficientes em algumas versões, permitindo que o sistema entenda estruturas gramaticais complexas com muito menos esforço computacional.
O fim dos dados em inglês
Há uma razão pragmática para esse interesse repentino em línguas raras: os dados em inglês acabaram. As grandes empresas de IA já treinaram seus modelos com quase tudo o que existe de qualidade em inglês na web. Para continuar evoluindo e expandindo o alcance, os desenvolvedores agora buscam o conhecimento guardado em idiomas que antes eram ignorados pelos grandes laboratórios do Vale do Silício.
Nem tudo é perfeito. O estudo alerta para o “desvio de benchmark”, onde uma versão nova da IA pode, curiosamente, performar pior que uma versão menor em tarefas específicas de idiomas locais.



