Google lança ATLAS, novas leis de escalabilidade para modelos multilíngues de IA

🌍 Modelos além do inglês com performance otimizada e eficiência computacional

O Google apresentou ATLAS (Adaptive Transfer Scaling Laws), um conjunto inovador de leis de escalabilidade para modelos multilíngues de grande porte, abordando uma lacuna crítica na pesquisa pública, que até agora focava quase exclusivamente no inglês. O estudo inclui mais de 774 execuções de treino com modelos de 10M a 8B parâmetros, abrangendo 400+ línguas e avaliações em 48 idiomas. ATLAS oferece recomendações práticas sobre como balancear o tamanho do modelo, volume de dados e mistura de línguas, maximizando a performance em línguas-alvo como catalão, por meio de transferência cruzada de dados entre idiomas relacionados. Esse enfoque adapta leis tradicionais de escalabilidade a cenários multilíngues complexos, permitindo que desenvolvedores façam escolhas de treinamento baseadas em dados empíricos, não em suposições. Uma inovação central é a matriz de transferência cruzada, que identifica quais idiomas ajudam ou atrapalham o desempenho de outros. Resultados mostram que idiomas da mesma família linguística ou script compartilham sinergias significativas, enquanto a transferência nem sempre é simétrica. Inglês, francês e espanhol aparecem como idiomas especialmente úteis, devido à qualidade e diversidade de seus textos disponíveis publicamente. 🔬 ATLAS também formaliza a "maldição da multilinguagem", onde adicionar novos idiomas pode reduzir performance por limitações de capacidade. O estudo define regras concretas de escalabilidade: ao dobrar o número de idiomas, recomenda aumentar o tamanho do modelo em 1,18× e os dados em 1,66×, aproveitando transferências positivas que compensam a menor quantidade de dados por idioma. Outro ponto técnico é a decisão de pré-treinar do zero ou ajustar a partir de um checkpoint multilíngue. Resultados indicam que fine-tuning vence em orçamentos restritos de tokens, mas pré-treinamento supera quando há recursos suficientes, com pontos de cruzamento dependentes do tamanho do modelo e número de tokens. Essa abordagem fornece uma regra prática para alocação eficiente de recursos computacionais em modelos multilíngues. Com ATLAS, desenvolvedores podem planejar modelos multilíngues globais de forma muito mais eficiente, escolhendo combinações de idiomas, ajustando tamanho de modelo e dados, e decidindo o melhor caminho de pré-treino ou fine-tuning. ⚡ Para a SevenCoins, isso evidencia como decisões baseadas em dados podem acelerar inovação e ampliar suporte a usuários não falantes de inglês em aplicações de IA.