Meta apresenta SAM Audio, o primeiro modelo multimodal unificado para separação de áudio

🔊 SAM Audio permite isolar qualquer som usando texto, pistas visuais ou marcações de tempo

A Meta anunciou o SAM Audio, um novo modelo de inteligência artificial que inaugura uma abordagem unificada e multimodal para separação de áudio em cenários reais. Inspirado pelo sucesso do Segment Anything Model (SAM) na visão computacional, o SAM Audio leva o mesmo conceito para o som, permitindo isolar instrumentos, vozes ou eventos sonoros específicos em mixagens complexas por meio de instruções naturais, como texto, cliques visuais em vídeos ou marcações temporais. No centro do sistema está o Perception Encoder Audiovisual (PE-AV), uma evolução do Perception Encoder de código aberto lançado pela Meta no início do ano. O PE-AV atua como o mecanismo perceptivo do modelo, alinhando informações visuais e sonoras no tempo e permitindo que o SAM Audio associe com precisão o que é visto ao que é ouvido. Esse alinhamento audiovisual é essencial para separar fontes sonoras ancoradas visualmente, como pessoas falando ou instrumentos em cena, e até inferir eventos fora do campo de visão. O SAM Audio introduz três formas principais de interação: prompts de texto, como "cachorro latindo"; instruções visuais, clicando em objetos ou pessoas no vídeo; e prompts de extensão temporal, uma inovação que permite marcar trechos específicos onde o som desejado ocorre. Essas modalidades podem ser usadas isoladamente ou combinadas, oferecendo controle preciso e intuitivo ao usuário. Do ponto de vista técnico, o modelo utiliza uma arquitetura generativa baseada em transformadores de difusão com correspondência de fluxo. Ele recebe uma mixagem de áudio e os prompts multimodais, codifica tudo em uma representação compartilhada e gera as faixas de áudio alvo e residual. Para viabilizar o treinamento em larga escala, a Meta desenvolveu um pipeline avançado de dados que combina mixagens realistas, geração automática de prompts multimodais e pseudo-rotulagem, cobrindo fala, música e sons ambientais. Junto ao modelo principal, a Meta também apresentou dois recursos inéditos para o ecossistema de áudio: o SAM Audio-Bench, primeiro benchmark de separação de áudio em condições reais e multimodais, e o SAM Audio Judge, um modelo automático de avaliação que mede a qualidade da separação com base em critérios perceptivos alinhados à audição humana, sem necessidade de faixas de referência. Em avaliações, o SAM Audio superou modelos de última geração em múltiplos benchmarks e igualou ou excedeu soluções especializadas por domínio. O sistema opera mais rápido que o tempo real (RTF ≈ 0,7) e escala entre 500 milhões e 3 bilhões de parâmetros. Apesar disso, ainda enfrenta desafios ao separar fontes extremamente semelhantes, como um cantor solo em meio a um coral. Com aplicações que vão de limpeza de áudio e criação musical até acessibilidade e dispositivos auditivos inteligentes, o SAM Audio representa um avanço significativo rumo a uma IA mais criativa, inclusiva e perceptivamente alinhada. 🎧 Para a SevenCoins, esse movimento reforça a tendência de modelos unificados e multimodais como base da próxima geração de ferramentas inteligentes.