meta acaba de lançar uma nova ferramenta de IA generativa focada em áudio que pode gerar melodias musicais com base em prompts de texto, da mesma forma que o Dall-E da OpenAI pode evocar imagens. Chamada de AudioCraft, a ferramenta de IA de geração de imagem da Meta consiste em três modelos distintos – MusicGen, AudioGen e EnCodec – todos os quais foram colocados no domínio de código aberto. Esses modelos foram treinados em um catálogo de músicas licenciadas e efeitos sonoros disponíveis publicamente e prometem geração de música de alta qualidade com o mínimo de artefatos de áudio.

Usando prompts de texto, esses modelos podem ajudar a gerar uma ampla gama de sons, como pássaros cantando, cartas em movimento e muito mais. Meta diz que um dia a ferramenta pode até ser usada para criar músicas épicas enquanto você conta histórias para as crianças na hora de dormir. Mantendo-se próximo de suas raízes nas mídias sociais, a Meta espera que o AudioCraft possa ser de grande ajuda não apenas para empresas, mas também para criadores de conteúdo que desejam adicionar um toque especial sonoro exclusivo a seus vídeos compartilhados em plataformas como o Instagram.

Outro aspecto notável que a Meta elogia é a simplicidade, alegando que seu mecanismo de IA específico para áudio é mais fácil de usar do que as plataformas rivais existentes. Este não será o primeiro esforço da Meta no campo da IA ​​generativa. A empresa também oferece o Voicebox, que é capaz de gerar clipes de áudio em seis idiomas e, ao mesmo tempo, estilizá-los e eliminá-los. Depois, há o CM3leon, um modelo de IA generativo focado em imagens e texto.

Meta quer que o mundo melhore o AudioCraft

O Audiocraft depende do que Meta chama de “EnCodec Neural Audio Codec”, que processa áudio no mesmo formato tokenizado de seus chatbots AI regulares, como ChatGPT ou Bard. Pelas amostras compartilhadas pelo Meta até agora, parece que você pode ditar o tipo de timbre que deseja e as fontes de voz — que podem ser um instrumental musical ou qualquer outro objeto, desde um pássaro até um ônibus — para gerar um clipe de som usando um prompt de texto.

Aqui está uma amostra de um prompt de texto: “Tons terrosos, ambientalmente conscientes, com infusão de ukulele, harmônicos, arejados, descontraídos, instrumentação orgânica, grooves suaves.” Ele produz um clipe de 30 segundos, que na verdade não soa tão ruim, como você pode ouvir aqui no Meta’s postagem no blog. Por mais conveniente que pareça, você não terá muito controle granular sobre a geração de seus clipes de som, como teria com um instrumento real em suas mãos ou um sintetizador profissional.

O MusicGen, que a Meta afirma ter sido “especificamente adaptado para geração de música”, foi treinado usando aproximadamente 400.000 gravações e metadados no valor de 20.000 horas de música. Mas, mais uma vez, a diversidade dos dados de treinamento é um problema e a Meta também reconhece isso. O conjunto de dados de treinamento é predominantemente música de estilo ocidental com dados de áudio-texto correspondentes alimentados no idioma inglês. Simplificando, você terá mais sorte gerando uma melodia inspirada na música country em vez de uma melodia folclórica persa. Um dos principais objetivos por trás de empurrar o projeto para o mundo do código aberto é trabalhar no aspecto da diversidade, ao que parece.

Deixe Uma Resposta

Informação básica sobre protección de datos Ver más

  • Responsável: awaits.
  • Finalidad:  Moderar los comentarios.
  • Legitimación:  Por consentimiento del interesado.
  • Destinatarios y encargados de tratamiento:  Não se ceden o comunican datos um terceros para prestar este serviço.
  • Direitos: Acceder, rectificar y suprimir los datos.
  • Informação Adicional: Puede consultar la información detallada en la Política de Privacidad.

Este site usa cookies próprios e de terceiros para o seu bom funcionamento e para fins analíticos e para mostrar-lhe publicidade relacionada com as suas preferências com base num perfil elaborado a partir dos seus hábitos de navegação. Ao clicar no botão Aceitar, você concorda com o uso dessas tecnologias e o processamento de seus dados para esses fins.    Mais informação
Privacidad