ACE-Step : La Révolution Open Source pour la Génération Musicale avec ComfyUI

mai 11, 2025

ACE-Step : La Révolution Open Source pour la Génération Musicale avec ComfyUI

Le monde de la création musicale assiste à l'émergence d'outils basés sur l'intelligence artificielle, et parmi eux, ACE-Step se distingue comme une initiative ambitieuse et open source. Développé conjointement par les équipes chinoises StepFun et ACE Studio, ACE-Step vise à devenir un modèle de fondation pour l'IA musicale, un peu à l'image de ce que Stable Diffusion a représenté pour la génération d'images. Ce guide explore ACE-Step et détaille son intégration dans l'environnement de création de ComfyUI.

Qu'est-ce qu'ACE-Step ?

ACE-Step est un modèle de génération musicale fondamental, open source, conçu pour offrir aux créateurs des outils efficaces, flexibles et de haute qualité pour la génération et l'édition musicale. Il est publié sous la licence Apache-2.0 et est gratuit pour un usage commercial.

Le modèle se distingue par une architecture holistique qui intègre la génération basée sur la diffusion avec un AutoEncodeur à Compression Profonde (DCAE) et un transformeur linéaire léger. Cela lui permet de surmonter certaines limitations des approches précédentes, notamment en conciliant vitesse de génération, cohérence musicale et contrôlabilité. Sur un GPU A100, ACE-Step peut synthétiser jusqu'à 4 minutes de musique en seulement 20 secondes, le rendant jusqu'à 15 fois plus rapide que certains modèles basés sur les LLM.

ACE-Step offre une riche extensibilité grâce à des techniques de fine-tuning comme LoRA et ControlNet, permettant aux développeurs de personnaliser le modèle pour diverses applications : édition audio, synthèse vocale, production d'accompagnement, clonage vocal ou transfert de style. Le code d'entraînement pour LoRA est déjà disponible, et celui pour ControlNet est prévu pour l'avenir.

Fonctionnalités Clés d'ACE-Step

Les sources mettent en avant plusieurs capacités de ce modèle :

Diversité des Styles et Genres : Il prend en charge les styles musicaux grand public via des tags courts, des descriptions textuelles ou des scénarios d'utilisation. Il peut générer de la musique dans différents genres avec une instrumentation et un style appropriés.
Prise en Charge Multilingue : ACE-Step prend en charge 19 langues, dont l'anglais, le chinois, le russe, l'espagnol, le japonais, l'allemand, le français, le portugais, l'italien et le coréen sont considérées comme ayant les meilleures performances. Lors de l'utilisation, différentes langues sont converties en lettres anglaises. Pour le moment dans ComfyUI, seule la conversion des hiragana et katakana japonais est entièrement implémentée. Pour d'autres langues, il est nécessaire de convertir manuellement les textes en lettres anglaises et d'ajouter une balise de code de langue (ex : [zh] pour le chinois).
Styles Instrumentaux et Techniques Vocales : Il peut produire des pistes instrumentales réalistes avec un timbre et une expression appropriés, même des arrangements complexes avec plusieurs instruments. Il est également capable de rendre diverses techniques vocales et expressions chantées de bonne qualité.
Contrôlabilité : ACE-Step propose des mécanismes avancés pour contrôler la génération, notamment la génération de variations, le "repainting" (régénération sélective d'une partie) et l'édition de paroles. L'édition de paroles permet de modifier localement les paroles tout en préservant la mélodie et l'accompagnement.
Applications (LoRA) : Des modèles affinés (LoRA) sont disponibles ou en développement pour des tâches spécifiques comme Lyric2Vocal (génération de voix à partir de paroles, utile pour les démos vocales) et Text2Samples (génération de boucles instrumentales ou d'effets sonores). Des outils comme RapMachine (spécialisé rap), StemGen (génération de pistes instrumentales individuelles pour un morceau de référence), et Singing2Accompaniment (génération d'un accompagnement complet à partir d'une piste vocale) sont annoncés comme "Coming Soon". Le potentiel de StemGen est particulièrement noté comme "énorme" pour les producteurs, car il aborde une limitation des autres générateurs.

ACE-Step dans ComfyUI

Une nouvelle majeure est que ComfyUI prend désormais en charge nativement ACE-Step. Cela permet d'explorer les capacités du modèle directement au sein de l'interface basée sur les nœuds de ComfyUI.

Installation et Utilisation Initiale avec ComfyUI sur Linux Mint

L'intégration d'ACE-Step dans une installation ComfyUI existante sur Linux Mint suit les étapes décrites dans les sources pour la mise en route. Il est important de noter que les sources décrivent les étapes pour utiliser ACE-Step avec ComfyUI, en supposant que ComfyUI est déjà installé et fonctionnel sur votre système Linux Mint. Les détails spécifiques sur l'installation de ComfyUI lui-même sur Linux Mint ne sont pas inclus dans les sources fournies.

Voici les étapes pour intégrer et utiliser ACE-Step dans votre ComfyUI sur Linux Mint :

Mettre à Jour ComfyUI : Assurez-vous que votre installation de ComfyUI est mise à jour à la dernière version.
Télécharger le Workflow : Téléchargez le fichier de workflow JSON correspondant à la génération souhaitée (Text-to-Audio ou Audio-to-Audio).
Charger le Workflow dans ComfyUI : Faites glisser le fichier JSON téléchargé directement dans l'interface ComfyUI. Cela chargera automatiquement les nœuds et la structure du workflow ACE-Step.
Télécharger les Modèles : Le workflow chargé dans ComfyUI inclura les informations nécessaires au téléchargement des modèles. Le modèle principal à télécharger est ace_step_v1_3.5b.safetensors.
Placer le Modèle : Sauvegardez le fichier modèle téléchargé (ace_step_v1_3.5b.safetensors) dans le dossier ComfyUI/models/checkpoints de votre installation ComfyUI.
Vérifier le Nœud Load Checkpoints : Dans le workflow ComfyUI, assurez-vous que le nœud Load Checkpoints a bien chargé le modèle ace_step_v1_3.5b.safetensors.
Configurer les Entrées (Text-to-Audio) :
- Pour la génération Text-to-Audio, utilisez le nœud TextEncodeAceStepAudio.
- Saisissez les styles musicaux, scènes, etc., dans le champ tags, séparés par des virgules anglaises.
- Saisissez les paroles dans le champ lyrics, en utilisant potentiellement des balises de structure comme [verse], [chorus], [bridge]. N'oubliez pas les spécificités des langues autres que l'anglais mentionnées précédemment. Pour la musique purement instrumentale, vous pouvez saisir des noms d'instruments dans le champ lyrics.
Configurer les Entrées (Audio-to-Audio) :
- Pour la génération Audio-to-Audio, utilisez le nœud LoadAudio pour téléverser le morceau de musique source.
- Saisissez également des tags et lyrics comme pour le Text-to-Audio.
- Ajustez le paramètre denoise dans le nœud Ksampler. Ce paramètre contrôle la quantité de "bruit" ajoutée et détermine la similarité avec l'audio source. Une valeur plus petite donne une plus grande similarité. Une valeur de 1.00 revient à ignorer l'entrée audio source.
Exécuter la Génération : Cliquez sur le bouton Run dans ComfyUI ou utilisez le raccourci clavier Ctrl(cmd) + Enter pour lancer le processus de génération.
Prévisualiser et Sauvegarder : Une fois la génération terminée, le nœud Save Audio affichera l'audio généré. Vous pouvez cliquer dessus pour le lire et le prévisualiser. L'audio sera également sauvegardé localement dans le répertoire ComfyUI/output/audio (ou un sous-répertoire spécifié par le nœud Save Audio).

Ressources Supplémentaires

Stable Diffusion Moment of Audio?? Ace-Step Audio Model Native Support in ComfyUI! ComfyUI ACE-Step Native Example - ComfyUI Youtube: FREE AI MUSIC GENERATOR | Open Source ACE-STEP

Le dépôt GitHub. ace-step/ACE-Step: ACE-Step: A Step Towards Music Generation Foundation Model

Conclusion

ACE-Step représente une étape importante vers la création d'un écosystème open source pour l'IA musicale. Son intégration native dans ComfyUI le rend accessible aux créateurs souhaitant expérimenter la génération musicale dynamique, l'édition et potentiellement la création de pistes séparées à l'avenir. Bien qu'il soit encore en développement et que la qualité audio puisse varier par rapport aux offres commerciales (comme Suno ou Udio), sa nature open source, sa vitesse et ses fonctionnalités de contrôle en font une alternative très intéressante et prometteuse.