Orpheus-FastAPI TTS
mai 10, 2025
Orpheus-FastAPI : La synthèse vocale française qui va vous bluffer !
Chez CopyLaRadio, nous sommes toujours à l’affût des solutions libres et innovantes qui permettent à chacun de reprendre le contrôle de ses outils numériques. Aujourd’hui, c’est avec enthousiasme que nous vous présentons Orpheus-FastAPI, un serveur de synthèse vocale (TTS) nouvelle génération, désormais disponible pour tous les membres de la Constellation Sagittarius !
Une révolution dans la voix française
L’équipe CopyLaRadio a testé pour vous les voix françaises proposées par Orpheus, et il faut le dire : Pierre et Amélie sont tout simplement bluffants ! Leur intonation naturelle, leur clarté et leur expressivité rendent la lecture de textes en français incroyablement agréable à l’oreille. Que ce soit pour animer vos podcasts, donner vie à vos assistants vocaux ou dynamiser vos livres audio, ces voix rivalisent sans rougir avec les solutions propriétaires les plus coûteuses du marché.
Pierre : une voix masculine chaleureuse, posée, parfaite pour la narration ou les annonces.
Amélie : une voix féminine douce et dynamique, idéale pour les dialogues, messages d’accueil ou contenus pédagogiques.
Un bémol… et on assume !
Parce qu’on ne vous cache rien, il faut aussi le dire : la voix Marie n’est pas à la hauteur des deux autres. Les résultats sont, disons-le franchement, décevants. Mais c’est aussi ça, la magie du libre : tout évolue, et la communauté pourra sûrement améliorer ce point à l’avenir !
Un service exclusif pour la Constellation Sagittarius
Bonne nouvelle : ce service de synthèse vocale Orpheus-FastAPI, avec les voix Pierre et Amélie, est désormais disponible pour tous les membres de la Constellation Sagittarius ! Profitez-en pour donner une nouvelle dimension sonore à vos projets, que vous soyez créateur de contenu, développeur, ou simplement curieux de technologie.
Comment en profiter ?
- Contactez votre Capitaine pour qu'il active votre accès.
Pourquoi c’est important ?
Parce qu’en rejoignant la coopérative CopyLaRadio et la Constellation Sagittarius, vous participez à la construction d’un Internet décentralisé, éthique et résilient. Vous bénéficiez d’outils puissants, respectueux de votre vie privée, et vous soutenez l’innovation libre.
Rejoignez-nous, testez Orpheus-FastAPI, et faites entendre votre voix sur l’Internet des Gens !
Pour toute question ou pour rejoindre la Constellation Sagittarius, contactez-nous via CopyLaRadio.com.
À très vite sur les ondes libres ! 🚀
Installez Orpheus-FastAPI : Serveur TTS Multilingue Haute Performance
Orpheus-FastAPI est un serveur de synthèse vocale (Text-to-Speech, TTS) moderne et performant, compatible avec l’API d’OpenAI, offrant une prise en charge multilingue, des voix variées, des tags d’émotion et une interface web conviviale. Il est optimisé pour les GPU de la gamme RTX mais propose aussi un mode CPU pour une compatibilité maximale. Ce logiciel s’adresse aux développeurs, intégrateurs et chercheurs souhaitant générer de l’audio de qualité à partir de texte, avec des voix naturelles et expressives dans plusieurs langues.
Fonctionnalités principales
- API compatible OpenAI : Drop-in replacement pour
/v1/audio/speechd’OpenAI. - Interface web moderne : Visualisation des formes d’onde, configuration dynamique.
- Haute performance : Optimisé pour les GPU RTX, traitement parallèle, gestion efficace de la mémoire.
- Multilingue : 24 voix différentes couvrant 8 langues, dont le français (pierre, amelie, marie).
- Tags d’émotion : Ajoutez des rires, soupirs, etc., pour un rendu expressif.
- Longueur audio illimitée : Génération d’audio longue durée grâce à un système de batch intelligent.
- Transitions fluides : Segments audio fondus pour une écoute sans coupure.
- Configuration par interface : Modifiez les paramètres sans toucher aux fichiers.
- Détection automatique du matériel : Optimisation selon les capacités CPU/GPU détectées.
- Support Docker Compose : Installation simplifiée, avec options GPU ou CPU uniquement.
Installation d’Orpheus-FastAPI
Prérequis
- Python : Version 3.8 à 3.11 (Python 3.12 non supporté).
- GPU recommandé : Carte NVIDIA RTX pour des performances optimales (CUDA requis).
- Serveur d’inférence LLM : Orpheus nécessite un serveur externe pour la génération des tokens (llama.cpp, LM Studio, GPUStack, etc.).
Installation via Docker Compose (recommandé)
-
Cloner le dépôt :
git clone https://github.com/Lex-au/Orpheus-FastAPI.git cd Orpheus-FastAPI -
Créer le fichier d’environnement :
cp .env.example .envModifiez
.envpour sélectionner le modèle et la langue souhaités, par exemple pour le français :ORPHEUS_MODEL_NAME=Orpheus-3b-French-FT-Q8_0.gguf -
Lancer les services :
- Pour GPU :
docker compose -f docker-compose-gpu.yml up - Pour CPU :
docker compose -f docker-compose-cpu.yml upLe modèle sera téléchargé automatiquement depuis Hugging Face[1].
- Pour GPU :
Installation native (hors Docker)
-
Cloner le dépôt :
git clone https://github.com/Lex-au/Orpheus-FastAPI.git cd Orpheus-FastAPI -
Créer un environnement virtuel Python :
python -m venv venv source venv/bin/activate # Sous Windows : venv\Scripts\activate -
Installer PyTorch avec support CUDA :
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124 -
Installer les dépendances :
pip3 install -r requirements.txt -
Créer les dossiers nécessaires :
mkdir -p outputs static -
Lancer le serveur FastAPI :
python app.py # ou avec uvicorn pour personnaliser l’hôte/port uvicorn app:app --host 0.0.0.0 --port 5005 --reload
- Interface web : http://localhost:5005/
- Documentation API : http://localhost:5005/docs[1].
Utilisation et intégration
- API OpenAI-compatible :
/v1/audio/speech - Web UI : Configuration, sélection de voix/langue, écoute des samples
- Paramètres personnalisables : voix, format, vitesse, etc.
- Tags d’émotion : Ajoutez
,, etc., dans le texte pour enrichir le rendu audio.
Configuration minimale requise (estimation)
La configuration dépend du mode choisi (GPU ou CPU) et du modèle utilisé :
| Usage | CPU uniquement | GPU recommandé (optimisé) |
|---|---|---|
| Processeur | 4 cœurs, 8 threads | 6 cœurs, 12 threads |
| RAM | 8 Go minimum | 16 Go recommandé |
| GPU | Non requis | NVIDIA RTX (12 Go VRAM min.) |
| Stockage | 5 Go libres (modèles + audio) | 10 Go libres |
| OS | Linux ou Windows 10+ | Linux ou Windows 10+ |
- Pour une expérience fluide et rapide, une carte NVIDIA RTX avec au moins 12 Go de VRAM est conseillée. Les modèles quantifiés (Q2_K, Q4_K_M) permettent de réduire la charge mémoire et d’accélérer l’inférence sur GPU ou CPU.
- En mode CPU, l’inférence sera plus lente mais reste possible grâce à l’optimisation automatique du logiciel[1].
Conclusion
Orpheus-FastAPI se distingue comme une solution TTS open-source puissante, flexible et accessible, idéale pour les projets multilingues, l’intégration dans des chatbots ou assistants vocaux, et la recherche sur la synthèse vocale. Son installation est facilitée par Docker Compose, et il s’adapte automatiquement à votre matériel pour offrir la meilleure performance possible, que ce soit sur GPU ou CPU[1].
Pour obtenir un fichier audio WAV à partir d’un texte en utilisant Orpheus-FastAPI via la ligne de commande avec curl, il suffit d’appeler l’API compatible OpenAI exposée par le serveur Orpheus. Voici comment procéder :
Exemple de commande curl
curl http://localhost:5005/v1/audio/speech -H "Content-Type: application/json" -d '{
"model": "orpheus",
"input": "Bonjour, ceci est un test de synthèse vocale avec Orpheus.",
"voice": "amelie",
"response_format": "wav",
"speed": 1.0
}' --output sortie.wav