Orpheus-FastAPI TTS

mai 10, 2025

Orpheus-FastAPI : La synthèse vocale française qui va vous bluffer !

Chez CopyLaRadio, nous sommes toujours à l’affût des solutions libres et innovantes qui permettent à chacun de reprendre le contrôle de ses outils numériques. Aujourd’hui, c’est avec enthousiasme que nous vous présentons Orpheus-FastAPI, un serveur de synthèse vocale (TTS) nouvelle génération, désormais disponible pour tous les membres de la Constellation Sagittarius !

Une révolution dans la voix française

L’équipe CopyLaRadio a testé pour vous les voix françaises proposées par Orpheus, et il faut le dire : Pierre et Amélie sont tout simplement bluffants ! Leur intonation naturelle, leur clarté et leur expressivité rendent la lecture de textes en français incroyablement agréable à l’oreille. Que ce soit pour animer vos podcasts, donner vie à vos assistants vocaux ou dynamiser vos livres audio, ces voix rivalisent sans rougir avec les solutions propriétaires les plus coûteuses du marché.

Pierre : une voix masculine chaleureuse, posée, parfaite pour la narration ou les annonces.

Amélie : une voix féminine douce et dynamique, idéale pour les dialogues, messages d’accueil ou contenus pédagogiques.

Un bémol… et on assume !

Parce qu’on ne vous cache rien, il faut aussi le dire : la voix Marie n’est pas à la hauteur des deux autres. Les résultats sont, disons-le franchement, décevants. Mais c’est aussi ça, la magie du libre : tout évolue, et la communauté pourra sûrement améliorer ce point à l’avenir !

Un service exclusif pour la Constellation Sagittarius

Bonne nouvelle : ce service de synthèse vocale Orpheus-FastAPI, avec les voix Pierre et Amélie, est désormais disponible pour tous les membres de la Constellation Sagittarius ! Profitez-en pour donner une nouvelle dimension sonore à vos projets, que vous soyez créateur de contenu, développeur, ou simplement curieux de technologie.

Comment en profiter ?

  • Contactez votre Capitaine pour qu'il active votre accès.

Pourquoi c’est important ?

Parce qu’en rejoignant la coopérative CopyLaRadio et la Constellation Sagittarius, vous participez à la construction d’un Internet décentralisé, éthique et résilient. Vous bénéficiez d’outils puissants, respectueux de votre vie privée, et vous soutenez l’innovation libre.


Rejoignez-nous, testez Orpheus-FastAPI, et faites entendre votre voix sur l’Internet des Gens !

Pour toute question ou pour rejoindre la Constellation Sagittarius, contactez-nous via CopyLaRadio.com.

À très vite sur les ondes libres ! 🚀

Installez Orpheus-FastAPI : Serveur TTS Multilingue Haute Performance

Orpheus-FastAPI est un serveur de synthèse vocale (Text-to-Speech, TTS) moderne et performant, compatible avec l’API d’OpenAI, offrant une prise en charge multilingue, des voix variées, des tags d’émotion et une interface web conviviale. Il est optimisé pour les GPU de la gamme RTX mais propose aussi un mode CPU pour une compatibilité maximale. Ce logiciel s’adresse aux développeurs, intégrateurs et chercheurs souhaitant générer de l’audio de qualité à partir de texte, avec des voix naturelles et expressives dans plusieurs langues.

Fonctionnalités principales

  • API compatible OpenAI : Drop-in replacement pour /v1/audio/speech d’OpenAI.
  • Interface web moderne : Visualisation des formes d’onde, configuration dynamique.
  • Haute performance : Optimisé pour les GPU RTX, traitement parallèle, gestion efficace de la mémoire.
  • Multilingue : 24 voix différentes couvrant 8 langues, dont le français (pierre, amelie, marie).
  • Tags d’émotion : Ajoutez des rires, soupirs, etc., pour un rendu expressif.
  • Longueur audio illimitée : Génération d’audio longue durée grâce à un système de batch intelligent.
  • Transitions fluides : Segments audio fondus pour une écoute sans coupure.
  • Configuration par interface : Modifiez les paramètres sans toucher aux fichiers.
  • Détection automatique du matériel : Optimisation selon les capacités CPU/GPU détectées.
  • Support Docker Compose : Installation simplifiée, avec options GPU ou CPU uniquement.

Installation d’Orpheus-FastAPI

Prérequis

  • Python : Version 3.8 à 3.11 (Python 3.12 non supporté).
  • GPU recommandé : Carte NVIDIA RTX pour des performances optimales (CUDA requis).
  • Serveur d’inférence LLM : Orpheus nécessite un serveur externe pour la génération des tokens (llama.cpp, LM Studio, GPUStack, etc.).

Installation via Docker Compose (recommandé)

  1. Cloner le dépôt :

    git clone https://github.com/Lex-au/Orpheus-FastAPI.git
    cd Orpheus-FastAPI
  2. Créer le fichier d’environnement :

    cp .env.example .env

    Modifiez .env pour sélectionner le modèle et la langue souhaités, par exemple pour le français :

    ORPHEUS_MODEL_NAME=Orpheus-3b-French-FT-Q8_0.gguf
  3. Lancer les services :

    • Pour GPU :
      docker compose -f docker-compose-gpu.yml up
    • Pour CPU :
      docker compose -f docker-compose-cpu.yml up

      Le modèle sera téléchargé automatiquement depuis Hugging Face[1].

Installation native (hors Docker)

  1. Cloner le dépôt :

    git clone https://github.com/Lex-au/Orpheus-FastAPI.git
    cd Orpheus-FastAPI
  2. Créer un environnement virtuel Python :

    python -m venv venv
    source venv/bin/activate
    # Sous Windows : venv\Scripts\activate
  3. Installer PyTorch avec support CUDA :

    pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124
  4. Installer les dépendances :

    pip3 install -r requirements.txt
  5. Créer les dossiers nécessaires :

    mkdir -p outputs static
  6. Lancer le serveur FastAPI :

    python app.py
    # ou avec uvicorn pour personnaliser l’hôte/port
    uvicorn app:app --host 0.0.0.0 --port 5005 --reload
  • Interface web : http://localhost:5005/
  • Documentation API : http://localhost:5005/docs[1].

Utilisation et intégration

  • API OpenAI-compatible : /v1/audio/speech
  • Web UI : Configuration, sélection de voix/langue, écoute des samples
  • Paramètres personnalisables : voix, format, vitesse, etc.
  • Tags d’émotion : Ajoutez ,, etc., dans le texte pour enrichir le rendu audio.

Configuration minimale requise (estimation)

La configuration dépend du mode choisi (GPU ou CPU) et du modèle utilisé :

Usage CPU uniquement GPU recommandé (optimisé)
Processeur 4 cœurs, 8 threads 6 cœurs, 12 threads
RAM 8 Go minimum 16 Go recommandé
GPU Non requis NVIDIA RTX (12 Go VRAM min.)
Stockage 5 Go libres (modèles + audio) 10 Go libres
OS Linux ou Windows 10+ Linux ou Windows 10+
  • Pour une expérience fluide et rapide, une carte NVIDIA RTX avec au moins 12 Go de VRAM est conseillée. Les modèles quantifiés (Q2_K, Q4_K_M) permettent de réduire la charge mémoire et d’accélérer l’inférence sur GPU ou CPU.
  • En mode CPU, l’inférence sera plus lente mais reste possible grâce à l’optimisation automatique du logiciel[1].

Conclusion

Orpheus-FastAPI se distingue comme une solution TTS open-source puissante, flexible et accessible, idéale pour les projets multilingues, l’intégration dans des chatbots ou assistants vocaux, et la recherche sur la synthèse vocale. Son installation est facilitée par Docker Compose, et il s’adapte automatiquement à votre matériel pour offrir la meilleure performance possible, que ce soit sur GPU ou CPU[1].

Orpheus-FastAPI

Pour obtenir un fichier audio WAV à partir d’un texte en utilisant Orpheus-FastAPI via la ligne de commande avec curl, il suffit d’appeler l’API compatible OpenAI exposée par le serveur Orpheus. Voici comment procéder :

Exemple de commande curl

curl http://localhost:5005/v1/audio/speech   -H "Content-Type: application/json"   -d '{
    "model": "orpheus",
    "input": "Bonjour, ceci est un test de synthèse vocale avec Orpheus.",
    "voice": "amelie",
    "response_format": "wav",
    "speed": 1.0
  }'   --output sortie.wav