Passer au contenu principal

Elevenlabs : L'outil d'IA spécialisé dans la synthèse vocale et le clonage de voix

Un outil impressionnant pour créer des voix IA ultra-réalistes… en quelques clics.

Nicolas François Nicolas François

ElevenLabs est un outil d'intelligence artificielle spécialisé dans la synthèse vocale et le clonage de voix. Je vous en ai parlé plusieurs fois depuis le début de ce numéro, il est assez connu car il fait parti des outils qui génèrent des voix d'une très bonne qualité, avec des intonations naturelles et même des émotions.

C'est simple, rapide, gratuit pour commencer… et franchement impressionnant.

Quelle utilité dans le tourisme ?

On l’a déjà vu dans le dossier du mois mais voici un rappel d’exemples de cas d’usages :

  • Contenus audio professionnels : créer des audioguides, messages d'accueil ou podcasts sans studio d'enregistrement
  • IA conversationnelle : créer un callbot ou un agent d’accueil vocal, connecté à vos contenus et disponible 24h/24
  • Multilinguisme instantané : traduire vos contenus vocaux dans des dizaines de langues
  • Personnalisation : cloner votre voix ou celle d'un guide pour garder une identité sonore unique
  • Urgence créative : besoin d'un message vocal rapidement ? ElevenLabs peut vous dépanner efficacement

Exemples concrets et résultats

Voici quelques tests que j’ai fait avec l’outil :

Audioguide pour site historique

Exemple de texte pour présenter le Château Fort de Sedan :

Fièrement dressée sur son promontoire rocheux en bordure de la Meuse, la forteresse de Sedan nous contemple depuis six siècles. Cette silhouette imposante cache l'une des histoires les plus fascinantes de France.
<break time="1.5s" />

Tout commence en 1424. Evrard III de la Marck vient de racheter la seigneurie de Sedan à son beau-frère Guillaume de Braquemont. Ambitieux, il entreprend aussitôt la construction d'un premier château, englobant un ancien prieuré. Ce château triangulaire, dit "château primitif", pose les fondations de ce qui deviendra le géant des Ardennes.
<break time="1.5s" />
...

Résultat : une voix masculine posée avec respect des pauses (j’y ai ajouté une ambiance musicale générée avec Suno)

Audiolivre jeunesse

Exemple de texte pour présenter le Château Fort de Sedan
Histoire jeunesse du château avec 5 voix IA distinctes (narratrice, fantôme, petite fille, grand-père) générées via ElevenLabs. Chaque personnage a sa propre personnalité vocale. Musique d'ambiance Suno + montage Capcut.

Voix off pour un documentaire

Présentation de la bataille de Verdun
3 minutes de présentation professionnelle à partir de la page Wikipedia de la bataille de Verdun. Contenu généré avec Claude (je vous partage le prompt dans le "prompt du mois"), voix crédible d'ElevenLabs et musiques générées avec Suno. Montage final Capcut.

Pas-à-pas : comment tester ElevenLabs ?

  1. Rendez-vous sur elevenlabs.io et créez un compte (gratuit, avec 10 000 caractères offerts)
  2. Choisissez une voix dans la bibliothèque (plus de 100 voix disponibles en français)
  3. Tapez votre texte dans l'interface (ou collez votre script)
  4. Ajustez les paramètres : stabilité (pour la cohérence) et similarité (pour l'expressivité)
  5. Cliquez sur “Generate speech” et attendez quelques secondes : votre audio est prêt !

💡 Astuces de formatage :

  • <break time="1.5s" /> pour des pauses naturelles (jusqu'à 3 secondes)
  •  ou -- (tirets) pour des pauses courtes

Tester gratuitement

ElevenLabs fonctionne avec un système de caractères :

➡️ 1 000 caractères ≈ 1 minute d'audio généré
➡️ L'offre gratuite avec 10 000 caractères vous permettra donc de faire environ 10 minutes d'audio

Mais attention, ces créations sont publiques dans le plan gratuit — tout le monde peut les entendre dans la bibliothèque communautaire.

Et si vous voulez aller plus loin…

Il faudra alors prendre un abonnement mensuel :

  • Free : 0$/mois → 10 000 caractères/mois (public)
  • Starter : 5$/mois → 30 000 caractères/mois (privé) + clonage vocal basique
  • Creator : 22$/mois → 100 000 caractères/mois + clonage professionnel + 30 voix custom
  • Pro : 99$/mois → 500 000 caractères/mois + audio haute qualité + API

✅ Dès l'offre Starter, vos créations deviennent privées et vous accédez au clonage vocal si vous souhaitez créer une identité sonore unique

N'hésitez pas à tester et partager vos créations audio :)


Le prompt à tester

Un prompt prêt à l’emploi, à copier-coller dans ChatGPT, Gemini, Mistral, Claude…

Thématique du mois oblige, j’avais envie de vous partager un prompt ultra-pratique pour transformer n'importe quel contenu en script vocal professionnel, prêt pour les outils TTS comme ElevenLabs.

Comment l'utiliser ?

  1. Copiez le prompt ci-dessous dans votre outil IA préféré (Claude, ChatGPT, Gemini…)
  2. Remplacez les paramètres entre crochets par vos choix (durée, ton, public cible, etc.)
  3. Indiquez votre sujet à la fin du prompt (ou coller l’url du contenu)
  4. Récupérez le texte généré et collez-le directement dans votre outil TTS (comme Elevenlabs)
Tu es un expert en création de contenus audio et en optimisation TTS. Transforme le contenu suivant en script vocal naturel et engageant, puis génère le texte final prêt à copier dans un outil TTS (Eleven Labs), en respectant ces contraintes :
PARAMÈTRES À PERSONNALISER :

Durée cible : [2 minutes / 5 minutes / 10 minutes]
Ton : [ludique / professionnel / dramatique / décontracté]
Public cible : [familles avec enfants 8-12 ans / adolescents / adultes / seniors / professionnels]
Style : [éducatif / divertissant / informatif / commercial / storytelling]

RÈGLES D'ÉCRITURE VOCALE :

Style conversationnel et accueillant ("Bienvenue", "Imaginez", "Découvrez")
Phrases courtes et rythmées (maximum 15-20 mots pour enfants, 20-25 pour adultes)
Vocabulaire adapté au public cible
Questions directes pour impliquer l'auditeur
Comparaisons concrètes pour aider à visualiser
Transitions fluides entre les idées
Éviter les énumérations trop longues
Privilégier l'évocation et l'émotion

OPTIMISATION POUR TTS (ELEVEN LABS) :

Convertir TOUS les chiffres en toutes lettres (1916 → mille neuf cent seize)
Ponctuation naturelle (virgules pour les pauses, points d'exclamation pour l'emphase)
Éviter les acronymes et abréviations
Supprimer toute mise en forme (titres, puces, etc.)
Texte en format plat, prêt à copier-coller
Noter entre crochets les indications de prononciation si nécessaire [pro-non-cia-tion]

STRUCTURE RECOMMANDÉE :

Accroche forte dans les [10 / 15 / 30] premières secondes selon la durée
Développement [chronologique / thématique / problème-solution] clair
Répétitions volontaires des éléments-clés
Conclusion [engageante / call-to-action / récapitulative]

LIVRABLE ATTENDU :
Un texte final sans aucune mise en forme, optimisé TTS, prêt à copier dans Eleven Labs.

INSTRUCTIONS :
Commence par une accroche forte adaptée au public cible

Sujet à traiter : [COLLE TON URL OU CONTENU ICI]

🔧 VARIANTES DU PROMPT

Pour un audioguide enfants : Ajoutez : "Utilise un vocabulaire adapté aux 8-12 ans, avec des comparaisons amusantes et des questions pour maintenir l'attention"

Pour du contenu patrimonial : Ajoutez : "Intègre des anecdotes historiques et des détails techniques, tout en gardant un rythme captivant"

Pour une présentation commerciale : Ajoutez : "Oriente vers l'action (réserver, visiter, découvrir) avec un appel final clair"

Testez-le... et dites-moi ce que ça donne !
Vous avez transformé un contenu grâce à ce prompt ? Partagez votre résultat, je suis curieux de voir vos créations :)