Tutoriel : Comment j'ai créé une vidéo touristique avec l'aide de l’IA

Découvrez toutes les étapes de la création de cette vidéo et les outils IA que j'ai utilisés

14 déc. 2024 — Nicolas François

Tutoriel : Comment j'ai créé une vidéo touristique avec l'aide de l’IA

Dans la dernière édition “Vidéo, IA & Tourisme : entre créativité et responsabilité”, je vous avais promis de dévoiler le processus pas à pas de la création de ma vidéo touristique réalisée avec l’aide de l’IA : le voici !

Du phare breton en pleine tempête au lever de soleil sur la Côte d’Azur, je vous emmène dans les coulisses de cette expérimentation. Vous découvrirez toutes les étapes de la réalisation :

Création des visuels avec Midjourney,
Amélioration du rendu grâce à MagnificAI,
Création des accroches avec ChatGPT,
Génération des séquences vidéos avec Runway,
Et montage final avec CapCut !

C’est parti !

1. Génération des visuels de départ

J’ai commencé par générer les photos, je voulais en créer 5 très réalistes qui représenteraient plusieurs sites naturels français en automne.

Est-ce un bon point de départ ? Je ne sais pas mais c’est d’abord ça qui m’a inspiré :)

Voici les sujets que j’ai retenus :

Un phare emblématique de la Bretagne en pleine tempête
Un lac au milieu de la forêt des Vosges aux couleurs automnales
Un coucher de soleil sur les hauteurs d’un massif français
Un lever de soleil sur la Côte d’Azur
Un réveil dans une tente en pleine montagne dans les Alpes

Une fois ces idées établies, j’ai utilisé ChatGPT pour m’aider à rédiger les prompts qui me serviraient dans Midjourney (outil IA de génération d’images) pour générer chaque photo.

Exemple du prompt généré par ChatGPT pour le visuel du phare breton :

Ultra-realistic photo captured with a Nikon DSLR, focusing on a iconic lighthouse of the coast of Brittany in France. The image captures powerful ocean waves crashing against the base of the tall, weathered lighthouse, sending dramatic sprays of water into the air. The sky is moody and overcast, with dark storm clouds rolling in, highlighting the ruggedness of the scene. The lighthouse stands strong amidst the wild sea, with no other land in sight, creating a striking contrast between the man-made structure and the untamed ocean.

J’ai ensuite copié et collé ces prompts dans Midjourney pour les réaliser les unes après les autres.

*Génération d’une image dans Midjourney avec la proposition de variantes*

Pour chaque visuel, j’ai parfois dû affiner le prompt et relancer une génération d’image complémentaire. Pour chaque image générée, j’ai demandé quelquefois des variantes pour affiner le résultat. Mais j’ai essayé de limiter ces interactions, pour « réduire » mon impact.

Une fois satisfait par le résultat, j’ai pu générer la version définitive de la photo (plus haute définition).

Voici le résultat pour les 5 images :

*Phare breton, lac vosgien, coucher de soleil à la montagne, côte d’Azur…*

⏱️ J’ai mis environ 1h pour faire tout ce travail.

2. Amélioration du rendu des visuels

Les visuels générés par Midjourney sont déjà très qualitatifs et réalistes mais ils manquent quand même de profondeur et de détails. L’objectif étant d’arriver à un rendu final le plus réaliste possible, j’ai décidé d’utiliser Magnific AI, un outil IA qui permet d'augmenter la qualité des images grâce à un upscaling très puissant (je vous en avais déjà parlé dans le numéro dédié à “L’IA et les images dans le tourisme”).

Le rendu global devient alors encore plus réaliste !

*Amélioration de la définition des visuels avec Magnific AI*

À noter qu’il n’y a pas eu de loupé dans les images générées, pas de gâchis de tokens et surtout pas de génération inutile (je vous en parle car Magnific AI peut parfois ajouter des éléments un peu étranges, il y a pas mal de réglages dans l’outil et il faut y aller doucement si on souhaite juste améliorer le rendu global et éviter les aberrations ou hallucinations :)

*Capture d’écran de l’interface Magnific AI*

⏱️ Cette étape a été assez rapide, en 30 minutes c’était fait, essentiellement du temps dédié à la génération des images par l’outil.

A noter que j’ai utilisé 150 tokens (30 pour chaque image upscallée).

3. Création d’accroches marketing

Une fois que j’avais mes images, je suis retourné dans chatGPT pour créer les accroches de la future vidéo. Je lui ai joint les 5 images générées dans Midjourney et je lui ai donné le contexte :

Tu es un expert en marketing touristique

et mes instructions :

Je souhaite créer un court film promotionnel sur la France composé de 5 séquences de 8 à 10 secondes : des vagues s'écrasant sur un phare en Bretagne, le survol d'un lac de montagne dans les Vosges, un coucher de soleil dévoilant la Voie lactée dans les Vosges, un lever de soleil sur la Côte d'Azur, et le réveil d'un randonneur savourant un café fumant dans sa tente dans les Alpes. Peux-tu m'aider à trouver des accroches inspirantes à intégrer dans ces séquences ?

*Capture d’écran de l’échange avec ChatGPT lors de la création des accroches*

💡 A savoir : J’ai ajouté des photos dans mon prompt pour que ChatGPT analyse les visuels et comprenne mieux l’ambiance. L’idée était d’obtenir des réponses plus adaptées mais je n’ai pas fait assez de tests pour être certain de l’impact.

ChatGPT m’a alors généré une première proposition :

*1ère réponse de ChatGPT avec 2 propositions pour chaque accroche*

J’ai trouvé intéressant les 2 accroches qui commençaient par « Là où… ». Pourquoi alors ne pas pousser la répétition pour chaque séquence. Je lui ai demandé de me proposer une version reprenant cette formulation pour chaque accroche :

*2ème réponse de ChatGPT avec la répétition de “Là où….”*

S'ensuivent quelques échanges pour affiner chaque proposition et me voilà avec mes 5 accroches et mon accroche finale.

⏱️ Temps passé pour cette étape : 30 min

4. Génération des séquences vidéos

Pour réaliser les séquences vidéos, j’ai utilisé l’outil Runway qui permet de générer des séquences vidéos à partir d’un visuel de départ ou directement avec un prompt. Dans mon cas, ce sera naturellement à partir d’une première image (celles générées dans Midjourney et améliorées dans MagnificAI).

Et c’est dans cette instruction passée à Runway que je vais pouvoir décrire les mouvements de caméra, la vitesse…

Pour m’aider à rédiger ce prompt, je suis à nouveau retourné dans… ChatGPT ! Je lui ai exprimé mon besoin, comme ici pour l’animation du phare breton :

Survol en drone slow motion d'un phare en Bretagne pendant une tempête en automne

Et il m’a généré le prompt adapté :

Slow motion drone shot: The camera steadily circles around the lighthouse, capturing it from multiple angles as massive waves crash against the rocks. The drone flies low, close to the turbulent ocean, then rises up to reveal the full height of the lighthouse being battered by the storm. Dark clouds swirl overhead, and the wind whips through the scene, with sea spray filling the air. cinematic, dramatic stormy atmosphere.

💡 Pour avoir un meilleur résultat j’ai utilisé un Custom GPT existant : Runway magic prompt. Vous en trouvez plein, prêts à l’emploi, dans la bibliothèque de GPT sur ChatGPT (bouton « Explorer les GPT »).

Il ne reste plus qu’à aller dans l’interface Runway pour y déposer ma photo upscalée du phare et mon prompt avant de lancer la génération.

*Capture d’écran de mon espace de travail sur Runway*

J’ai dû reproduire ce travail pour chaque séquence.

Bon, le résultat n’a pas toujours été parfait du premier coup... Par exemple, pour le lac en altitude, il a d’abord fait… fumer le lac 😬 (un problème sans doute lié à la qualité du prompt de départ et/ou aux hallucinations de l’outil).

Je vous partage le résultat obtenu 👇

// VIDEO //

💡 À savoir

Runway génère par défaut une séquence de 10 secondes, mais une fois cette séquence générée, on peut la prolonger grâce à la fonction "Extended" qui permet d’ajouter 8 secondes supplémentaires à partir d’un prompt. Je m’en suis servi pour certaines séquences, comme l’apparition de la Voie lactée dans le ciel ou le mouvement de caméra après être sorti de la toile de tente en montagne.

Exemple de prompt utilisé pour ajouter l’apparition de la Voie lactée :

The timelapse continues, the night falls, and the Milky Way appears in the sky

⏱️ Cette étape a été relativement longue, entre les allers-retours dans ChatGPT puis dans Runway, le temps de génération des séquences (même si c’est rapide, 1 à 2 minutes max), et les quelques erreurs… Bref, j’ai mis environ 1h.

5. Montage vidéo

Ça y est, nous voilà à l’étape finale !

Et pas d’outil IA pour faire le montage, j’ai simplement utilisé CapCut que je trouve vraiment très accessible et assez facile d’utilisation.

*Capture d’écran de mon espace de travail sur CapCut*

Je ne vais pas rentrer dans les détails techniques de cette partie, même si elle est essentielle dans ce projet. Pour être tout à fait sincère, et ne pas vendre du rêve, sans être un pro du montage, il faut quand même avoir quelques bases et savoir se débrouiller, car j’ai quand même dû :

Trouver une musique pour donner une ambiance (dans la base de musique de l’outil et sans y passer des heures :)
Me caler dessus pour donner du rythme, de la cohérence et même un peu d’émotion au passage
Intégrer mes accroches en faisant des choix de mise en forme (police, taille, position dans la vidéo…)
Recouper des séquences, ajuster la vitesse pour améliorer le rendu…
Ajouter quelques effets sonores pour renforcer le rendu
…

Bref, une étape 100% humaine qui a été clairement décisive dans le rendu final.

⏱️ Estimation du temps passé pour cette étape : 2h