Passer au contenu principal

Données et algorithmes : ce qu’il faut savoir pour bien intégrer l’IA dans le tourisme

Les données et les algorithmes sont le moteur de l’intelligence artificielle. Découvrez comment ils fonctionnent et ce qu’ils changent pour le tourisme.

Nicolas François Nicolas François

📬
Cet article est extrait de la newsletter IA, Tech & Travel Café publié le 30 octobre 2024 : Comprendre l'IA : Data, algorithmes, cas d'usages concrets à expérimenter dans votre structure touristique

Quand on parle d’intelligence artificielle, on pense souvent à des outils bluffants comme ChatGPT ou Midjourney… Mais derrière cette magie apparente, il y a deux ingrédients essentiels (et souvent mal compris) : les données et les algorithmes. C’est ce duo, le moteur et le carburant de l’IA, qui permet aux modèles de générer du texte, des images, ou d’analyser nos comportements. Dans le tourisme, mieux comprendre ce fonctionnement est indispensable pour utiliser l’IA de manière efficace, responsable… et avec bon sens.


“Sans data, pas d’IA”

Comme le dit Aurélie Jean, experte en algorithme, par définition, un algorithme ne pense pas. Il suit des instructions précises et il est essentiel de bien comprendre son fonctionnement pour éviter de croire que l’IA pourrait tout faire et de tomber dans une logique du "tout IA".

Pour faire simple, on peut dire que les algorithmes ne sont que des outils qui sont alimentés par les données qu’on leur fournit. Et des données, il leur en faut beaucoup pour s’entraîner, c’est ce qu’on appelle les « données d’entraînement ». Si on prend ChatGPT, dans sa première version GPT-3.5, on parlait d’une base de données d’entraînement de plus de 43 téraoctets (To).

💻
Pour vous donner un ordre d’idée c’est l’équivalent de la capacité de 100 ordinateurs portables standards de 500 Go !

Et plus la qualité des données en entrée est élevée, plus les résultats en sortie sont pertinents. Plutôt logique mais d’où viennent ces données d’entraînement ?

Sources des données d’entraînement de ChatGPT

Pour ChatGPT, les données utilisées pour son entraînement (les fameux 43 To) proviennent d'une large variété de sources de données publiques comme des textes issus de livres, de sites web, de forums, de manuels et d'autres ressources accessibles en ligne, collectées jusqu'en octobre 2023 pour les versions GPT-4 et o1-preview (d’après ChatGPT). Ce socle de connaissances permet à ChatGPT de fournir des réponses générales et de comprendre le langage, mais il ne contient pas d'informations après ces dates.

Déploiement des modèles de ChatGPT

💡 A savoir

Depuis la version GPT-4, ChatGPT peut rechercher des informations en temps réel sur le web pour fournir des réponses actualisées, mais uniquement sur les sites qui autorisent l'accès aux systèmes d’IA générative. Mais cette capacité ne modifie pas son modèle d'entraînement, qui repose sur les données initialement collectées.


⚖️ Vous pouvez interdire l'entraînement de systèmes d'IA générative sur votre site en incluant une clause d'opt-out dans vos conditions générales d'utilisation (CGU). Selon la directive européenne, vous avez le droit de vous opposer à la fouille de vos contenus protégés. Assurez-vous que cette clause est lisible par machine pour être efficace. (source : www.sne.fr)


Officiellement, toutes ces données proviennent de sources publiques, comme me l'a confirmé ChatGPT lui-même :

Réponse de ChatGPT à la question “D’où proviennent tes données d’entraînement ?”

Mais la réalité semble plus nuancée… lors d'une enquête de la Commission des Communications et du Numérique de la Chambre des Lords du Royaume-Uni en janvier 2024, les représentants d'OpenAI ont déclaré :

... il serait impossible d'entraîner les meilleurs modèles d'IA d'aujourd'hui sans utiliser de documents protégés par le droit d'auteur...

Ce qui soulève des questions juridiques et éthiques importantes sur les sources de données utilisées par les modèles d'IA. La clarification des cadres légaux entourant l'entraînement de ces modèles est nécessaire pour assurer une utilisation responsable et conforme aux réglementations en vigueur.


🗂️ Utiliser sa propre base de connaissance

Maintenant que l’on en sait un peu plus sur les données utilisées, ce qui va nous intéresser c’est la possibilité de créer sa propre base de connaissance. Dans ChatGPT (c’est pareil avec les autres systèmes comme Mistral AI, Claude…), vous pouvez intégrer vos propres données (sous forme de documents word, pdf, tableaux excel, csv…) pour en faire votre base de connaissance qui utilisera la puissance des algorithmes de ChatGPT pour les exploiter.

Ecran de configuration d’un “Custom GPT” dans ChatGPT avec à gauche la possibilité de créer sa propre base de connaissance

Pour tirer parti de tout le potentiel de l’IA, il faut donc avant tout structurer et organiser ses données. Ça reste le nerf de la guerre.

Exemple pratique :
Un office de tourisme qui souhaite utiliser l'IA pour recommander des activités personnalisées à ses visiteurs doit d'abord collecter et organiser des données détaillées sur les événements, les horaires, les préférences des visiteurs, et même les conditions météo pour proposer des recommandations adaptées.

Flux de données : de la collecte à la recommandation d’activités

La bonne nouvelle c’est que le travail autour de la qualité de la donnée est un sujet qui est initié depuis des années maintenant au niveau des acteurs touristiques. Notamment avec les différents SIT (Système d’Information Touristique) et projets nationaux comme DataTourisme. Ces données peuvent donc représenter un bon point de départ. Mais seront-elles suffisantes ? Tant en qualité qu’en quantité ? Quid des données chaudes ?…

Des questions et débats que nous avons régulièrement sur les données touristiques et qui se retrouvent au cœur de l’IA.


🍿 REPLAY #ET2024

Si le sujet vous intéresse je vous invite à visionner le replay de l’atelier « IA et Bases de données » qui a eu lieu lors la 20ème édition des Rencontres Nationales du Etourisme à Pau.


Comprendre la nature limitée des algorithmes

On a vu le rôle des données, passons maintenant aux algorithmes. Mais c’est quoi vraiment un algo ?

💡
Pour faire simple, on pourrait dire qu'un algorithme est une série d’instructions précises qui permettent de résoudre un problème ou de réaliser une tâche.

Et les algorithmes sont partout, ils agissent en coulisse dans tout ce que nous utilisons au quotidien. Ce sont eux qui nous suggèrent ;

  • les films sur Netflix,
  • les playlists sur Deezer,
  • les trajets les plus rapides sur Waze,
  • les produits recommandés sur Amazon,
  • qui filtrent les spams dans nos mails…

Même nos photos se trient automatiquement par lieu ou par visage grâce à eux !

Exemples d’utilisation des algorithmes dans notre quotidien

Invisibles mais puissants, les algorithmes simplifient nos tâches et personnalisent nos expériences au quotidien.

Mais comme l’explique Aurélie Jean, il est facile de surestimer ce que les algorithmes peuvent faire. Contrairement à certaines idées reçues, un algorithme ne réfléchit pas : il exécute des instructions précises basées sur des données.

Et pas de magie, ces algos sont conçus et entraînés par des humains, en l’occurrence des ingénieurs qui manipulent d’énorme quantité de paramètres. Ces algorithmes reflètent donc leurs choix et idées… mais aussi leurs biais.

Facteurs influençant les résultats des algorithmes

Par exemple, si un modèle est formé principalement sur des textes provenant d’un seul type de source de données (comme les articles de presse anglophones), il peut refléter un point de vue culturel spécifique et manquer de diversité dans ses réponses. Et si les ingénieurs sont majoritairement des hommes, américains,.. se sont encore d’autres biais culturels qui peuvent rentrer en jeu.


💡 Pour en savoir plus : Les limites des outils d'IA à connaître (biais, hallucinations…)


Et pour programmer des algorithmes comme ceux de ChatGPT, il y a une énorme quantité de paramètres à régler ! Je n’ai pas trouvé de communication officielle d’Open AI (la maison mère de ChatGPT) mais Luc Julia évoquait près de 1 000 milliards de paramètres pour GPT-4 ! Oui, vous avez bien lu… mille milliards. Pour donner un ordre d'idée, ça représenterait presque 125 paramètres pour chaque être humain sur la planète ! 😯

L’humain au coeur de l’IA

L'IA doit être considérée pour ce qu’elle est, un outil d'assistance et non comme une solution autonome. C’est déjà ce qu’évoquait Luc Julia dans son interview dans IA, Tech & Travel Café :


… il faut démontrer comment l'outil IA peut être utilisé de manière efficace dans les domaines qui intéressent les gens, car après tout, ce ne sont que des outils, sans aucune magie.
«Comprendre l’IA est essentiel...» - Entretien exclusif avec Luc Julia, cocréateur de Siri
Personnalité emblématique de l’Intelligence Artificielle et auteur du provocateur “L’IA n’existe pas”, Luc Julia démystifie les idées reçues sur l’IA en proposant un regard éclairé sur son évolution.

Dans le secteur touristique, on pourrait imaginer que les acteurs forment leurs équipes à travailler en complémentarité avec l'IA, en utilisant les algorithmes pour simplifier certaines tâches tout en préservant une dimension humaine dans les interactions avec les clients.

Facile à dire et sans doute plus difficile à mettre en œuvre. Mais ça semble être l’orientation à prendre pour les années à venir.


Conclusion…

J’espère que vous en savez maintenant un peu plus sur le fonctionnement de l’IA, ainsi que sur le rôle essentiel des données et des algorithmes.

Pour en tirer pleinement parti, il ne suffit pas d’implémenter un outil d’IA : il faut aussi en comprendre les limites, prévoir un encadrement humain et adopter une approche de test and learn (expérimenter, ajuster et apprendre en continu).

Mais comment passer à l’action ? Par où commencer ? Pour vous aider, je vous ai partagé un guide pratique et je vous propose d’expérimenter les bases de connaissances dans ChatGPT, avec un tutoriel pour répondre rapidement aux questions fréquentes dans le tourisme.

Rejoignez les 1 700+ lecteurs

RDV chaque mois pour explorer ensemble le potentiel de l’IA dans le tourisme, simplement et sans jargon compliqué ☕️

S'abonner à la newsletter