Données et algorithmes : les clés pour intégrer l’IA dans le tourisme
Découvrez comment fonctionnent les algorithmes et la donnée dans le tourisme. Un guide pour comprendre les coulisses de l'IA et éviter les biais.
Ce mois-ci, j’ai voulu revenir aux fondamentaux en vous parlant d’un sujet qui est au cœur de l’intelligence artificielle : les données et les algorithmes. Pas forcément le plus engageant au premier abord… mais sans ces 2 éléments, l’IA, et surtout l’IA générative, ne pourrait tout simplement pas exister. C’est un peu le moteur et le carburant de cette technologie.
Pourquoi la donnée est-elle le véritable carburant de votre IA ?
Comme le dit Aurélie Jean, experte en algorithme, par définition, un algorithme ne pense pas. Il suit des instructions précises et il est essentiel de bien comprendre son fonctionnement pour éviter de croire que l’IA pourrait tout faire et de tomber dans une logique du "tout IA".
Pour faire simple, on peut dire que les algorithmes ne sont que des outils qui sont alimentés par les données qu’on leur fournit. Et des données, il leur en faut beaucoup pour s’entraîner, c’est ce qu’on appelle les « données d’entraînement ». Si on prend ChatGPT, dans sa première version GPT-3.51, on parlait d’une base de données d’entraînement de plus de 43 téraoctets (To)2.
💻 Pour vous donner un ordre d’idée c’est l’équivalent de la capacité de 100 ordinateurs portables standards de 500 Go !
Et plus la qualité des données en entrée est élevée, plus les résultats en sortie sont pertinents. Plutôt logique mais d’où viennent ces données d’entraînement ?
D’où viennent les milliards de mots qui entraînent ChatGPT ?

Pour ChatGPT, les données utilisées pour son entraînement (les fameux 43 To) proviennent d'une large variété de sources de données publiques comme des textes issus de livres, de sites web, de forums, de manuels et d'autres ressources accessibles en ligne, collectées jusqu'en octobre 2023 pour les versions GPT-4 et o1-preview (d’après ChatGPT). Ce socle de connaissances permet à ChatGPT de fournir des réponses générales et de comprendre le langage, mais il ne contient pas d'informations après ces dates.

💡 A savoir
Depuis la version GPT-4, ChatGPT peut rechercher des informations en temps réel sur le web pour fournir des réponses actualisées, mais uniquement sur les sites qui autorisent l'accès aux systèmes d’IA générative. Mais cette capacité ne modifie pas son modèle d'entraînement, qui repose sur les données initialement collectées.
⚖️ Vous pouvez interdire l'entraînement de systèmes d'IA générative sur votre site en incluant une clause d'opt-out dans vos conditions générales d'utilisation (CGU). Selon la directive européenne, vous avez le droit de vous opposer à la fouille de vos contenus protégés. Assurez-vous que cette clause est lisible par machine pour être efficace. (source : www.sne.fr)
Officiellement, toutes ces données proviennent de sources publiques, comme me l'a confirmé ChatGPT lui-même :

Mais la réalité semble plus nuancée… lors d'une enquête de la Commission des Communications et du Numérique de la Chambre des Lords du Royaume-Uni en janvier 20243, les représentants d'OpenAI ont déclaré :
« ... il serait impossible d'entraîner les meilleurs modèles d'IA d'aujourd'hui sans utiliser de documents protégés par le droit d'auteur... »
Ce qui soulève des questions juridiques et éthiques importantes sur les sources de données utilisées par les modèles d'IA. La clarification des cadres légaux entourant l'entraînement de ces modèles est nécessaire pour assurer une utilisation responsable et conforme aux réglementations en vigueur.
🗂️ Custom GPT : comment créer votre propre cerveau IA avec vos données
Maintenant que l’on en sait un peu plus sur les données utilisées, ce qui va nous intéresser c’est la possibilité de créer sa propre base de connaissance. Dans ChatGPT (c’est pareil avec les autres systèmes comme Mistral AI, Claude…), vous pouvez intégrer vos propres données (sous forme de documents word, pdf, tableaux excel, csv…) pour en faire votre base de connaissance qui utilisera la puissance des algorithmes de ChatGPT pour les exploiter.

Pour tirer parti de tout le potentiel de l’IA, il faut donc avant tout structurer et organiser ses données. Ça reste le nerf de la guerre.
Exemple pratique :
Un office de tourisme qui souhaite utiliser l'IA pour recommander des activités personnalisées à ses visiteurs doit d'abord collecter et organiser des données détaillées sur les événements, les horaires, les préférences des visiteurs, et même les conditions météo pour proposer des recommandations adaptées.

La bonne nouvelle c’est que le travail autour de la qualité de la donnée est un sujet qui est initié depuis des années maintenant au niveau des acteurs touristiques. Notamment avec les différents SIT (Système d’Information Touristique) et projets nationaux comme DataTourisme. Ces données peuvent donc représenter un bon point de départ. Mais seront-elles suffisantes ? Tant en qualité qu’en quantité ? Quid des données chaudes4 ?…
Des questions et débats que nous avons régulièrement sur les données touristiques et qui se retrouvent au cœur de l’IA.
🍿 REPLAY #ET2024
Si le sujet vous intéresse je vous invite à visionner le replay de l’atelier « IA et Bases de données » qui a eu lieu lors la 20ème édition des Rencontres Nationales du Etourisme à Pau.
Algorithmes : des outils puissants, mais sans aucune "pensée" propre
On a vu le rôle des données, passons maintenant aux algorithmes. Mais c’est quoi vraiment un algo ?
Pour faire simple, on pourrait dire qu'un algorithme est une série d’instructions précises qui permettent de résoudre un problème ou de réaliser une tâche.Et les algorithmes sont partout, ils agissent en coulisse dans tout ce que nous utilisons au quotidien. Ce sont eux qui nous suggèrent ;
- les films sur Netflix,
- les playlists sur Deezer,
- les trajets les plus rapides sur Waze,
- les produits recommandés sur Amazon,
- qui filtrent les spams dans nos mails…
Même nos photos se trient automatiquement par lieu ou par visage grâce à eux !

Invisibles mais puissants, les algorithmes simplifient nos tâches et personnalisent nos expériences au quotidien.
Mais comme l’explique Aurélie Jean, il est facile de surestimer ce que les algorithmes peuvent faire. Contrairement à certaines idées reçues, un algorithme ne réfléchit pas : il exécute des instructions précises basées sur des données.
Et pas de magie, ces algos sont conçus et entraînés par des humains, en l’occurrence des ingénieurs qui manipulent d’énorme quantité de paramètres. Ces algorithmes reflètent donc leurs choix et idées… mais aussi leurs biais.

Par exemple, si un modèle est formé principalement sur des textes provenant d’un seul type de source de données (comme les articles de presse anglophones), il peut refléter un point de vue culturel spécifique et manquer de diversité dans ses réponses. Et si les ingénieurs sont majoritairement des hommes, américains,.. se sont encore d’autres biais culturels qui peuvent rentrer en jeu.
💡 Pour en savoir plus : Les limites des outils d'IA à connaître (biais, hallucinations…)
Et pour programmer des algorithmes comme ceux de ChatGPT, il y a une énorme quantité de paramètres à régler ! Je n’ai pas trouvé de communication officielle d’Open AI (la maison mère de ChatGPT) mais Luc Julia évoquait près de 1 000 milliards de paramètres pour GPT-4 ! Oui, vous avez bien lu… mille milliards. Pour donner un ordre d'idée, ça représenterait presque 125 paramètres pour chaque être humain sur la planète ! 😯
L'IA au service de l'humain : l'approche "outil d'assistance" de Luc Julia
L'IA doit être considérée pour ce qu’elle est, un outil d'assistance et non comme une solution autonome. C’est déjà ce qu’évoquait Luc Julia dans son interview dans IA, Tech & Travel Café 👇
“… il faut démontrer comment l'outil IA peut être utilisé de manière efficace dans les domaines qui intéressent les gens, car après tout, ce ne sont que des outils, sans aucune magie.”

Dans le secteur touristique, on pourrait imaginer que les acteurs forment leurs équipes à travailler en complémentarité avec l'IA, en utilisant les algorithmes pour simplifier certaines tâches tout en préservant une dimension humaine dans les interactions avec les clients.
Facile à dire et sans doute plus difficile à mettre en œuvre. Mais ça semble être l’orientation à prendre pour les années à venir.
Conclusion…
J’espère que vous en savez maintenant un peu plus sur le fonctionnement de l’IA, ainsi que sur le rôle essentiel des données et des algorithmes.
Pour en tirer pleinement parti, il ne suffit pas d’implémenter un outil d’IA : il faut aussi en comprendre les limites, prévoir un encadrement humain et adopter une approche de test and learn (expérimenter, ajuster et apprendre en continu).
Mais comment passer à l’action ? Par où commencer ? Pour vous aider, je vous ai déjà partagé un guide pratique, et ce mois-ci, je vous propose d’expérimenter les bases de connaissances dans ChatGPT, avec un tutoriel complet pour répondre rapidement aux questions fréquentes dans le tourisme.
💬 Vous en êtes où dans le déploiement de l’IA dans votre structure ?
N’hésitez pas à me contacter pour partager votre retour d’expérience :)
Mon conseil lecture 📚

Pour approfondir vos connaissances sur les algorithmes, je ne peux que vous recommander les publications d’Aurélie Jean. Vous pouvez commencer avec ce fascicule très accessible « Algorithmes, bientôt maîtres du monde ? » publié dans la collection ALT.
Nicolas François
