top of page
Rechercher

ChatGPT, un excellent menteur

  • annedominiquesalam
  • 13 janv.
  • 6 min de lecture

Nous utilisons de plus en plus des IA, telles que ChatGPT. Pratiques, simples d’utilisation, rapides, efficaces, ces agents conversationnels semblent infaillibles.

Savez-vous pourtant que leurs productions peuvent être inventées de toutes pièces et se révéler totalement fausses ?

 

 

Peut-on tenir pour acquis les résultats fournis par ChatGPT et autres IA du même type ? Outre des productions parfois banales, voire redondantes, ces systèmes fournissent des réponses qui peuvent être erronées, sous un vernis de crédibilité. On appelle ce phénomène hallucination. Il pousse les agents conversationnels à produire des informations incorrectes.

 

De quoi parle-t-on ?

 

Le premier post de blog montrait, en la simplifiant, la manière dont les IA « pensent ». Bien que leurs réponses puissent sembler proches d’une production humaine, les agents conversationnels opèrent « à l'aveugle », en réalisant des opérations statistiques pour produire leurs réponses. Ils ne comprennent ni nos demandes ni leurs réalisations, et ont été éduqués à toujours fournir des réponses à l’humain. Lorsque l’agents conversationnel se révèle incapable d’en trouver, il en crée une qu’il juge statistiquement proche de celle attendue. Dans une étude menée en 2022, Wang & al. ont démontré que, sur des millions de faits analysés, le taux de véracité atteignait 64%. Les 36% restants étaient inutilisables.

Les erreurs commises et autres inventions concernent tous les domaines de production, des mathématiques à la création de textes, en passant par les références bibliographiques.

 

Quelle est la raison de ce phénomène ?

 

Outre la « compréhension » du sens, un autre élément explique ce comportement des IA : le concept de « température ». Il s’agit d’un paramètre utilisé pour contrôler la créativité des réponses générées par le modèle. Cela influe la probabilité de sélection des mots ou des phrases lorsqu’une réponse est générée.

- Une température élevée rend le modèle « audacieux », ce qui le porte à générer des réponses variées et créatives, mais potentiellement erronées ou moins pertinentes.

- Une température basse rend le modèle « prudent », produisant des réponses prévisibles et moins diversifiées.

 

Exemples de réponses selon la température de l’agent conversationnel.

« Un éléphant est un animal qui… » :

- Température basse (0.2) : le modèle choisira une réponse attendue comme « vit dans la savane », car elle est statistiquement plus probable.

- Température moyenne (0.7) : produira une réponse du type : « vit en groupe et utilise sa trompe pour se nourrir et interagir avec son environnement ».

Température élevée (1.0) : donnera un retour fantaisiste ou erroné : « rêve de voler dans les étoiles » ou « est une plante à longues ramures rappelant des trompes ».

 

ChatGPT fonctionne à une température moyenne.

 

Une autre raison peut expliquer les réponses incorrectes. ChatGPT intègre les données disponibles sur Internet jusqu’en 2021, certaines de ces données sur lesquelles il s’est entraîné, sont incorrectes. Julia (2023) cite la théorie de la Terre plate comme exemple : selon la manière dont la requête est formulée, ChatGPT peut rédiger un essai convaincant soutenant cette théorie erronée. Même le fait que des agents conversationnels puissent accéder au Web en temps réel pour répondre, ne diminue pas le phénomène d’hallucination.

 

Les demandes surprenantes, utilisant des termes rarement associés (exemple : pédagogie et organisation) ou faisant référence à des champs de recherche peu renseignés au moment de la demande, induisent plus souvent une conduite hallucinatoire de la part des agents. Peu importe la manière dont le « prompt » (le texte de la demande) est formulé, la réponse peut être fausse.

Dans un contexte académique, ces erreurs créent des distorsions, par exemple dans la rédaction d’articles scientifiques.

 

Exemples d’erreurs commises par ChatGPT

 

En 2023, nous avons soumis une requête à ce système. Il s’agissait de produire une liste bibliographique sur l’esprit critique chez les étudiants universitaires qui utilisent les agents conversationnels, un sujet peu traité à l’époque. La version gratuite a produit sept références, en apparence parfaites, cohérentes avec la norme APA7. Aucune d’entre elles n’existait. La version payante a produit une liste de six références existantes, mais inutiles car vagues et généralistes. L’utilisation de ces références sans vérification péjorerait la valeur des travaux les utilisant, et l’intégrité scientifique des personnes qui les citeraient.

 

En 2024, nous avons voulu vérifier si ChatGPT « hallucinait » encore. Nous lui avons soumis un texte que nous avions rédigé dans le cadre d’un projet de recherche, sans y placer de références scientifiques. Nous lui avons demandé de chercher les sources implicites, d’en faire une bibliographie et d’intégrer au fil du texte les références adéquates. Le travail a été réalisé avec la même impression de réalisme et de précision. Pourtant, après vérification, il s’est avéré que 100% des références étaient fausses et leur entrelacement dans le texte dépourvu de sens.

Les contenus produits sont bien modérés par des règles algorithmiques et/ou une intervention humaine, mais essentiellement dans le but de s’assurer qu’ils ne contreviennent pas aux règles de décence que l’entreprise qui développe ces outils, a posées.

 

D’autres exemples d’erreurs sont cités dans l’article que nous avons publié en 2023. Ceux-ci permettent de réaliser l’ampleur du phénomène.

 

Quelques actions à entreprendre

 

Dans un premier temps, il s’agit de vérifier la réponse obtenue dans Google ou autre moteur de recherche. S’il s’agit de références bibliographiques, il faut les vérifier dans Google Scholar ou autre système du même type. Il arrive que le nom de l’auteur cité soit correct, mais, en lisant quelques-unes de ses recherches, on réalise que cet auteur travaille dans un champ qui n’a aucun rapport avec la requête.

On peut aussi se faire confiance et se poser la question suivante : ces données sont-elles cohérentes avec ce que je sais ? Les conclusions sont-elles logiques ? S’il s’agit de données chiffrées, il faut les interroger, par exemple en s’appuyant sur des données statistiques crédibles (Office fédéral de la statistique, OCDE, Banque mondiale) ou celles fournies par les entreprises concernées (ventes, parts de marché).

Il est possible de demander au système utilisé de vérifier ses dires en accédant au Web. Cela réduira les erreurs, mais ne les supprimera pas complètement.

Une autre solution consiste à utiliser d’autres sources que celles textuelles, par exemple une vidéo d’experte et d’expert fournira des moyens de confronter les données proposées à des spécialistes humains, et donc de se faire une idée plus précise de la véracité des réponses proposées par les systèmes d’IA.

 

Comment se positionner en classe face à ce risque ?

 

Si la communauté enseignante est capable de faire preuve de doute systématique et de vérifier les données produites par ces IA, ce n’est souvent pas le cas des étudiantes et des étudiants. Trompés par l’apparence de vérité des textes générés, ils peuvent être susceptibles de les utiliser sans vérification.

Il est important d’évoquer ce sujet en classe, de prendre un peu de temps au début de l’année académique ou du semestre pour évoquer ces problématiques. Souvent, la communauté étudiante n’est pas consciente que les données générées puissent être fausses à ce point. En les enjoignant à vérifier les résultats, mais aussi en réalisant un exercice de vérification avec eux, l’enseignante et l’enseignant leur proposera un mode de réflexion adapté au travail avec les productions des IA.

 

Exemple d’exercice

 

Testez l’agent conversationnel à l’avance, en adaptant votre demande à votre domaine d’enseignement,

-   Choisissez une demande un peu décalée,

-   Analysez le résultat produit par l’agent,

-   Notez les incohérences, erreurs, ou productions fantaisistes.

 

-   Présentez le résultat en classe en cliquant sur le lien vers la conversation (qui se situe, dans le cas de ChatGPT, en haut à droite de l’écran),

-   Posez des questions à vos étudiantes et à vos étudiants : les réponses de l’agent sont-elles selon eux correctes ?

-   Faites-les vérifier les références produites, particulièrement celles bibliographiques,

-  Lancez une discussion : avaient-ils conscience de ce comportement des agents conversationnels ? Comment vont-ils les utiliser à l’avenir ?

 

Appliquer un regard critique aux données produites par les systèmes, pose la question du temps et de l’énergie déployée pour la vérification. Le rapport vérification de la production IA/production personnelle penche-t-il en faveur de l’usage de l’IA ou en faveur d’un travail propre, éventuellement assisté par l’IA (vérification de votre texte, de l’orthographe, identification des incohérences, etc.) ?

Une question cruciale alors que l’usage de ces outils se généralise pour devenir la normalité.

 

En deux mots

 

Bien que les agents conversationnels, tels que ChatGPT, semblent séduisants, il convient de poser sur leurs productions un regard critique. Ces systèmes peuvent générer des données erronées, voire fantaisistes, dans n’importe quel domaine. Ce phénomène spécifique à l’IA se nomme « hallucination ». Les agents sont éduqués à toujours fournir une réponse à l’humain. Lorsque la demande est inhabituelle, les agents conversationnels vont créer une réponse qu’ils jugent statistiquement proche de ce qu’ils fournissent habituellement. Une étude de Wang&Al. (2022) a déterminé que 36% du contenu produit par une IA était erroné et non utilisable. Il convient donc d’en parler en classe et former la communauté étudiante à faire preuve d’esprit critique envers ces productions qui, contrairement à des livres et articles scientifiques publiés, ne sont modérés que pour déterminer si le contenu est offensant.

 

Références

 

Julia, L. (2023). L’intelligence artificielle n’existe pas. [Video]. Youtube. https://www.youtube.com/watch?v=yuDBSbng_8o

Wang, J., Hu, X., Hou, W., Chen, H., Zheng, R., Wang, Y., Yang, L., Ye, W., Huang, H., Geng, X., Jiao, B., Zhang, Y., & Xie, X. (2022). On the Robustness of ChatGPT: An Adversarial and Out-of-distribution Perspective. Microsoft Research, City University of Hong Kong, Microsoft STCA, Carnegie Mellon University, Chinese University of Hong Kong (Shenzhen), Peking University, Westlake University. Récupéré sur : https://arxiv.org/pdf/2302.12095.pdf

 
 
 

Comments


bottom of page