Informaticien - ChatGPT hallucine de plus en plus et OpenAI ne sait pas pourquoi

ChatGPT et d'autres systèmes d'IA commettent de plus en plus d'erreurs, même s'ils deviennent en réalité de plus en plus puissants, selon la conclusion intérimaire inquiétante des développeurs. Selon les tests internes d'OpenAI, le modèle phare GPT o3 hallucine sur un tiers de toutes les questions concernant les personnalités publiques - plus de deux fois plus souvent que son prédécesseur o1. Le modèle 04-mini, plus compact, est encore moins performant avec un taux d'erreur de 48 %. Pour les questions de connaissances plus générales dans le benchmark SimpleQA, les taux d'hallucinations augmentent considérablement jusqu'à 51 % pour o3 et même 79 % pour o4-mini. Ces chiffres sont particulièrement inquiétants car les modèles les plus récents annoncent en réalité des capacités logiques et de raisonnement améliorées. Une explication possible de ce phénomène réside dans le fonctionnement des nouveaux modèles de raisonnement. Contrairement aux systèmes plus anciens qui s’appuient principalement sur des probabilités statistiques, ces modèles tentent de décomposer des problèmes complexes en étapes logiques, de manière similaire à la façon dont les humains penseraient.

Comme le rapporte le New York Times , c’est précisément ce processus de réflexion étape par étape qui pourrait devenir un problème. « Les technologies les plus récentes et les plus puissantes – les systèmes de raisonnement d’entreprises comme OpenAI, Google et la start-up chinoise DeepSeek – génèrent davantage d’erreurs, et non moins », explique le journal. À chaque étape de réflexion, le système pourrait introduire de nouvelles erreurs, qui deviendraient alors plus prononcées à mesure que le processus progresse. OpenAI elle-même déclare que des recherches supplémentaires sont nécessaires pour comprendre les causes exactes. « Les hallucinations ne sont pas intrinsèquement plus courantes dans les modèles de raisonnement, bien que nous travaillions activement à réduire les taux d'hallucinations plus élevés que nous avons observés dans o3 et o4-mini », a déclaré Gaby Raila, porte-parole d'OpenAI, au New York Times.

Les conséquences de cette évolution sont de grande portée. Les systèmes d’IA sont de plus en plus utilisés dans des domaines tels que l’éducation, la santé et le gouvernement, des environnements où les erreurs peuvent avoir de graves conséquences. Il existe déjà des rapports d'avocats citant des décisions judiciaires inexistantes générées par ChatGPT. Ce phénomène n’est pas entièrement nouveau dans l’histoire de l’intelligence artificielle. Dès les années 1980, les chercheurs ont observé ce qu'on appelle « l'effet Eliza », du nom d'un ancien chatbot , dans lequel les gens avaient tendance à attribuer au système plus de compréhension qu'il n'en possédait réellement. Les problèmes d’hallucinations actuels pourraient être considérés comme une variante moderne de cet effet – à la différence près que les systèmes eux-mêmes « croient » désormais en savoir plus qu’ils n’en savent réellement.

Auteur: Nic007