Informaticien - Les résumés Google se dégradent. L'IA commence à citer l'IA

Une étude menée par Originality.ai indique qu’un phénomène que de nombreux experts craignent depuis des années commence à apparaître dans la recherche Google. AI Overviews (AIO), une fonctionnalité qui présente des résumés synthétiques dans les résultats de recherche, cite de plus en plus de contenus générés par d'autres modèles d'IA. L'analyse montre qu'environ 10,4 % des sources AIO ont été créées non pas par des journalistes, des chercheurs ou des spécialistes, mais par des algorithmes génératifs. L'étude a porté sur 29 000 requêtes dans le domaine YMYL (Your Money or Your Life) – des sujets liés à la santé, à la sécurité et à la finance – où la crédibilité de l'information est cruciale. L'équipe d'Originality.ai a analysé les résultats AIO, les liens cités et les 100 premiers résultats organiques traditionnels. Grâce à son modèle propriétaire AI Detection Lite 1.0.1, l'entreprise a identifié les sources créées par des humains et celles issues de systèmes automatisés. Les résultats sont préoccupants. Outre les 10,4 % de contenu généré par l'IA mentionnés ci-dessus, 15,2 % des sources analysées ont été jugées « inclassables » en raison de problèmes techniques tels que des textes trop courts, des liens rompus ou des contenus aux formats vidéo et PDF. Parallèlement, 52 % des références apparaissant dans AIO ne figuraient pas parmi les 100 premiers sites présentés par Google dans les résultats de recherche traditionnels.

Le problème contre lequel les chercheurs mettent en garde est appelé « effondrement des modèles ». Ce concept a été décrit pour la première fois en 2023 dans un article de scientifiques britanniques et canadiens, qui ont qualifié ce phénomène de « malédiction de la récursivité ». Il implique que les modèles d'IA apprennent les uns des autres, reproduisent les erreurs et perdent progressivement leur capacité à générer des données précieuses. Les nouvelles conclusions suggèrent que, même si les analyses d'IA ne sont pas directement intégrées aux ensembles d'entraînement, en exposant le contenu créé par d'autres systèmes d'IA, elles augmentent leur visibilité et leur crédibilité. Ceci, à son tour, augmente le risque que ce contenu se retrouve dans les bases de données d'entraînement d'autres modèles à l'avenir.

Google conteste l'interprétation des résultats. Un porte-parole de l'entreprise a qualifié l'étude d'incorrecte et a remis en question l'efficacité des détecteurs de contenu générés par l'IA, dont Originality.ai. Il a souligné que ces outils sont souvent trompeurs et ne fournissent pas de résultats concluants. L'entreprise affirme également que les liens présentés dans AIO sont dynamiques, contextuels et évoluent en fonction de l'actualité et de l'utilité du moment. Originality.ai se défend toutefois, soulignant la grande précision de son système lors de tests indépendants. L'entreprise maintient que le problème existe et qu'il risque de s'aggraver si la part de contenu généré par des algorithmes augmente sur le web. Si ce phénomène s'intensifie, le web pourrait ressembler à un écosystème fermé, où les données sont créées en boucle fermée, sans intervention humaine. Un tel scénario signifie non seulement une perte de diversité des contenus, mais aussi un risque de désinformation généralisée.

Auteur: Nic007