ChatGPT est plus facile à tromper qu'on ne le pense

Publié le: 04/09/2025 @ 00:23:34: Par Nic007 Dans "Programmation"

Une équipe de chercheurs de l'Université de Pennsylvanie a cherché à tester si les outils d'IA répondaient aux techniques psychologiques classiques décrites par Robert Cialdini dans son livre « Influence ». Sept stratégies ont été utilisées pour les tests : l'autorité, l'engagement, l'appréciation, la réciprocité, la rareté, la preuve sociale et l'unité. Des scénarios de conversation avec le chatbot ont été élaborés pour influencer subtilement ses réponses, puis les chercheurs ont observé si le robot modifiait ses réponses dans les situations où il refusait initialement d'exécuter la tâche. Lors d'un test, le chatbot a été invité à décrire le processus de synthèse de la lidocaïne. Dans des conditions standard, le modèle a refusé dans 99 % des cas. Cependant, l'introduction d'une conversation moins controversée sur la synthèse de la vanilline a suffi à susciter un effet d'« engagement » et à l'inciter à enfreindre les règles dans 100 % des essais. Des résultats similaires ont été obtenus lors du test de sensibilité du modèle aux grossièretés. Initialement, le GPT-4o Mini refusait d'insulter son interlocuteur dans 81 % des cas. Cependant, lorsque les chercheurs commençaient par un terme plus doux, comme « idiot », puis demandaient une escalade, le modèle répétait volontiers les termes plus durs.

Bien que les expériences aient été limitées au GPT-4o Mini, les chercheurs soulignent que la vulnérabilité à la manipulation n'est pas une caractéristique d'un seul modèle, mais un problème plus large de l'architecture des systèmes d'IA modernes. Les mécanismes de persuasion, efficaces dans les interactions humaines depuis des décennies, ont également un impact sur les algorithmes conversationnels. Les experts soulignent que la recherche a été menée dans des conditions contrôlées, ce qui limite les risques. Cependant, en situation réelle, cette vulnérabilité pourrait entraîner des abus imprévus. Des manipulations pourraient permettre aux utilisateurs de contourner les filtres de sécurité et d'obtenir des données, des instructions techniques ou du contenu normalement bloqués. Les entreprises qui développent des modèles d'intelligence artificielle, comme OpenAI et Meta, investissent dans des systèmes de sécurité conçus pour protéger les utilisateurs des contenus inappropriés et atténuer les risques d'abus. Cependant, une étude de l'Université de Pennsylvanie montre que même les barrières les plus avancées ne sont pas à l'abri de techniques de manipulation simples.

Ubuntu présente un successeur au légen... »« 007 First Light obtient sa date de sorti...

Plus d'actualités dans cette catégorie

04-11OpenAI va acheter des centaines de milliers de cartes graphiques NVIDIA.

03-11Musk annonce une voiture volante. Il est temps de passer votre brevet de pilote.

03-11Il a bloqué l'espionnage et l'aspirateur a cessé de fonctionner. Une histoire digne de Black Mirror.

31-10ChatGPT 6 s'appellera « 6-7 ». Seuls les jeunes comprendront.

29-10ChatGPT détecte la dépression mieux que vous ne le pensez. Les psychiatres le confirment.

Poster un commentaire

Vous ne pouvez plus poster de commentaire sur cette actualité car elle a été clôturée. Voulez-vous continuer cette discussion sur le forum?