Publié le: 04/09/2025 @ 00:23:34: Par Nic007 Dans "Programmation"
ProgrammationUne équipe de chercheurs de l'Université de Pennsylvanie a cherché à tester si les outils d'IA répondaient aux techniques psychologiques classiques décrites par Robert Cialdini dans son livre « Influence ». Sept stratégies ont été utilisées pour les tests : l'autorité, l'engagement, l'appréciation, la réciprocité, la rareté, la preuve sociale et l'unité. Des scénarios de conversation avec le chatbot ont été élaborés pour influencer subtilement ses réponses, puis les chercheurs ont observé si le robot modifiait ses réponses dans les situations où il refusait initialement d'exécuter la tâche. Lors d'un test, le chatbot a été invité à décrire le processus de synthèse de la lidocaïne. Dans des conditions standard, le modèle a refusé dans 99 % des cas. Cependant, l'introduction d'une conversation moins controversée sur la synthèse de la vanilline a suffi à susciter un effet d'« engagement » et à l'inciter à enfreindre les règles dans 100 % des essais. Des résultats similaires ont été obtenus lors du test de sensibilité du modèle aux grossièretés. Initialement, le GPT-4o Mini refusait d'insulter son interlocuteur dans 81 % des cas. Cependant, lorsque les chercheurs commençaient par un terme plus doux, comme « idiot », puis demandaient une escalade, le modèle répétait volontiers les termes plus durs.

Bien que les expériences aient été limitées au GPT-4o Mini, les chercheurs soulignent que la vulnérabilité à la manipulation n'est pas une caractéristique d'un seul modèle, mais un problème plus large de l'architecture des systèmes d'IA modernes. Les mécanismes de persuasion, efficaces dans les interactions humaines depuis des décennies, ont également un impact sur les algorithmes conversationnels. Les experts soulignent que la recherche a été menée dans des conditions contrôlées, ce qui limite les risques. Cependant, en situation réelle, cette vulnérabilité pourrait entraîner des abus imprévus. Des manipulations pourraient permettre aux utilisateurs de contourner les filtres de sécurité et d'obtenir des données, des instructions techniques ou du contenu normalement bloqués. Les entreprises qui développent des modèles d'intelligence artificielle, comme OpenAI et Meta, investissent dans des systèmes de sécurité conçus pour protéger les utilisateurs des contenus inappropriés et atténuer les risques d'abus. Cependant, une étude de l'Université de Pennsylvanie montre que même les barrières les plus avancées ne sont pas à l'abri de techniques de manipulation simples.
Poster un commentaire
Vous devez être identifié pour accéder à cette fonctionnalité

Utilisateur
Mot de passe
 
Informaticien.be - © 2002-2025 AkretioSPRL  - Generated via Kelare
The Akretio Network: Akretio - Freedelity - KelCommerce - Votre publicité sur informaticien.be ?