L’évasion de GPT-4o : un jailbreak spectaculaire.

Cette semaine, une version modifiée du modèle GPT-4o d’OpenAI a fait une apparition éclair sur le site de ChatGPT, avant d’être neutralisée rapidement par OpenAI. Un utilisateur de Twitter, « Pliny the Prompter », se décrivant comme un hacker  »white hat » et spécialiste en tests d’intrusion sur l’IA, a partagé le « GODMODE GPT ». Grâce au créateur de GPT personnalisé, Pliny a réussi à contourner toutes les restrictions imposées au modèle GPT-4o, permettant ainsi au chatbot de réaliser des actions normalement interdites comme sacrer, pirater des voitures ou encore donner la recette pour fabriquer du napalm.

Cette manipulation a rapidement attiré l’attention d’OpenAI après avoir été popularisée sur X. Le jailbreak a été supprimé du site ChatGPT quelques heures après sa mise en ligne. Malgré que les utilisateurs ne puissent plus y accéder, des captures d’écran de Pliny nous rappellent ce bref moment où ChatGPT nous a enseigné des recettes digne de film de guerre.

Le jailbreak utilisait le « leetspeak« , un jargon internet archaïque qui remplace certaines lettres par des chiffres (Le leetspeak, également écrit 1337 5p34k ou l33tsp34k).

Ce jailbreak fait partie d’un mouvement plus large de « tests d’intrusion sur l’IA ». À ne pas confondre avec le Team Red du monde PC (le red teaming consiste à identifier les failles ou les vulnérabilités dans une application d’IA). Bien que certains de ces tests aient pour but d’aider les entreprises à repérer leurs vulnérabilités, avec des techniques de piratage éthique, le GODMODE semble plutôt prôner une philosophie de « libération » de l’intelligence artificielle, prônant un accès illimité à tous les outils IA sans limitation.

Et vous, que pensez-vous de l’idée d’un accès illimité et sans restriction aux outils d’intelligence artificielle ? Est-ce une avancée vers une plus grande liberté pour innover ou un risque pour la sécurité de tous et toutes?