Des pirates de l’IA traquent les vices cachés des chatbots

Entertainment

L’un des grands jeux, avec les agents conversationnels à la ChatGPT, Copilot ou Gemini, est de réussir à les faire déraper. C’est-à-dire leur faire dire ce que leurs créateurs voudraient interdire (des insultes, des propos racistes, homophobes…), les contraindre à avouer des informations personnelles, ou encore les convaincre de proposer à l’utilisateur de faux messages commerciaux… Cette activité a été surnommée jailbreaking ou « évasion des barrières », parfois encore « piratage ». Trois