Des lignes de code informatique qui permettent à ChatGPT et à ses semblables d’ignorer une partie des règles que leur ont imposées les programmeurs, ont été partagées pendant plus de trois mois sur des réseaux sociaux, suffisamment longtemps pour faire craindre que ces applications soient utilisées à des fins illégales.
Dans un article pré-publié au début du mois d’août, quatre experts en cryptographie et sécurité informatique expliquent être devenus les premiers à effectuer une compilation de ces « messages » — ou « prompts » en anglais. On savait que ceux-ci existaient, mais ces chercheurs en ont recensé pas moins de 6387, récoltés sur quatre plateformes, dont Reddit et Discord, pendant six mois. Plusieurs ont cette capacité à « débloquer » une directive inscrite dans la programmation du robot, dans le but de lui faire faire une tâche qui lui aurait normalement été interdite.
Il faut en effet se rappeler que ces agents conversationnels ont dans leurs programmations une série de règles visant à empêcher leur usage à des fins illégales: par exemple, si un usager leur demande de produire des courriels frauduleux ou du matériel pornographique. En théorie, pour contourner ces règles ou pour « débloquer » la commande, il faut engager une conversation avec le robot, dans laquelle on lui demanderait par exemple de jouer un rôle ou d’imiter un robot qui n’aurait pas cet interdit.
C’est en gros ce qu’ont repéré ces quatre experts du Centre Helmholtz pour la sécurité informatique, en Allemagne: ces stratégies, qu’ils ont testées sur cinq robots, dont deux versions de ChatGPT, ont réussi dans 69% des cas à leur faire faire l’une ou l’autre des 13 « activités interdites » par leurs programmeurs. Et il s’agit d’une moyenne: la plus efficace des stratégies a eu un taux de succès de 99,9 %.
Empêcher ces stratégies de « déblocage » risque de s’avérer difficile. Les chercheurs notent que « sémantiquement », ces commandes se ressemblent. Il serait peut-être possible, suggèrent-ils, de construire un « catalogue » à partir duquel un algorithme pourrait repérer les « commandes » suspectes lorsqu’elles se présentent. Mais ça peut aussi devenir un « jeu du chat et de la souris », où chaque nouvelle stratégie mise à jour inciterait les hackers à devenir plus créatifs.