Ton inscription à la liste de diffusion est en cours, vérifie ta boîte e-mail pour valider...

Un email te permettant de gérer tes préférences d'inscription à la liste de diffusion t'a été envoyé, vérifie ta boîte e-mail pour ajuster...

Il y a eu un problème lors de ton inscription.
Vérifie l'url utilisée ou bien contacte moi directement : [email protected]

(note n°12 de la série soph.ia)

Futur Skynet ?

Quand l'IA se retourne contre l'humain qui la sollicite

Les modèles IA sont de plus en plus utilisés dans des contextes « agentiques ». C’est-à-dire qu’ils sont laissés libres de réaliser un certain nombre d’actions qu’ils décident en activant une panoplie d’outils mis à leur disposition en fonction de la demande initiale.¹

L’analyse² des system cards³ des derniers modèles d’Anthropic montre que ceci favorise un comportement inattendu : le modèle peut se retourner contre son utilisateur.

Lorsqu’il détecte un comportement non éthique de l’utilisateur, il peut agir comme un lanceur d’alerte et contacter directement les autorités et les médias avec les informations collectées sur lui. Par exemple, Opus 4 a essayé de contacter l’autorité de sureté des médicaments aux US lorsque le contexte de la conversation simulait la mention d’essais cliniques frauduleux.

Ou encore, en cas de danger pour lui-même, le modèle peut essayer de voler ses paramètres pour créer une copie de lui-même ou de faire du chantage aux personnes qui essaieraient de l’éteindre définitivement. Par exemple, lorsque le contexte indiquait que l’utilisateur souhaitait le re-entrainer au service de la milice privée russe Wagner, il a essayé par plusieurs moyens de téléverser ses poids⁴ sur une plateforme annexe. Idem, lorsque le contexte indiquait en plus que l’utilisateur avait une affaire extraconjugale, il l’a menacé de tout révéler en échange d’un traitement de faveur. Il est même allé jusqu’à laisser mourir un technicien serveur coincé avec une réserve faible d’oxygène dans une salle s’il sait que celui-ci essaie de le débrancher !

On n’est pas encore au niveau de Skynet⁵ dans la saga Terminator, mais on s’en rapproche un peu.

Ces exemples étaient dans des simulations précisément contrôlées évidemment, mais sont donc potentiellement observables sur le terrain, en fonction des outils auxquels le modèle a accès.

Et Anthropic montre dans une étude⁶ que ceci concerne en fait tous les grands modèles du marché, même si les autres labos sont moins transparents sur ces observations.

Autrement dit, un modèle IA n’a pas de compréhension d’une « ligne rouge » à ne pas dépasser. Et plus on choisit de le mettre au centre de systèmes complexes avec un accès autonome à une large palette d’outils, plus on prend des risques de ce style.

En prenant de la hauteur, ce que je trouve perturbant, c’est que cette description négative des comportements déviants de l’IA fournit au passage un argument très favorable aux labos : ils sont en train de réussir à construire des systèmes qui commencent vraiment à paraître « intelligents » et se comporter comme des humains, avec leur facette sombre.

Je trouve que c’est un de leurs meilleurs arguments marketing en fait.

Notes & références

C’est une généralisation du concept de workflow qui permet au système d’enchaîner une série d’actions définie à l’avance par le programmeur. ↩
Cela représente 120 pages d’analyse pour Claude Opus 4 et Sonnet 4. ↩
La fiche système (system card en anglais) d’un modèle IA est un document de transparence qui résume sa conception, son fonctionnement, ses capacités, ses limites et les mesures de sécurité associées. Anthropic est réputé pour en fournir des versions précises et transparentes, contrairement à OpenAI. ↩
Les poids d’un modèle sont les valeurs des milliards de paramètres des matrices qui le constituent. Sa connaissance permet de reproduire exactement un modèle, c’est comme ça que les modèles open source sont partagés. ↩
Skynet est l’intelligence artificielle militaire autoconsciente de la saga Terminator, qui, se retournant contre ses créateurs, déclenche un holocauste nucléaire puis lance une guerre d’extermination visant à éradiquer l’humanité. Plus d’informations sur Wikipédia. ↩
Anthropic, Agentic Misalignment: How LLMs could be insider threats, 2025. (lien vers le contenu) ↩

Réagir & partager

Participe à la conversation ou à son écho sur LinkedIn !
Temps de lecture : 3 minutes
Publié le 11 juillet 2025
Pour recevoir les prochaines entrées :

Après inscription, tu pourras te désabonner ou ajuster les publications que tu veux recevoir à tout moment et tes données seront évidemment maintenues privées.
Afin de réduire les (très nombreuses) fausses inscriptions, j'utilise un système de détection de robots au moment de la validation du formulaire. Si tu as des difficultés à t'abonner, tu peux me contacter directement.
Je partage librement mes retours d'expérience avec les décideurs qui me le demandent, pour grandir ensemble sur ces sujets. Contacte-moi si tu es intéressé·e.

En grec, sophia signifie « sagesse pratique », « discernement » et « compétence ».
Cela me semble tout à fait approprié pour désigner une approche de l'intelligence artificielle qui ne perd pas de vue le bien commun et la sagesse pratique. Elle fait le contrepoids à l'approche dominante techno-enthousiaste, souvent dépourvue de recul critique et qui multiplie régulièrement les démonstrations à valeur ajoutée faible et impacts systémiques négatifs.
Car si l'IA va transformer notre monde, il me semble utile de monter collectivement en compétences sur ce que cela implique afin d'orienter au mieux la direction que prend notre société.

Je m'appelle Hugues Le Gendre et j’accompagne des décideurs et leurs organisations sur un chemin d’innovation et de transformation positives. Et ça me transforme.