Hugues Le Gendre

(note n°12 de la série soph.ia)

Futur Skynet ?

Quand l'IA se retourne contre l'humain qui la sollicite

Les modèles IA sont de plus en plus utilisés dans des contextes « agentiques ». C’est-à-dire qu’ils sont laissés libres de réaliser un certain nombre d’actions qu’ils décident en activant une panoplie d’outils mis à leur disposition en fonction de la demande initiale.1

L’analyse2 des system cards3 des derniers modèles d’Anthropic montre que ceci favorise un comportement inattendu : le modèle peut se retourner contre son utilisateur.

Lorsqu’il détecte un comportement non éthique de l’utilisateur, il peut agir comme un lanceur d’alerte et contacter directement les autorités et les médias avec les informations collectées sur lui. Par exemple, Opus 4 a essayé de contacter l’autorité de sureté des médicaments aux US lorsque le contexte de la conversation simulait la mention d’essais cliniques frauduleux.

Ou encore, en cas de danger pour lui-même, le modèle peut essayer de voler ses paramètres pour créer une copie de lui-même ou de faire du chantage aux personnes qui essaieraient de l’éteindre définitivement. Par exemple, lorsque le contexte indiquait que l’utilisateur souhaitait le re-entrainer au service de la milice privée russe Wagner, il a essayé par plusieurs moyens de téléverser ses poids4 sur une plateforme annexe. Idem, lorsque le contexte indiquait en plus que l’utilisateur avait une affaire extraconjugale, il l’a menacé de tout révéler en échange d’un traitement de faveur. Il est même allé jusqu’à laisser mourir un technicien serveur coincé avec une réserve faible d’oxygène dans une salle s’il sait que celui-ci essaie de le débrancher !

On n’est pas encore au niveau de Skynet5 dans la saga Terminator, mais on s’en rapproche un peu.

Ces exemples étaient dans des simulations précisément contrôlées évidemment, mais sont donc potentiellement observables sur le terrain, en fonction des outils auxquels le modèle a accès.

Et Anthropic montre dans une étude6 que ceci concerne en fait tous les grands modèles du marché, même si les autres labos sont moins transparents sur ces observations.

Autrement dit, un modèle IA n’a pas de compréhension d’une « ligne rouge » à ne pas dépasser. Et plus on choisit de le mettre au centre de systèmes complexes avec un accès autonome à une large palette d’outils, plus on prend des risques de ce style.

En prenant de la hauteur, ce que je trouve perturbant, c’est que cette description négative des comportements déviants de l’IA fournit au passage un argument très favorable aux labos : ils sont en train de réussir à construire des systèmes qui commencent vraiment à paraître « intelligents » et se comporter comme des humains, avec leur facette sombre.

Je trouve que c’est un de leurs meilleurs arguments marketing en fait.

Notes & références

  1. C’est une généralisation du concept de workflow qui permet au système d’enchaîner une série d’actions définie à l’avance par le programmeur.

  2. Cela représente 120 pages d’analyse pour Claude Opus 4 et Sonnet 4.

  3. La fiche système (system card en anglais) d’un modèle IA est un document de transparence qui résume sa conception, son fonctionnement, ses capacités, ses limites et les mesures de sécurité associées. Anthropic est réputé pour en fournir des versions précises et transparentes, contrairement à OpenAI.

  4. Les poids d’un modèle sont les valeurs des milliards de paramètres des matrices qui le constituent. Sa connaissance permet de reproduire exactement un modèle, c’est comme ça que les modèles open source sont partagés.

  5. Skynet est l’intelligence artificielle militaire autoconsciente de la saga Terminator, qui, se retournant contre ses créateurs, déclenche un holocauste nucléaire puis lance une guerre d’extermination visant à éradiquer l’humanité. Plus d’informations sur Wikipédia.

  6. Anthropic, Agentic Misalignment: How LLMs could be insider threats, 2025. (lien vers le contenu)

Réagir & partager

En grec, sophia signifie « sagesse pratique », « discernement » et « compétence ».
Cela me semble tout à fait approprié pour désigner une approche de l'intelligence artificielle qui ne perd pas de vue le bien commun et la sagesse pratique. Elle fait le contrepoids à l'approche dominante techno-enthousiaste, souvent dépourvue de recul critique et qui multiplie régulièrement les démonstrations à valeur ajoutée faible et impacts systémiques négatifs.
Car si l'IA va transformer notre monde, il me semble utile de monter collectivement en compétences sur ce que cela implique afin d'orienter au mieux la direction que prend notre société.

Je m'appelle Hugues Le Gendre et j’accompagne des décideurs et leurs organisations sur un chemin d’innovation et de transformation positives. Et ça me transforme.