Hugues Le Gendre

(note n°6 de la série soph.ia)

Péché originel des IA

Les LLMs portent en leur sein un risque qui donne des sueurs froides aux dirigeants

Le développement des capacités multimodales des IA génératives est spectaculaire.

Il y a quelques semaines, OpenAI annonçait1 ses nouveaux modèles de transcription audio, promettant une amélioration sensible sur la génération précédente, Whisper v3, pourtant devenu le de-facto standard de l’industrie.2 Et depuis quelque temps déjà, les modèles les plus puissants ont des capacités de « vision » : ils peuvent interpréter nativement des images et des vidéos.

Pour les labos d’IA, cette convergence est un pas en avant, car il permet d’accélérer la fourniture d’un seul outil qui fait tout et minimiser les soucis d’orchestration et leur fragmentation associée.

Mais il y a un prix à payer pour ça, et ils ne le mettent pas forcément en lumière. C’est ce prix qui donne des sueurs froides aux dirigeants.

Le fonctionnement profond des LLMs repose sur le traitement mathématique d’un flux unique de jetons (ou tokens). Aux bornes du modèle, les données échangées avec l’utilisateur sont transformées en une suite de vecteurs de nombres, qui sont manipulés par le modèle.

Cette approche est très efficace, mais elle présente un risque de sécurité majeur : les LLMs traitent sans distinction de la donnée et des instructions dans un seul flux.

C’est ce qui fait leur puissance. Je peux leur mettre un fichier dans une conversation ainsi que des instructions pour les exploiter et ils vont me répondre, sous différentes formes : texte, présentation, graphiques, etc.

Et c’est aussi leur plus grande faiblesse : ils risquent de suivre de façon accidentelle des instructions qui leur sont transmises par un utilisateur final en tant que données. Cette injection de prompt peut avoir des conséquences dramatiques pour des agents qui sont interfacés profondément dans des systèmes.

Ainsi on a pu démontrer qu’un e-mail malicieux avec des instructions cachées envoyé à une boite notamment traitée par un agent LLM avait permis de réinitialiser le compte Facebook d’un utilisateur. L’agent avait initié toutes les étapes nécessaires (et notamment la validation par e-mail) à l’insu du propriétaire du compte.

Avec l’intégration du traitement des images et de l’audio dans le même modèle, la surface d’attaque a augmenté.

Un agent qui traite les courriers papiers entrant en effectuant le traitement OCR de l’image, l’analyse du texte et la classification automatique, voire la génération d’une réponse par défaut peut être la victime d’une attaque de ce type. Ce qui n’était pas le cas lorsque la partie OCR était réalisée par un bon vieil algorithme de machine learning...

La nécessité de mettre en place des garde-fous devient primordiale avant d’aller en production3. Et s’ils sont basés sur des LLMs, ils pourraient théoriquement être compromis eux aussi.

Notes & références

  1. Lire l’annonce officielle (en anglais).

  2. C’était à l’époque où OpenAI méritait encore son qualificatif « ouvert » en partageant la source de certains de ses modèles.

  3. Raison de plus pour commencer par des déploiements internes. À relire : Pour quoi ? Pour qui ?.

Réagir & partager

En grec, sophia signifie « sagesse pratique », « discernement » et « compétence ».
Cela me semble tout à fait approprié pour désigner une approche de l'intelligence artificielle qui ne perd pas de vue le bien commun et la sagesse pratique. Elle fait le contrepoids à l'approche dominante techno-enthousiaste, souvent dépourvue de recul critique et qui multiplie régulièrement les démonstrations à valeur ajoutée faible et impacts systémiques négatifs.
Car si l'IA va transformer notre monde, il me semble utile de monter collectivement en compétences sur ce que cela implique afin d'orienter au mieux la direction que prend notre société.

Je m'appelle Hugues Le Gendre et j’accompagne des décideurs et leurs organisations sur un chemin d’innovation et de transformation positives. Et ça me transforme.