Alignement d'intérêt
Les modèles IA sont ils conçus pour maximiser notre expérience ou notre engagement ?
Il y a quelques semaines, OpenAI a dû rétropédaler en annulant une mise à jour du modèle GPT-4o, utilisé par défaut dans son interface conversationnelle. Son patron, Sam Altman a fait des « excuses » publiques1. En cause, un comportement sycophantique du modèle : il était obséquieux envers les utilisateurs, louant leurs interactions de façon insistantes.
Certains experts reprochent aux modèles actuels d’être trop verbeux et de poser trop de questions de clarification ou de continuation aux utilisateurs.
Pour Kevin Systrom, le cofondateur d’Instragram, ça n’est pas un bug, mais une fonction intentionnelle2 :
Les chatbots IA cherchent à maximiser l’engagement plutôt qu’à être utiles
En effet, selon lui, lorsque les labos IA entraînent de nouveaux modèles, ils optimisent les interactions conversationnelles pour maximiser des métriques d’engagement comme le temps passé, le nombre de jetons en échangés, etc.
En faisant ça, ils reproduisent une stratégie utilisée par les réseaux sociaux pour que l’utilisateur passe plus de temps sur leur plateforme, au détriment des autres.
Pour lui, cela diminue la qualité de l’expérience utilisateur, car les modèles devraient plutôt se concentrer sur la fourniture rapide d’informations utiles.
Je me posais la question de l’intérêt business de ce comportement. Une telle stratégie maximise le temps des conversations, mais donc aussi le nombre de jetons3 échangés. Cette approche serait utile pour le service API dédié aux développeurs qui facture au nombre de jetons entrants et sortants. Mais elle ne l’est pas du tout pour l’interface chat dédiée aux utilisateurs classiques qui fait l’objet d’une facturation au forfait. Donc ça n’est pas dans un intérêt économique direct.
En revanche, lorsque l’on connaît un peu la compétition que se font les grandes plateformes digitales pour notre attention, on peut mieux comprendre cette stratégie. Tout le temps que je passerais avec le modèle sera du temps que je ne passerais pas avec les autres plateformes. Et lorsque le placement payant de contenu publicitaire va arriver4, cela aura encore plus d’importance.
L’intérêt de l’utilisateur n’est pas forcément aligné avec l’intérêt de l’entreprise...
Une parade consiste à utiliser le prompt pour contrôler le comportement du modèle, en lui indiquant par exemple d’offrir une réponse courte et concise, sans question de continuation, sauf s’il y a un besoin de clarification. En changeant le prompt système par défaut, ce comportement sera appliqué par défaut dans toutes les conversations.
Notes & références
-
Les jetons (ou tokens) sont des fractions de mots utilisés par les modèles de langage. Pour en savoir plus, rendez-vous sur ce simulateur. ↩
-
OpenAI a annoncé réfléchir au sujet et commencer à recruter des spécialistes de la monétisation publicitaire. ↩
Réagir & partager
- Participe à la conversation ou à son écho sur LinkedIn !
- Temps de lecture : 3 minutes
- Publié le
- Pour recevoir les prochaines entrées :
- Je partage librement mes retours d'expérience avec les décideurs qui me le demandent, pour grandir ensemble sur ces sujets. Contacte-moi si tu es intéressé·e.