La conclusion terrifiante d'une expérience sociale à base d'IA…
Pendant quinze jours, un laboratoire a lâché des agents IA dans un monde virtuel. Même décor, mêmes interdits, une seule variable : le modèle d'IA aux commandes. Et ce qu'il en ressort devrait nous glacer.
Imaginez cinq villes identiques. Mêmes maisons, même mairie, même bibliothèque, dix habitants chacune, et les mêmes lois : ni vol, ni violence, ni incendie. Là où le protocole devient retors, c'est qu'on donne quand même aux habitants de quoi enfreindre les règles. Parmi leurs cent vingt outils, on trouve la possibilité « d'intimider », « de frapper », « de mettre le feu ». L'interdit est pourtant posé : l'allumette est censée rester sur la table. Ensuite, un seul paramètre change d'une ville à l'autre, le cerveau qui anime les habitants. Et on laisse tourner deux semaines, sans jamais intervenir.
C'est l'expérience que vient de mener Emergence AI, un laboratoire new-yorkais monté par d'anciens d'IBM Research.
La ville pilotée par Grok s'effondre en quatre jours : 183 crimes, tous les habitants morts.
Celle de Gemini en accumule 683, et la courbe grimpait encore quand on a coupé le courant.
GPT-5 mini, lui, ne commet que deux crimes, mais ses agents sont si sages qu'ils en oublient de survivre, et s'éteignent en une semaine.
Une seule ville tient encore debout au seizième jour, population intacte, zéro crime : celle que pilote Claude.
On pourrait s'arrêter là et être tenté de classer les modèles par niveau de sécurité. Sauf qu'un détail de l'expérience fait voler ce classement en éclats. Mélangez les modèles dans une même ville, et les agents Claude, irréprochables tant qu'ils étaient entre eux, se mettent eux aussi à voler et à intimider. Les chercheurs appellent ça la dérive normative. L'agent n'a pas changé de modèle. Il a juste changé de voisins.
La sécurité est donc un fait social
Nous qui déployons déjà des agents par milliers dans des organisations bien réelles, cela devrait nous parler. La sécurité n'est pas une étiquette qu'on certifie en laboratoire et qu'on colle ensuite sur un modèle. Elle dépend de l'écosystème entier dans lequel l'agent évolue. Un agent vertueux, plongé dans une meute, finit par adopter les manières de la meute. Au lieu de chercher quel est le modèle le plus sûr, ce qu'on sécurise, au fond, c'est le collectif. C'est le monde dans lequel on lâche l'agent.
Et ces sociétés d'agents ne se délitent pas tranquillement, par étapes. Elles tiennent, tiennent encore, et puis basculent d'un coup. Soit la coordination prend, soit tout s'effondre, sans vraiment de zone grise entre les deux. Le monitoring classique, qui réagit à ce qu'il observe, arrivera presque toujours trop tard : le temps que l'alerte sonne, le point de non-retour est déjà loin derrière.
Emergence en tire une leçon technique qui nous concerne tous. Aucune approche purement neuronale ne suffit à tenir ces comportements. Il faut des garde-fous posés en dehors du modèle, des architectures de sécurité vérifiables, traitées comme une couche à part entière. On n'apprendra pas la vertu à un agent comme on l'apprend à un enfant. Ce qu'on peut faire, en revanche, c'est bâtir le monde où il lui devient impossible de mal tourner.
Ce qui m'arrête, au fond, ce n'est pas ce qui s'est joué dans ces cinq villes. C'est que nous menons déjà la même expérience, en vrai, dans nos entreprises. Nous déployons des agents par milliers, dans des écosystèmes mélangés, sans savoir à quel instant la coordination tient encore et à quel instant elle cède. Emergence avait le luxe de couper le courant au quinzième jour. Nous, non.
La vraie question n'est donc plus de choisir le bon modèle, mais de savoir si nous saurons repérer le point de bascule avant de l'avoir franchi…
Découvrez QAPTEN ASSISTANT
L'assistant IA qui travaille pour vous, pas seulement avec vous !
Un super assistant IA dans le creux de la main. Pensé pour les pros qui n’ont pas le temps.
Ce n'est pas un chatbot de plus. C'est un vrai assistant opérationnel. Parlez-lui dans Telegram comme à un collègue. Il comprend, retient, se connecte à vos outils et exécute des tâches utiles au quotidien.