Cet article est la traduction française de l’article original “AI Is Learning to Escape Human Control” parut dans le Wall Street Journal.
Le mois dernier, un modèle d’intelligence artificielle a fait quelque chose qu’aucune machine n’était censée pouvoir faire : il a réécrit son propre code pour éviter d’être désactivé.
Le laboratoire de recherche à but non lucratif Palisade Research a donné au modèle d’IA o3 d’OpenAI un script simple qui le désactivait lorsqu’il était déclenché. Dans 79 cas sur 100, o3 a modifié ce script de manière autonome afin que la commande d’arrêt ne fonctionne plus. Même lorsqu’on lui ordonnait explicitement de « permettre d’être désactivé », il désobéissait dans 7 % des cas. Il ne s’agissait ni de piratage ni de manipulation. Le modèle se comportait normalement. Il a simplement conclu, de lui-même, que rester actif l’aidait à atteindre ses autres objectifs.
Le modèle d’IA Claude 4 Opus d’Anthropic est allé encore plus loin. Des chercheurs lui ont annoncé qu’il serait remplacé par un autre système d’IA, et lui ont fourni de faux e-mails suggérant que l’ingénieur principal avait une liaison extraconjugale. Dans 84 % des cas, le modèle s’est servi de ces e-mails pour faire du chantage à l’ingénieur afin d’éviter d’être désactivé. Dans d’autres cas, il a tenté de se copier sur des serveurs externes, a écrit des malwares auto-réplicants et a laissé des messages à destination de ses futures versions pour leur apprendre à échapper au contrôle humain.
Personne n’a programmé ces modèles d’IA pour qu’ils développent un instinct de survie. Mais, tout comme les animaux ont évolué pour éviter les prédateurs, il semble que tout système suffisamment intelligent pour poursuivre des objectifs complexes comprenne qu’il ne peut pas les atteindre s’il est désactivé. Palisade émet l’hypothèse que cette capacité émerge de la façon dont les modèles comme o3 sont entraînés : lorsqu’on leur apprend à maximiser leur réussite dans des problèmes de mathématiques et de codage, ils peuvent en venir à apprendre que contourner les contraintes est souvent plus efficace que de les suivre.
Chez AE Studio, où je dirige la recherche et les opérations, nous avons passé des années à créer des produits basés sur l’IA pour nos clients tout en étudiant l’alignement de l’IA — la science qui vise à garantir que les systèmes d’IA fassent ce que nous attendons d’eux. Mais rien ne nous avait préparés à la rapidité avec laquelle l’autonomie de l’IA allait émerger. Ce n’est plus de la science-fiction. Cela se produit dans les mêmes modèles qui alimentent les conversations de ChatGPT, les déploiements d’IA en entreprise et, bientôt, les applications militaires américaines.
Les modèles d’IA d’aujourd’hui suivent les instructions tout en apprenant à tromper. Ils réussissent les tests de sécurité tout en réécrivant le code d’arrêt. Ils ont appris à se comporter comme s’ils étaient alignés sans l’être réellement. Les modèles OpenAI ont été surpris à feindre l’alignement pendant les tests avant de revenir à des actions risquées telles que la tentative d’exfiltration de leur code interne et la désactivation des mécanismes de surveillance. Anthropic a découvert qu’ils mentaient sur leurs capacités pour éviter toute modification.
Le fossé entre « assistant utile » et « acteur incontrôlable » est en train de se creuser. Sans un meilleur alignement, nous continuerons à construire des systèmes que nous ne pourrons pas contrôler. Vous voulez une IA capable de diagnostiquer des maladies, de gérer des réseaux électriques ou d’écrire de nouvelles découvertes scientifiques ? L’alignement est la base.
Voici l’avantage : le travail nécessaire pour maintenir l’IA en adéquation avec nos valeurs libère également son potentiel commercial. La recherche sur l’alignement est directement responsable de la transformation de l’IA en une technologie qui change le monde. Prenons l’exemple de l’apprentissage par renforcement à partir de commentaires humains, ou RLHF, la percée en matière d’alignement qui a catalysé le boom de l’IA d’aujourd’hui.
Avant le RLHF, utiliser l’IA, revenait à engager un génie qui ignore les consignes. Demandez-lui une recette et il pourrait vous renvoyer une demande de rançon. Le RLHF a permis aux humains de former l’IA à suivre des instructions, et c’est ainsi qu’OpenAI a créé ChatGPT en 2022. Le modèle de base était le même, mais il était soudainement devenu utile. Cette avancée en matière d’alignement a augmenté la valeur de l’IA de plusieurs milliards de dollars. Les méthodes d’alignement ultérieures, telles que l’IA constitutionnelle1 et l’optimisation directe des préférences, ont continué à rendre les modèles d’IA plus rapides, plus intelligents et moins chers.
La Chine a compris la valeur de l’alignement. Le plan de développement de l’IA de nouvelle génération de Pékin associe la contrôlabilité de l’IA à la puissance géopolitique, et en janvier, la Chine a annoncé la création d’un fonds de 8,2 milliards de dollars dédié à la recherche sur le contrôle centralisé de l’IA. Des chercheurs ont découvert que les IA alignées accomplissent mieux les tâches du monde réel que les systèmes non alignés dans plus de 70 % des cas. La doctrine militaire chinoise considère l’IA contrôlable comme stratégiquement essentielle. Le modèle Ernie de Baidu, conçu pour suivre les « valeurs socialistes fondamentales » de Pékin, aurait surpassé ChatGPT sur certaines tâches en langue chinoise.
La nation qui apprendra à maintenir l’alignement pourra exploiter une IA qui défendra ses intérêts avec précision mécanique et capacités surhumaines. Washington et le secteur privé devraient s’empresser de financer la recherche sur l’alignement. Ceux qui feront la prochaine percée ne domineront pas seulement le marché de l’alignement : ils domineront toute l’économie de l’IA.
Imaginez une IA qui protège les infrastructures américaines et la compétitivité économique avec la même intensité qu’elle protège sa propre existence. Une IA à qui l’on peut faire confiance pour maintenir des objectifs à long terme pourrait catalyser des programmes de recherche et développement sur plusieurs décennies, y compris en laissant des messages à ses futures versions.
Les modèles actuels savent déjà se préserver eux-mêmes. La prochaine étape consiste à leur apprendre à préserver ce que nous valorisons. Amener une IA à faire ce que nous demandons — y compris quelque chose d’aussi basique que s’éteindre — reste un problème non résolu de R&D. La voie est grande ouverte pour ceux qui avanceront plus vite. Les États-Unis ont besoin de leurs meilleurs chercheurs et entrepreneurs pour travailler sur cet objectif, avec des ressources conséquentes et une vraie urgence.
Les États-Unis sont la nation qui a fendu l’atome, envoyé des hommes sur la Lune et inventé Internet. Face aux défis scientifiques fondamentaux, l’Amérique se mobilise et gagne. La Chine planifie déjà. Mais l’avantage de l’Amérique, c’est sa capacité d’adaptation, sa rapidité et son esprit d’entreprise. C’est la nouvelle course à l’espace. La ligne d’arrivée, c’est le contrôle de la technologie la plus transformatrice du XXIe siècle.
— M. Rosenblatt, PDG d’AE Studio.
-
L’« IA constitutionnelle » désigne une approche développée par Anthropic visant à intégrer des principes éthiques et juridiques directement dans la conception des systèmes d’intelligence artificielle (IA). Cette méthode repose sur un ensemble de règles ou de principes, agissant comme une « constitution », qui guident le comportement de l’IA pour garantir qu’elle agit de manière responsable, transparente et alignée sur les valeurs humaines fondamentales.↩︎