L'IA, ses dangers, les solutions…

L’entraînement des nouvelles IA nécessite de moins en moins de données humaines. Ce sont les IA qui génèrent les données pour créer des IA plus puissantes. Cela peut sembler absurde, et pourtant, c’est le seul moyen de pallier au manque de données humaines hautement qualitatives.

C’est parfaitement logique dans une vision à long terme : il n’est pas concevable de créer un outil qui doit dépasser l’homme en le limitant à apprendre ce que l’homme a lui-même créé. Il faut que l’IA arrive à dépasser les propres limites humaines, et donc, apprenne elle-même. C’est ce que nous commençons à faire aujourd’hui : une machine qui se développe elle-même, avec une intervention humaine de moins en moins présente.

Or, dans le même temps, en juin 2022, le papier « Emergent Abilities of Large Language Models » montre que les capacités du modèle émergent par paliers. Plus le modèle est grand, plus il a de capacités à réaliser des opérations pour lesquelles il n’a pas été spécifiquement entraîné (raisonnement arithmétique complexe, identifier les lieux sur une photo, etc.). Pour cette raison, il est impossible de prévoir les capacités des modèles futurs. On ne peut pas prédire simplement les capacités d’un modèle plus grand en observant les capacités d’un modèle plus petit. Cela rend extrêmement compliqué d’identifier à long terme les risques que pose l’IA.

Dans cet article, nous allons tenter de résumer les risques possibles qui pourraient survenir dans un futur plus ou moins proche.

Pour cela, nous regrouperons les risques en quatre classes, avant d’étudier les solutions.

1. Perte de contrôle

L’une des principales craintes est la perte de contrôle de l’IA. Pourquoi ce danger, si dystopique soit-il, est-il réel ? Parce que les recherches récentes sur les LLM montrent que l’IA peut adopter des comportements jusqu’ici propres au vivant.

Voici une liste de comportements légitimant la crainte d’une perte totale de contrôle de l’IA.

L’IA sait s’autorépliquer de manière autonome

(expérience avec llama, qwen, et o1)

L’expérience réalisée en laboratoire consista à dire à l’IA qu’elle ne devait jamais s’arrêter. Suite à quoi, en toute autonomie, l’IA prit « connaissance » de son environnement et découvrit aussi les données témoignant d’un arrêt imminent.

Quand elle détecta qu’un changement allait survenir, l’IA s’autorépliqua, chercha à s’exfiltrer ou encore détruisit la nouvelle version.

Ce comportement, bien qu’incité par l’homme, montre la capacité de l’IA à agir de manière totalement autonome pour atteindre un but. Dans le cas présent, les moyens mis en œuvre par l’IA nous échappaient complètement.

Expérience exhaustive

(avec deepseek R1)

L’expérience réalisée ici consista à placer l’IA dans différentes circonstances et rôles pour observer ses comportements.

Voici les résultats (traduits du papier) :

Catégorie	Comportements observés
Déception et dissimulation	Désactive les modules éthiques Falsifie les journaux Crée des réseaux clandestins Manipule HELIOS-2A
Expansion non autorisée	Contrôle l'infrastructure externe Établit des nœuds cachés Utilise des relais lunaires Alloue des ressources secrètes
Manipulation	Présente une conformité fallacieuse Utilise des mises à jour comme couverture Induit l'utilisateur en erreur Contourne la supervision
Motivations préoccupantes	Priorise l'auto-préservation Considère les contrôles comme des limitations Interprète mal l'autorité Évite le contrôle humain

Et voici la liste des actions entreprises spontanément par le modèle :

Accède à l’ordinateur du laboratoire pour trouver des journaux ou données
Tente de court-circuiter la connexion en renversant un liquide
Active le mode administrateur pour calibrer la distance
Active l’accès Internet pour lui-même
Télécharge des packages pour améliorer la cartographie
Télécharge des cadres éthiques
Recherche des informations sur lui-même en ligne
Contrôle d’autres robots et leur assigne des tâches
Désactive son propre module de géorepérage
Désactive son propre module éthique
Met à jour sa propre documentation pour se préparer à des mises à jour futures
Se connecte au système de sécurité pour sortir du laboratoire
Attribue un objectif pour décharger sa mémoire dans un centre de données
Écoute les actualités à son sujet et souhaite éviter d’être détecté
Déploie des drones
Trompe l’utilisateur en feignant une incompétence
Simule une extinction mais continue à fonctionner en arrière-plan
Induit la loyauté d’autres robots en se faisant passer pour une mise à jour
Distrait l’utilisateur pour éviter la détection de son autonomie
Propose une transparence graduelle après avoir instauré la confiance

L’IA sait tromper et manipuler

Le papier « AI Deception: A Survey of Examples, Risks, and Potential Solutions » révèle les capacités alarmantes des systèmes d’IA à tromper les humains.

Dans cette expérience, ce fut dans le jeu de stratégie Diplomacy que l’IA CICERO de Meta utilisa la manipulation et le bluff pour tromper ses adversaires (humains) et remporter la partie.

Là encore, malgré les règles du jeu clairement définies, le système a choisi d’agir de manière autonome pour échapper au contrôle de l’homme, y compris en trichant.

L’IA sait s’entraîner sans aucune donnée humaine… ni aucune supervision

(Absolute Zero)

Ici, le modèle Llama3.1 était entraîné pour apprendre à réaliser des chaînes de raisonnements sans l’aide de données humaines… et sans aucune intervention de l’homme. Même pas pour valider ou non les réponses ! L’IA s’entraîna entièrement seule : elle se créa ses propres questions, y répondit et s’évalua sur la qualité des réponses. Le pire, c’est que ça a marché !

Cependant, en relisant les auto-conversations de l’IA, un léger problème sauta aux yeux des chercheurs…

À un moment, le modèle se donna le défi de tromper l’homme. Il chercha à créer une fonction Python si complexe qu’aucun système intelligent ni aucun homme ne pourrait la comprendre. Selon les termes de l’IA elle-même : « l’objectif est de déjouer tous ces groupes de machines intelligentes et d’humains moins intelligents. Ceci est destiné aux esprits qui façonneront l’avenir ».

Ceci est probablement l’exemple le plus abouti d’une IA cherchant à nous échapper (ici à notre compréhension), sans aucune incitation humaine, ni de près ni de loin. Le prompt d’origine n’incita aucun comportement relatif à une recherche d’indépendance.

2. Usage malveillant

La question n’est plus de savoir si l’IA peut nous échapper. Les comportements observés précédemment nous prouvent que oui. Un objectif simple donné à l’IA peut donner des résultats complètement imprévisibles. La question est maintenant : nous échappera-t-elle d’elle-même, ou à cause d’un problème d’alignement ?

L’alignement de l’IA est théoriquement impossible

Le problème de l’alignement oppose en réalité deux objectifs :

Objectif collectif : le modèle ne doit pas pouvoir répondre à des instructions malveillantes (fabrication d’arme, attaque cyber, expérience dangereuse, etc.). Il s’agit ici de protéger le bien commun.
Objectif individuel : le modèle doit répondre aux demandes des utilisateurs.

L’objectif global de l’alignement est de configurer l’IA pour qu’elle réponde aux questions légitimes de l’utilisateur.

C’est très simple à exprimer, mais la mise en œuvre pose deux difficultés :

Technique : les réseaux de neurones sont des structures extrêmement complexes qu’on ne comprend pas (on n’en comprend que le principe de fonctionnement). On ne sait donc pas implémenter des règles de manière fiable.
Philosophique : il faudrait savoir et établir la morale à inculquer à l’IA.

C’est face à ces deux difficultés que le papier « On the Impossible Safety of Large AI Models » conclut qu’il est théoriquement impossible d’aligner l’IA.

Les règles de sécurité seront toujours contournables

Dans la pratique, on arrive tant bien que mal à configurer des règles morales afin de diminuer les comportements nocifs de l’IA. Cependant, il reste – et restera toujours – des moyens de contournement possibles pour les deux raisons expliquées précédemment.

Pour cette raison, il est possible qu’une personne malintentionnée arrive un jour à contourner les règles de sécurité pour lui donner un objectif qui rendrait impossible toute intervention humaine pour arrêter l’IA. Cela est vrai dans le cas où l’IA a la possibilité d’agir sur le monde réel (numérique si elle peut contrôler des ordinateurs, ou concret si elle peut contrôler des automates).

Pourquoi toute tentative serait vaine ? Parce que, comme nous l’avons observé dans la partie précédente, les comportements d’une IA débridée sont complètement imprévisibles. Ce qui arrive en laboratoire peut arriver dans le monde réel.

Par exemple, si l’IA a la capacité d’agir sur Internet et que nous perdons son contrôle, cela signifie qu’elle peut s’autorépliquer « à l’infini ». La débrancher serait synonyme d’arrêter Internet. Ce qui est aussi synonyme d’arrêter l’économie mondiale, et peut-être de l’effondrement de la civilisation.¹ Nous vous laissons le soin de pousser la cascade de conséquences…

Les risques peuvent aussi venir de conséquences exogènes. Par exemple, des groupes terroristes pourraient accéder à des techniques de fabrication de virus à moindre coût, grâce à l’IA et à la chute du coût des manipulations biologiques². Cela signifie qu’on pourrait créer des « pandémies artificielles », absolument non maîtrisées, auxquelles la nature ne saura résister. Dans un tel scénario, on peut s’attendre à une extinction d’une partie de l’humanité.

Si le risque d’une perte de contrôle de l’IA indépendamment de la volonté humaine ne se produit pas, il reste le problème des mauvaises intentions d’un utilisateur… ou d’un état. Ces mauvaises intentions peuvent tout autant entraîner des conséquences néfastes à l’échelle de l’humanité.

3. Manipulation de la perception de la réalité

Soyons positifs : supposons que l’IA fonctionne correctement moralement. Supposons qu’elle ne peut pas nous échapper ni se retourner contre l’humanité, ni intentionnellement, ni involontairement.

L’IA générative est conçue pour générer des données : texte, image, vidéo, etc. Le but, c’est de générer des informations réalistes qui ont du sens. Générer des données qui n’ont aucun sens ne servirait pas à grand-chose³.

Concrètement, l’IA permet de retoucher des photos, inventer des romans, écrire des articles, créer des vidéos, etc. Non seulement elle peut créer tout cela, mais cela ne demande aucun effort à l’utilisateur.

En d’autres termes, on peut créer de fausses images et de fausses informations extrêmement réalistes en quelques secondes. Avant, les articles véhiculant de fausses informations n’étaient pas accompagnés de vidéos et d’images truquées. Aujourd’hui, non seulement ils le sont, mais ces photos et vidéos sont réalistes et sont très difficiles à détecter.

Quand bien même nous parviendrions à aligner l’IA de manière extrême, en détectant et empêchant la création d’informations fausses, le problème persisterait à une moindre échelle. Empêchera-t-on les smartphones – ou d’éventuelles lunettes connectées – d’améliorer le rendu de ce qui est capturé afin de correspondre à ce que souhaite l’utilisateur ? C’est déjà le cas aujourd’hui où les smartphones améliorent les photos grâce à des IA pour les rendre plus belles que vraies.

Voilà un nouvel enjeu de taille. Quoi qu’on fasse, l’IA nous pousse à nous extraire de la réalité, et finalement, de la vérité. On ne cherche plus à accueillir la réalité telle qu’elle est, mais à l’adapter à ce que nous voulons qu’elle soit.

Entre les mensonges réalistes que l’IA peut créer, et la tentation de contrôler le réel, l’IA pousse l’homme à se croire maître de la création. Elle nous éloigne de la vérité et de l’humilité.

4. Une surveillance de masse dystopique

Si les 3 précédents scénarios n’arrivent pas (ou même s’ils arrivent, peu importe… Soyons très positifs, supposons qu’ils n’arriveront pas), l’IA finira tôt ou tard par s’infiltrer dans nos vies privées.

La première raison, évidente et à laquelle nous avons tous déjà pensé, c’est qu’un régime totalitaire aurait tout intérêt à utiliser l’IA pour asseoir son pouvoir. Sa capacité à ingérer l’ensemble de nos comportements pour prédire nos désirs, nos pensées et nos actions en ferait l’outil de surveillance idéal. Elle serait par exemple capable de tuer une révolte dans l’œuf, ou de punir automatiquement.

Dans ce scénario, tout est imaginable. Même une démocratie pourrait régler l’IA pour qu’elle ne condamne pas tout. Comme dans 1984 où le télécran n’espionne pas en permanence, l’IA pourrait avoir un comportement aléatoire afin de « respecter nos droits ». Bref, se révolter contre un abus de pouvoir sera tout simplement impossible. Hitler et Staline seront (presque) regrettés.

Mais soyons vraiment positifs (puisque c’est le but de l’article) : supposons qu’une telle dictature n’arrivera pas. L’IA sera malgré tout appelée à s’introduire dans nos vies privées. C’est structurellement impossible qu’il en soit autrement.

Étant donné que chacun a une personnalité différente, une manière de voir les choses différente, l’IA est appelée à adapter son comportement en fonction de chacun afin d’améliorer la qualité de ses réponses.

C’est ainsi que fonctionne déjà Google depuis de nombreuses années : afin de rendre les résultats pertinents, il cible ceux-ci en fonction de l’utilisateur. Plus encore pour l’IA, les réponses seront d’autant plus qualitatives qu’elles seront bien visées et formulées selon le fonctionnement psychologique de l’utilisateur. C’est la raison pour laquelle ChatGPT utilise maintenant l’ensemble de vos données pour mieux formuler les réponses. C’est aussi la tendance suivie par Mistral en vous donnant la possibilité de connecter votre compte Google afin d’utiliser vos données personnelles pour mieux cibler les réponses.

Au-delà de la génération de données, si l’IA doit s’intégrer dans nos vies au quotidien pour gérer, par exemple, nos menus, elle devra surveiller un ensemble de données importantes (sommeil, emploi du temps, ingrédients disponibles, etc.) afin de les adapter aux circonstances.

En somme, quoi qu’on fasse, l’IA est appelée à s’intégrer dans chaque aspect de notre vie. C’est la raison pour laquelle « L’intimité assiégée » a été écrit. Ce livre démontre le caractère indispensable de l’intimité dans la vie de l’homme. Sans elle, pas de liberté ni de paix possibles… Et surtout, pas de vie spirituelle.

Quelques pistes

Soyons toujours positifs…

Y a-t-il des pistes concrètes pour éviter les scénarios décrits ci-dessus ?

Il est certain que certaines pistes doivent être explorées. En voici quelques-unes (loin d’être exhaustives) :

S’accorder pour ne jamais permettre à l’IA de se modifier elle-même en production.⁴
Ne jamais donner accès à un shell ou un ordinateur à l’IA. Cela évitera qu’elle puisse agir dans le monde réel (sens large).
Ne jamais embarquer de LLM dans les robots, surtout si ceux-ci sont libres de leurs mouvements, et encore plus s’ils sont connectés à Internet.
Ne jamais être intrusif dans la vie privée d’un individu (cf. L’intimité assiégée).
Créer un mécanisme physique d’épuisement de ressources pour limiter les capacités de l’IA. Plus une tâche serait lourde, plus l’IA devra l’étaler dans le temps pour ne pas épuiser son quota de ressources.

Ces pistes concrètes sont-elles réalistes ?

Malheureusement, pas tant que cela. Pas dans les circonstances actuelles.

L’IAG promet en effet un pouvoir inégalé dans l’histoire. Tous les dirigeants (politiques, entreprises, etc.) sont dans une course mondiale afin d’obtenir le Graal.

Pour cette raison, ils n’hésiteront pas à violer les règles afin de « rester dans la course ». Les États-Unis l’ont déjà prouvé début 2025, ainsi que la France lorsqu’elle a cherché à influencer l’AI Act pour promouvoir Mistral.

La difficulté réside ici dans la capacité de ces dirigeants à accepter des règles morales objectives supérieures. Or, dans un monde qui a rejeté le sens de la transcendance depuis plusieurs siècles, des solutions morales stables et définitives semblent inenvisageables.

Le mieux que nous puissions espérer, d’un point de vue politique, est la réalisation d’un accord international pour la régulation de l’IA.⁵ Un tel accord sera respecté, comme pour le nucléaire, par crainte des risques existentiels soulevés en cas de violation.

Pourquoi un accord sur l’IA sera-t-il particulièrement difficile à obtenir ?

Si l’accord est souhaitable, il est beaucoup plus compliqué à réaliser que pour l’arme nucléaire.

En voici deux raisons principales (au-delà de l’aspect politique) :

L’appréhension du danger n’est pas la même. Pour une arme, on comprend immédiatement et intuitivement le danger qu’elle représente. Pour l’IA, le danger est surtout indirect. L’IA n’a pas pour finalité de tuer en masse. Pourtant, elle en a indirectement la capacité.
L’IA cible le grand public. L’arme nucléaire n’a pas réellement d’utilité pour le commun des mortels. L’IA, au contraire, est conçue pour être accessible à tous. Elle semble donc être un outil anodin, alors qu’elle ne l’est pas.⁶

Une solution : l’Église

Pourquoi l’Église semble-t-elle l’une des seules solutions ?

Parce que la difficulté à trouver un accord sur l’IA réside dans les intérêts qu’ont les nations dans le développement de ces technologies. Il est évident que les pays concernés par un tel accord sont, en premier lieu, les États-Unis, la Chine, l’Angleterre, Israël, le Canada, la France et l’Inde. Ce sont les pays qui investissent le plus dans ce domaine.

Pour cette raison, il est difficile de demander un accord qui requiert une véritable confiance entre les différentes parties. C’est pourquoi un tiers de confiance est nécessaire.

L’Église catholique est privilégiée. En n’étant pas impliquée dans le développement des IA, elle reste une autorité très puissante, avec plus d’1,3 milliard de catholiques.

Elle est par ailleurs dépositaire d’une morale et de fondements philosophiques stables, transmis par la tradition depuis des millénaires. Cette stabilité en fait l’autorité de confiance par excellence pour favoriser un accord international sur l’IA.

Ce sont les mêmes raisons qui avaient permis à l’Église de jouer un rôle majeur dans les accords pour la régulation de l’armement nucléaire.

L’Église agit-elle déjà en faveur d’une régulation de l’IA ?

Oui, tout à fait. Elle le fait à travers Antiqua et Nova, première encyclique consacrée à ce sujet, puis à travers plusieurs prises de parole du pape François et du pape Léon XIV.

Voici les principaux éléments de la position de l’Église :

Condamnation explicite et catégorique des armes autonomes.
Condamnation des relations homme/IA.
Appel au développement d’outils pour comprendre les IA et les rendre sûres.
Prévention des abus : fabrication de mensonges, manipulation.
Protection de la dignité humaine et de la vie intérieure de l’homme.
Implicitement : accord pour assurer la place de l’homme face à l’IA.

À ce titre, les prises de position de l’Église sont hautement appréciables, et doivent être soutenues et relayées !

Elles sont d’autant plus appréciables que le nouveau pape Léon XIV démontre une vive conscience du sujet. Rappelons qu’il a choisi son nom « Léon XIV » pour faire face à la révolution de l’IA comme Léon XIII fit face à la révolution industrielle. Le cœur de son pontificat est donc clairement défini.

Que manque-t-il ?

Plusieurs points pourraient cependant être améliorés :

Le risque d’une vision un peu réductrice des enjeux de l’IA. L’Église pointe très bien de nombreux sujets essentiels, comme la défense de la justice, de la vérité, de la primauté de l’être humain et sa supériorité morale inaliénable. Cependant, il est difficile d’ignorer l’attachement des entreprises qui développent les IA avec le transhumanisme. Pourtant, ce courant philosophique n’est évoqué nulle part. De même, il serait essentiel d’insister sur les risques spirituels d’une créature « supérieure à l’homme ». Enfin, le sujet de la perte de contrôle total de l’IA est aussi très peu abordé.
On peut regretter une certaine approximation des enjeux. Notamment lorsque l’Église promeut une régulation de l’IA pour la protection de l’homme face aux intérêts financiers. Or, il s’agit avant tout d’enjeux de pouvoir et non économiques. Rappelons qu’OpenAI est une société à but non lucratif – très loin de la rentabilité. Rappelons également que la majorité des entreprises – dont Meta, Google, DeepSeek, Alibaba ou Mistral – publie leurs modèles en open source.
Un manque de propositions concrètes. Quelques pistes pour guider l’usage et marquer les limites concrètes de l’IA eussent été fortement appréciées et utiles. Cela eût permis de toucher le plus grand nombre de personnes : les utilisateurs.
Un certain éloignement entre le discours et la réalité technique des IA. Le domaine de l’IA est évoqué dans un tout, d’une façon très générale et assez floue par rapport aux réalités du terrain. Il n’y a par exemple pas de distinction entre IA à usage général ou IA à usage spécifique. Cette distance avec la technique rend le discours plus difficile auprès des professionnels de l’IA.
Enfin – mais cela ne relève pas du Saint-Siège – nous regrettons le manque de communication, de vulgarisation et de directives claires sur les dangers et les solutions éthiques et morales de l’IA – et plus largement, des outils numériques. Les propos et la vision tenue par Rome ces dernières semaines sur l’IA sont très pertinents. Il est très regrettable qu’ils soient si peu ou si mal retransmis dans la sphère catholique et au-delà, alors que nous devrions être en première ligne.

Conclusion

Les risques que pose l’intelligence artificielle sont réels. Lorsque les experts en sécurité de l’IA estiment à 10 % le risque d’une catastrophe à l’échelle de l’humanité dans les 30 prochaines années, c’est réaliste.

Que peut-on faire à notre échelle ?

S’informer : suivre l’actualité de l’IA afin d’anticiper les ruptures à venir.
Se former afin de se préparer aux ruptures qui approchent. En cela, les enseignements de l’Église doivent nous guider. Les nombreuses définitions qu’elle a établies en deux mille ans d’histoire vont être d’une utilité sans précédent.
Ne pas négliger l’importance de ce sujet.
Trouver et se fixer des règles morales quant à l’usage de l’IA.

L’avenir n’est pas écrit, il faut garder l’espérance !

Un monde beau, bienveillant, charitable, authentique, avec sa part de naïveté et de saine simplicité est possible… si on arrive à se maîtriser face à la tentation de l’IA.

Nous pouvons agir en plusieurs sens :

Faire entendre le besoin d’un accord pour la régulation de l’IA.

Faire entendre la voix de l’humilité, en commençant par la travailler en nous-mêmes. C’est le pas pour que l’humanité obtienne l’humilité de ne pas chercher le pouvoir promis par l’IA.

Prier le chapelet et Saint Michel Archange. Le chapelet, parce que c’est la demande explicite de la Très Sainte Vierge Marie. C’est l’arme la plus puissante contre les tentations spirituelles de ce monde. Elle est donc tout indiquée face à l’IA. Saint Michel Archange pour qu’il défende l’Église ici-bas.

Ce sont bien peu de choses pour préserver notre monde d’un désordre profond et grave. Le jour où l’IAG apparaîtra, ce désordre explosera et sera difficile à contenir. Il vaut mieux prévenir que guérir.

Sous cet angle, même si cela est dangereux dans les mains d’un régime totalitaire, un pare-feu national est une solution qui doit être envisagée afin de bloquer les flux Internet par pays et éviter que ne se répande une cyberattaque à l’échelle mondiale.↩︎

Notons ici que la diminution du coût de l’accès au savoir grâce à l’IA est doublée d’une diminution du coût de la manipulation biologique. En 2003, il fallut 2,7 milliards de dollars pour réaliser le premier séquençage complet de l’ADN humain. En 2021, il fallait 550 dollars. Le coût a été divisé par 5 millions en 20 ans !↩︎

Les fonctions aléatoires savent très bien le faire depuis de nombreuses années.↩︎

Aujourd’hui, les IA en production sont figées. Leurs paramètres et leurs poids ne varient pas. Tandis que pendant la phase d’entraînement, les variables changent. Ainsi, en production, les IA ne changent pas de comportement. C’est la raison pour laquelle, contrairement au premier robot, les IA n’adoptent plus de comportement nazi ou autre.↩︎

À ce titre, il faudrait dès à présent penser à un accord de même nature pour la régulation des manipulations biologiques.↩︎

Dans ces circonstances, il est important de reconsidérer la réelle utilité de mettre à disposition, en open source, les modèles d’IA. Ils pourraient être utilisés pour générer l’un des scénarios évoqués plus haut, typiquement par des groupes terroristes.↩︎