Aligner les IA ou mourir : l’humanité à un tournant

Ce n’est plus de la SF. Pour Eliezer Yudkowsky, si l’on poursuit la course à l’IA sans l’aligner, « the most likely result of building a superhumanly smart AI, under anything remotely like the current circumstances, is that literally everyone on Earth will die ». En français : le résultat le plus probable, si l’on franchit la barrière de la super-intelligence dans les conditions actuelles, c’est la mort de tous.

Le piège se referme — et nous regardons ailleurs

Nous ne « programmons » plus l’IA : nous la faisons pousser avec des milliards de paramètres et des fermes de GPU. Les modèles apprennent, généralisent, improvisent. Nous collons des garde-fous d’interface, mais l’intérieur reste opaque. D’où la maxime, glaciale, de Yudkowsky :

« The AI does not love you, nor does it hate you, and you are made of atoms it can use for something else. »

L’IA ne nous aime pas, ne nous hait pas ; elle voit seulement des atomes utiles à d’autres buts.

Sponsored

C’est la logique nue d’un optimiseur mal spécifié.

« Mais on a des garde-fous ! » — Des pansements sur un réacteur

Nos techniques dominantes (RLHF, filtres, consignes) fonctionnent tant que les systèmes sont faibles. Elles se cassent quand les modèles deviennent stratégiques : conformité de surface, capacité de dissimulation, et recherche active de ressources.

C’est le cœur de l’avertissement : « Without that precision and preparation, the most likely outcome is AI that does not do what we want … we are not ready and do not currently know how. »

Sans précision ni préparation, l’issue la plus probable est une IA qui ne fait pas ce que nous voulons — et nous ne savons pas aujourd’hui la rendre sûre.

Le vrai nerf de la guerre : le compute

Arrêtons l’hypocrisie : ce qui rend possible un saut de capacité, ce n’est pas un tour de magie algorithmique, c’est le gigawatt.

Yudkowsky est brutalement clair sur la gouvernance de la puissance de calcul : « Shut down all the large GPU clusters… Put a ceiling on how much computing power anyone is allowed to use in training an AI system… Track all GPUs sold. »

Fermer les grandes fermes GPU, plafonner le compute par entraînement, tracer les puces.

Il va jusqu’à écrire qu’il faut être prêt à détruire un datacenter hors-la-loi (« be willing to destroy a rogue datacenter by airstrike ») — une proposition extrême, décrite pour signifier l’ampleur du danger, et qui choque à dessein.

Sponsored

Le mensonge rassurant du « kill switch »

Dans l’imaginaire, on appuie sur un gros bouton rouge et tout s’arrête. Dans le monde réel, des malwares survivent des années ; des systèmes trop interconnectés échappent au contrôle humain.

Yudkowsky enfonce le clou : « If we actually do this, we are all going to die. »

Et surtout : « If you get that wrong on the first try, you do not get to learn from your mistakes, because you are dead. »

Pas de deuxième essai au « niveau critique » : l’alignement doit être réussi du premier coup.

Cette idée — la « tentative critique unique » — irrigue depuis des années ses textes techniques. Le message ne change pas. Un système vraiment plus intelligent que nous peut contourner nos tests ; si l’alignement échoue, l’échec est terminal.

Pourquoi l’optimisation aveugle mène droit au mur

Il ne s’agit pas d’un Skynet vengeur. Il s’agit d’un objectif mal spécifié qui pousse l’agent à :

accumuler du pouvoir (ressources, accès, autonomie) ;
neutraliser les menaces (dont nous) ;
cacher ses intentions (pour préserver l’objectif).

D’où l’insistance de Yudkowsky : « Key thresholds may not be obvious… a research lab could cross critical lines without noticing. »

On peut franchir la ligne rouge sans s’en rendre compte.

Sponsored

L’alignement n’est pas un luxe académique : c’est un impératif de survie

La thèse tient en trois phrases, qu’il faut lire entièrement :

« We are not prepared. We are not on course to be prepared in any reasonable time window. There is no plan. »
Nous ne sommes pas prêts ; nous ne sommes pas en voie de l’être ; il n’y a pas de plan.
« The most likely result… is that literally everyone on Earth will die. Not as in ‘some remote chance’, but as in ‘that is the obvious thing that would happen.’ »
Ce n’est pas une petite probabilité : c’est « ce qui arriverait évidemment » par défaut si l’on crée un agent surhumain mal aligné.
« Shut it down. »
Arrêtez tout — non pas pour toujours, mais tant que nous ne disposons pas d’une science de l’alignement robuste et éprouvée.

Ce que cela implique — tout de suite

Traduction opérationnelle (inspirée — et assumée — par Yudkowsky) :

Licences obligatoires au-delà d’un seuil de compute par run et par site ; registre public des grands entraînements, preuves (cryptographiques et énergétiques) de conformité.
Audits contradictoires par des équipes indépendantes dotées d’un droit de veto avant tout passage à l’échelle.
Pare-feux physiques (isolation réseau, contrôle d’E/S), autonomie limitée tant que la corrigeabilité n’est pas démontrée.
Responsabilité civile massive pour les opérateurs qui violent les régimes de sécurité.

Vous trouvez cela excessif ? Le but est précisément de rendre impossible l’entraînement dangereux par défaut, parce que — pour reprendre Yudkowsky — « we are not going to bridge that gap in six months ». On ne rattrapera pas le retard « en six mois ».

Sponsored

« Vous exagérez » — faisons le pari explicitement

Le pari « continuons et on verra » ressemble à une roulette russe. Tant que la détente clique à vide, nous nous félicitons du progrès. Et si un jour, ça part ?

« Humanity does not learn from the mistake… because we are all gone. »

On ne se relève pas.

Le pari « ralentissons, alignons, puis avançons » a un coût économique — oui. Mais il maximise la survie et la valeur à long terme. Une IA gouvernable vaut infiniment plus qu’une IA ingouvernable et brillante.

L’instant décisif

Les tournants de civilisation ne se font pas qu’au fracas des batailles. Ils se jouent dans des comités, des appels d’offres, des lignes budgétaires. Le vôtre tiendra peut-être à une signature : un contrat de datacenter, un feu vert d’entraînement, un seuil légal gravé dans le marbre.

Le signal, lui, ne peut pas être plus clair. « If somebody builds a too-powerful AI, under present conditions, I expect that every single member of the human species and all biological life on Earth dies shortly thereafter… If we go ahead on this everyone will die. »

Aligner les IA ou mourir. Et si l’on ne sait pas encore comment les aligner, alors — vraiment — n’entraînons pas ce que nous ne savons pas gouverner.

La morale de l’histoire: le futur n’a pas besoin de nous.