On n'est pas prêts

On n’est pas prêts

Quatre courbes qui, mises bout à bout, dessinent un futur du software radicalement différent. Et on continue à coder comme si de rien n’était.

Une objection que je lis encore sur LinkedIn, et que j’entends régulièrement dans mes workshops : “Il ne s’est rien passé de très intéressant cette année, Chat GPT 5 était une déception, le domaine stagne, l’impact sur le monde réel reste marginal, le vibe coding est une mode, mais les gens vont vite se rendre compte qu’ils créent du code non maintenable, etc.”. Bref, pas de quoi s’affoler.

Je pense que c’est une erreur de jugement liée à la nature exponentielle du phénomène. Certains anticipent la tendance, d’autres observent le terrain sans voir la vague qui arrive.

Alors aujourd’hui, je propose de détailler quatre courbes qui, prises isolément, semblent anodines — mais qui, combinées, changent tout.

Les agents apprennent à tenir la distance

METR, une organisation de recherche spécialisée dans l’évaluation des systèmes IA, mesure depuis 2019 la durée des tâches que les agents peuvent accomplir. Leur métrique est simple : on mesure combien de temps une tâche prendrait à un humain expert, puis on regarde si l’agent réussit à la compléter.

Le résultat ? L’horizon temporel des agents double tous les sept mois environ sur la période 2019-2025. Et ça s’accélère : leurs analyses récentes montrent un doublement tous les quatre mois en 2024-2025. En décembre dernier, Claude Opus 4.5 a atteint un horizon de près de 5 heures à 50% de fiabilité. Le record absolu. Il y a six ans, on en était à quelques secondes.

Si cette tendance se maintient encore deux à trois ans, on aura des agents capables de mener des projets de plusieurs semaines de manière autonome. Des projets complets, pas juste des bouts de code.

L’horizon temporel des agents IA double tous les 7 mois

Le coût s’effondre

Epoch AI a analysé l’évolution des prix d’inférence des LLMs sur les dernières années. À performance constante, les coûts chutent d’un facteur 50 par an en médiane. Pour certains benchmarks spécifiques, on atteint même des baisses de 900x par an.

Concrètement : ce qui coûtait 100€ à faire tourner il y a un an coûte aujourd’hui 2€. Dans un an, ce sera quelques centimes. Cette chute des prix est portée par des modèles plus compacts, du hardware plus efficace, et des optimisations d’inférence qui s’empilent.

Le coût d’inférence chute d’un facteur 50 par an

L’intelligence continue sa progression — et accélère

Epoch AI vient également de publier une analyse qui confirme ce que beaucoup pressentaient : le progrès des capacités IA a accéléré de 90% depuis avril 2024. Leur indice composite (ECI) progressait d’environ 8 points par an avant cette date. Depuis, on est à 15 points par an. Presque le double.

Concrètement ? Sur SWE-bench Verified, le benchmark qui mesure la capacité à résoudre de vrais bugs GitHub, Claude Opus 4.5 atteint désormais 80.9%. Premier modèle à franchir les 80%. Il y a deux ans, on stagnait autour de 20%.

On n’est pas encore à l’AGI, loin de là. Mais la pente est raide. Et elle s’accentue.

Le progrès des capacités IA a accéléré de 90% depuis avril 2024

L’intelligence se miniaturise

Andrej Karpathy l’a bien résumé sur X : la course est lancée pour extraire le “cognitive core” des LLMs, ce noyau cognitif de quelques milliards de paramètres qui sacrifie la connaissance encyclopédique au profit de la capacité de raisonnement. Un modèle qui ne sait pas que le règne de Guillaume le Conquérant s’est terminé le 9 septembre 1087, mais qui sait chercher la date si on lui demande.

C’est peut-être la tendance la plus sous-estimée. Des chercheurs ont réussi à faire tourner LLaMA3-8B sur des FPGA embarqués. On parle d’une puce qui coûte quelques centaines d’euros et consomme une poignée de watts.

Le projet Hummingbird démontre qu’on peut atteindre 8.6 tokens par seconde sur ce type de hardware, avec 42% d’économie d’énergie par rapport aux solutions précédentes. Ce n’est pas du cloud, c’est du edge. De l’intelligence locale, sur des puces grand public.

Quand on met tout ensemble

Prenons ces quatre courbes et projetons-les sur les prochaines années.

Un agent dix fois plus intelligent, dix fois plus endurant, dix fois moins cher, et qui tourne en local sur une puce de votre machine. Ce qui prend une heure aujourd’hui prendra cinq minutes demain. Ce qui coûte 10€ coûtera quelques centimes. Ce qui nécessite le cloud tournera sur votre laptop.

C’est quoi le software dans ce monde-là ?

Une vitesse d’itération de fou. Le cycle écrire-tester-déployer qui prend aujourd’hui des jours pourrait se compresser en heures, voire en minutes. Les bugs détectés le matin sont corrigés avant le lunch. Les features demandées le lundi sont en production le mardi.

Du software on-demand. Pourquoi maintenir un produit générique quand on peut générer exactement ce dont l’utilisateur a besoin au moment où il en a besoin ? Des interfaces qui se construisent en temps réel, des workflows qui s’adaptent à chaque contexte. La notion même de “produit fini” devient floue.

Du software qui s’optimise tout seul. Combinez la vitesse d’itération et la génération on-demand, et vous obtenez quelque chose de nouveau : des systèmes qui évoluent en permanence pour maximiser leurs objectifs. Imaginez un funnel SaaS en mode reinforcement learning. L’agent génère une variante de landing page, mesure les conversions, ajuste, régénère, re-mesure. Pas une fois par semaine avec un A/B test manuel. En continu, 24/7, avec des milliers de variations testées en parallèle. Le produit n’est plus développé, il est cultivé. Le rôle du développeur passe de “celui qui code” à “celui qui définit la fonction de récompense”. Et ça, c’est un changement de paradigme autrement plus profond qu’un simple gain de productivité.

De l’intelligence embarquée partout. Quand le raisonnement niveau frontier tourne sur une puce à 200€, chaque objet connecté peut devenir intelligent. Pas une intelligence de façade qui fait des requêtes API, une vraie capacité de raisonnement locale, sans latence, sans dépendance réseau.

On n’est pas prêts

Ce qui m’interpelle, c’est qu’on continue à construire des produits et des organisations comme si ces tendances n’existaient pas. On crée des squads de 10 personnes pour des projets qu’un agent accomplira seul dans un an. On écrit des roadmaps à cinq ans dans un monde qui change tous les six mois. En résumé, on pense l’IA comme un outil à intégrer et non comme une force qui va tout changer.

Je n’ai pas de réponse toute faite. Mais j’ai l’intuition qu’on sous-estime massivement la vitesse à laquelle tout ça va nous tomber dessus.

On n’est pas prêts. Et peut-être que reconnaître ça, c’est déjà un premier pas.