Cet article est une traduction automatique de l’article original publié sur le blog Transcode.
Les LLM sont-ils des perroquets stochastiques ou y a-t-il quelque chose de plus profond ? Dans ce nouveau post, nous plongeons dans la nature des Large Language Models et ce que cela signifie pour les cas d’usage au-delà de la conversation et du texte génératif.
La plupart d’entre nous ont découvert cette nouvelle vague d’IA à travers ChatGPT et des conversations de type humain avec une machine. Il n’est donc pas surprenant que nous anthropomorphisions la technologie, associions LLM au concept de langage et de connaissance, et attendions que les futures itérations soient “plus savantes”.
Ce faisant, nous les regardons de manière limitée et passons à côté de leur vraie nature ; nous limitant ainsi dans notre capacité à envisager des usages futurs en dehors de l’espace conversationnel ou génératif traditionnel.
Les capacités de raisonnement des LLMs
La vraie merveille des LLM n’est pas leur connaissance mais leur capacité de raisonnement. En analysant les entrées et en exploitant leur représentation interne, ils peuvent tirer des inférences et générer des réponses qui simulent un raisonnement et une planification de type humain.
Sebastian Bubeck et al, dans l’article “Sparks of AGI”, montrent à travers une myriade d’exemples que GPT4 est plus qu' un générateur de texte. L’auteur écrit : “Étant donné l’étendue et la profondeur des capacités de GPT-4, nous pensons qu’il pourrait raisonnablement être considéré comme une version précoce (mais encore incomplète) d’un système d' intelligence artificielle générale (AGI)”.
Ces capacités émergent de la combinaison de leur nature prédictive et d’une représentation interne dans laquelle le modèle peut ancrer son raisonnement : “la seule façon pour le modèle de faire une telle planification à l’avance est de s’appuyer sur ses représentations et paramètres internes pour résoudre des problèmes qui pourraient nécessiter des procédures plus complexes ou itératives”.
Un exemple illustratif d’ancrage est le suivant dans lequel quelqu’un se déplace dans une maison avec une tasse contenant une bague. D’une certaine manière, le LLM en sait suffisamment sur la gravité et la nature d’une tasse pour raisonner sur la bonne réponse. Je trouve cela fascinant.

Utiliser un LLM comme une brique Lego intelligente
La connaissance du LLM doit juste être suffisante pour fournir un “modèle du monde cohérent” afin que le LLM puisse avoir une vérité de base lorsqu’il raisonne sur une question. Nous n’avons pas besoin que le LLM connaisse les paroles de toutes les chansons, ou les détails de la biographie de tout le monde, etc… Tant qu’il peut exprimer le besoin de ' chercher en ligne’ et les consulter sur Wikipedia.
Regardons cette question “simple” : “Écrivez une courte bio pour le mari de la sœur de la personne qui a présenté les Oscars en 2013.” - Personne ne s’attendrait à ce qu’un LLM “connaisse” la réponse. Tout ce dont nous avons besoin, c’est que le LLM soit capable de raisonner et de préparer un plan pour répondre à la question.

C’est exactement l’idée derrière les workflows agentiques qui consistent à utiliser plusieurs LLMs comme “briques lego intelligentes” dans une architecture plus complexe. Cette brique intelligente n’est là que pour fournir une capacité de raisonnement, le reste étant géré par du code traditionnel (ex : faire une requête web, envoyer un email, etc.).

OpenGPA implémente un workflow agentique, utilisant diverses fonctionnalités comme le raisonnement, la réaction ( observer une pensée) et l’utilisation d’outils. Il n’a donc aucun problème à répondre à la question piège. En utilisant plusieurs étapes itératives impliquant la recherche web et la navigation web.

Le futur, ce sont les petits modèles de raisonnement
Je crois que le futur apporte les capacités de raisonnement des Large Language Models dans des Small Reasoning Models. Nous n’avons pas besoin de la partie connaissance des modèles tant que nous gardons le raisonnement. Ce que cela signifie, c’est que nous pouvons avoir des modèles beaucoup plus petits avec le minimum de connaissances possible, tant qu’il y en a assez pour soutenir les capacités de raisonnement ancrées dans la vérité de base.
Dans une interview récente sur No Priors, Andrej Karpathy déclare quelque chose de similaire : “les modèles actuels gaspillent des tonnes de capacité à se souvenir de choses qui n’ont pas d’importance […] et je pense que nous devons arriver au noyau cognitif, qui peut être extrêmement petit”.
Il suggère même que les modèles pourraient être compressés à leur noyau de ‘pensée’ avec moins d’un milliard de paramètres, sans perdre aucune de leurs capacités de raisonnement. Le défi est de nettoyer/préparer correctement les données d’entraînement pour garder les choses importantes pour apprendre un modèle du monde et jeter tout le déchet qui “remplit la mémoire” du modèle.
Si nous y arrivons, cela signifierait qu’un raisonnement de niveau frontier devient possible comme capacité edge. Ajoutez à cela la découverte récente du portage de petits modèles sur FPGA, et vous obtenez de la poussière intelligente. Pour de vrai cette fois.
Note de conclusion
Ce post ne serait pas complet sans souligner qu’il y a encore un débat en cours sur la nature de la représentation interne de ces modèles.
Il ne fait aucun doute que les capacités de ces modèles impliquent qu’ils ont une représentation interne qui va au-delà de la distribution de probabilité du prochain token. La question reste cependant sur la nature exacte de cette représentation et, plus important, si elle constitue un tout cohérent.