Les agents IA et la norme MCP

Agent IA par ci, agent IA par là.. Si vous trainez un peu sur Medium, LinkedIn ou encore Reddit, et que le sujet des LLM et de l’IA vous intéresse, vous avez forcément croisé dernièrement des articles sur ces fameux agents. Mais c’est quoi exactement ? Quelle différence par rapport à nos outils IAG du quotidien, comme ChatGPT et ses petits copains ? Tâchons dans cet article de décortiquer tout ça, et parlons aussi d’une norme de standardisation qui fait beaucoup parler d’elle en ce moment.

Alors au début, moi, Quand je lisais “Agent IA”, je lisais “truc informatique qu’on a paramétré tout seul pour réaliser des actions pendant qu’on profite des ponts de mai”. Il y a un peu de ça, certes, mais pas que… Pour comprendre réellement ce que sont ces agents, comparons les à des choses qu’on connait mieux : c'est quoi, au juste, la différence entre un simple LLM (comme le ChatGPT de base qui prédit le mot suivant en réponse à un prompt), une automatisation (avec Zapier, Make ou n8n, ces outils qui permettent de créer des boucles d’automatisation simple), et ces fameux "agents IA" qui sont censés révolutionner notre travail ?

Niveau 1 - le LLM

C'est le niveau de base, le LLM dans sa forme la plus pure. Pensez au premier ChatGPT que vous avez testé. En formation je prends parfois cet exemple pour expliquer ce qu’est un LLM : imaginez un stagiaire hyper brillant (appelons le Eliott, au hasard…) capable de rédiger des textes incroyables sur n'importe quel sujet... mais enfermé dans une pièce sans téléphone ni ordinateur connecté à l'extérieur. Il peut disserter sur Platon, coder en Python, ou apprendre le violon, mais demandez-lui de vous réserver une salle de réunion, d’écrire dans un fichier Excel ou d’envoyer un email, et il vous regardera avec des yeux vides. C'est un cerveau puissant, mais isolé.

Un LLM fonctionne en autarcie. Il a été entraîné sur des quantités astronomiques de textes et de données (il vous faut 50000 ans pour lire l’ensemble des textes qui ont servi à entrainer GPT3.5), ce qui lui permet d'être pas trop mauvais pour prédire le prochain mot dans une phrase. Il peut générer du texte, résumer des documents qu'on lui donne, répondre à des questions factuelles, traduire, et même écrire du code. Bref, c’est un super auto-complete qui vous apportera, quoi qu’il arrive et peu importe votre demande, une réponse. Parfois débile ou complètement à côté de la plaque, mais c’est un autre problème...

Excellent pour manipuler le langage, synthétiser, créer du contenu textuel, le LLM seul est incapable de faire quoi que ce soit de significatif dans le monde extérieur. Il est déconnecté des actions concrètes.

En formation, on peut déjà bien s’amuser avec un LLM. Expliquer la théorie de la taxonomie de Bloom, générer des QCMs sur un sujet, proposer des activités de pédagogie active, ou encore challenger ses déroulés pédagogiques au regard d’un set de règles, les possibilités sont larges, même si ce niveau présente des limites…

Niveau 2 - le LLM + outils externes

Vous vous souvenez d’Eliott ? Au niveau 1, Eliott a rapidement présenté des limites. Alors outillons le pour passer à l’étape suivante. Donnons à Eliott la possibilité d’interagir avec des outils externes et de suivre une sorte de checklist d’actions à réaliser. Par exemple :

Règle 1 - "Si tu reçois un email précis **contenant le mot 'urgent', alors copie le nom de l'expéditeur dans cette colonne du Google Sheet 'Urgences',
Règle 2 - “Si tu reçois un email précis **contenant le mot 'urgent', envoie un message Whatsapp à Maurice".

Ça, c'est l'automatisation classique (pensez Zapier, Make, n8n, ou même les premiers "plugins" ChatGPT). Avec 2 règles ici, mais on aurait pu en mettre beaucoup plus ! Le LLM suit donc des règles, et peut utiliser des outils. Il suit des rails très stricts, une séquence prédéfinie par un humain (règle 1 → règle 2 → …). Pas de place pour l'impro ou la décision. C'est là où se situe la majorité des applications IA intelligentes et des automatisations que l'on voit aujourd'hui. On a compris que le LLM seul était limité, alors on lui a donné une caisse à outils et une checklist. Alors ça marche comment ?

Concrètement, on connecte le LLM à des outils et services externes via des APIs (Application Programming Interfaces). Le LLM peut analyser une demande, et si on lui a bien programmé la séquence, il peut utiliser un outil spécifique, appeler l'API de cet outil, récupérer le résultat, et l'intégrer dans sa réponse ou son action.

Si vous souhaitez en savoir plus sur les APIs

Vous en utilisez déjà sans le savoir en réalité. Prenons l’exemple de la fonctionnalité RECHERCHE dans ChatGPT. Quand vous activez cette fonctionnalité lors d’une requête, ChatGPT va consulter internet pour vous apporter des réponses sourcées. Vous avez en réalité utilisé un outil (recherche web) qui est lui-même connecté au LLM de ChatGPT via une API. Transparent pour vous, utilisateur, mais c’est ce qui se passe en arrière plan.

C’est à peu près la même chose quand vous créez une automatisation avec des outils comme Make, mais c’est vous qui paramétrez ces fameuses API. Imaginons que vous créiez une automatisation qui a pour objectif de générer un post de présentation d’un podcast, avec un visuel, à partir de ce fameux podcast. Dans ce cas vous allez d’abord utiliser un outil de transcription, comme Gladia, qui transforme votre podcast en texte. Une fois réalisée, direction le LLM pour traiter ce texte et vous en faire un post LinkedIn par exemple. Et enfin, on appelle l'API d'une banque d'images pour trouver des visuels. Ça marche ! Mais pour l’avoir fait, je peux vous dire que c’est pas si simple… Il faut générer des clés API (qui permettront aux différents outils de communiquer entre eux), paramétrer toutes les informations à faire passer d’outil à outil, et vérifier régulièrement que ça fonctionne encore et que rien n’est cassé.