L'intelligence artificielle peut-elle vraiment "penser" ? La question brûle toutes les lèvres alors que les IA génératives s'immiscent partout. Et si la réponse venait de tomber ? Le mois dernier, une étude sur arXiv a fait l'effet d'une bombe : GPT-4.5, un géant du langage, aurait réussi le mythique test de Turing, bluffant des juges humains 73% du temps grâce à un simple jeu de rôle ! Coup de tonnerre... ou mirage ? Car ce test iconique, imaginé par Alan Turing il y a 75 ans, est sous le feu des critiques : récompense-t-il la véritable intelligence ou juste une brillante imitation ? Face à ses limites flagrantes – mesurer l'illusion plutôt que la compréhension ou l'adaptabilité –, est-il encore pertinent ?
Cet article plonge au cœur du débat. Nous disséquerons cette prétendue réussite de GPT-4.5 et les failles du test de Turing, avant d'explorer deux alternatives fascinantes : le test de Lovelace 2.0, qui traque la créativité authentique, et ARC-AGI, qui évalue la capacité cruciale d'apprendre et de généraliser face à l'inconnu. L'enjeu : distinguer enfin les prémices d'une intelligence générale des échos sophistiqués de perroquets numériques.
Parlons maintenant du fameux test de Turing. Vous en avez forcément entendu parler, c'est LE test iconique quand on cause IA. Il nous vient du génial Alan Turing, mathématicien et informaticien britannique, qui l'a balancé dans un article fondateur en 1950, "Computing Machinery and Intelligence". Plutôt que de se prendre la tête à définir ce que c'est que "penser" (bon courage !), Turing a eu une idée plus pragmatique : créons un jeu, le "jeu de l'imitation", pour voir si une machine peut nous bluffer au point qu'on ne puisse plus la distinguer d'un humain dans une conversation. Malin, non ?
Alors, comment ça marche concrètement, ce jeu ? C'est assez simple sur le papier. Imaginez trois joueurs :
Le truc important : le juge est isolé et ne communique avec les deux autres que par écrit (clavier/écran). Pas question de se faire avoir par une voix robotique par exemple… Sa mission ? Poser des questions pour démasquer la machine. Pendant ce temps, les deux témoins (le vrai humain et l'IA) doivent chacun faire de leur mieux pour convaincre le juge qu'ils sont le véritable humain de l'histoire.
Source : France Culture
Et quand est-ce que la machine est déclarée gagnante ? Eh bien, si après un certain temps (Turing suggérait environ cinq petites minutes), notre pauvre juge n'arrive pas à faire la différence de manière fiable, ou s'il se plante une fois sur deux en désignant la machine... bingo ! L'IA a réussi son coup. D'ailleurs, ce petit visionnaire de Turing avait même prédit qu'aux alentours de l'an 2000, des machines avec seulement 128 Mo de mémoire (une antiquité aujourd'hui !) pourraient berner 30% des juges après ces fameuses cinq minutes d'interrogatoire…
Au fond, ce que le test de Turing évalue, c'est la capacité d'une machine à faire semblant, à imiter une conversation humaine de façon suffisamment convaincante pour nous tromper. C'est un test basé sur le comportement : si ça parle comme un humain, si ça raisonne (en apparence) comme un humain, peut-on vraiment lui refuser une forme d'intelligence ? Pour passer l'épreuve avec succès (surtout si le juge est un peu futé), la machine doit quand même montrer qu'elle maîtrise le langage naturel, qu'elle sait raisonner un minimum, qu'elle a une base de connaissances, et idéalement, qu'elle peut apprendre un peu pendant l'échange. Elle doit aussi montrer, intelligemment si je puis dire, des erreurs, comme le font les vrais humains !
Bien sûr, depuis que Turing a sorti son idée, le débat fait rage : est-ce que ce test est suffisant pour parler d'intelligence ? Est-ce qu'il est même nécessaire ? Est-ce qu'on mesure vraiment une forme d'intelligence ou juste une simulation hyper bien ficelée ? Soyons clairs : le test ne prétend pas évaluer la conscience (le fait de ressentir des choses), la compréhension profonde ou les émotions réelles. Sa grande force, c'est son côté pragmatique : vu qu'on n'arrive pas à se mettre d'accord sur ce qu'est l'intelligence de manière mesurable, au moins, on a un test concret. Par contre, son gros point faible, c'est qu'il dépend beaucoup de l'humeur, de la culture ou de la perspicacité du juge humain. Un test réussi avec un juge peut être un échec avec un autre... Pas hyper objectif tout ça !
Alors, cette histoire de GPT-4.5 qui passe le test de Turing, c'est du sérieux ou du pipeau ? Eh bien, accrochez-vous, car des chercheurs de l'UC San Diego, Cameron R. Jones et Benjamin K. Bergen, ont justement publié une étude très récente là-dessus (une pré-publication datée du 31 mars 2025, donc toute fraîche disponible ici :
Leur objectif ? Mettre les grands modèles de langage (LLM) d'aujourd'hui sur le gril pour voir s'ils pouvaient vraiment réussir le test de Turing à l'ancienne, celui expliqué précédemment.
Comment ils ont procédé ?
Les cobayes IA : ils ont testé du beau monde : le vénérable ELIZA (un chatbot des années 60, pour la comparaison historique), GPT-4o, LLaMa-3.1-405B, et bien sûr, GPT-4.5.
