Vidéos IA vs vidéos humaines : quel impact réel sur l’apprentissage ?

Vous avez déjà croisé des vidéos générées par les IA ? Vous savez, avec des outils comme HeyGen, par exemple. On en voit beaucoup circuler sur la toile actuellement, sur les réseaux, ou ailleurs. Des vidéos pas forcément pour des visées pédagogiques d'ailleurs, mais je crains bien qu’on va voir ces médias de plus en plus présents dans nos parcours d’apprentissage. Après tout, c’est super : on choisit Jake ou Denise, on rentre un script dans la zone de texte prévue à cet effet, on clique sur générer et PAF, ça fait ~~des chocapics~~ une vidéo que j’envoie ni une ni deux sur mon LMS pour former mes apprenants ! Bon… Moi personnellement, je ne peux pas passer plus de 3 secondes devant ces vidéos. Le simple fait de capter qu’elles sont générées par IA me suffit à zapper et à aller voir ailleurs. Sûrement suis-je particulièrement sensible au phénomène de vallée de l’étrange (j’en parlerai dans un prochain post car ce phénomène est particulièrement intéressant).

Mais bon, admettons qu’on souhaite suivre un module de formation dans lequel on a ce type de vidéos. Admettons. Une question se pose : est-ce que, pédagogiquement parlant, ces vidéos générées par IA ont un impact sur l’apprentissage si on les compare à des vidéos pédagogiques traditionnelles ? Et plus précisément, ont-elles un impact sur l’expérience d’apprentissage d’une part (totalement subjectif, mais tout de même important pour maintenir la motivation intrinsèque de l’apprenant) et sur les résultats d’apprentissage (rétention des informations et compréhension des concepts principalement) d’autre part ? Et bien, c’est la question que s’est posée des chercheurs suisses dans ce papier :

1-s2.0-S0360131524001787-main (1) (2).pdf

Pour répondre à leur question, nos chercheurs suisses ont mis en place une expérience plutôt astucieuse : ils ont produit d’un côté des vidéos totalement réalisées par des humains (scénario, tournage, montage, etc.) et de l’autre, des vidéos conçues avec des outils d’IA générative (script rédigé par ChatGPT, avatars et voix créés par Movio/HeyGen, images générées via Midjourney et consorts). Deux exemples ci-dessous

Vidéo humaine

https://www.youtube.com/watch?v=5VEKrpPTieI

Vidéo générée par IA

https://www.youtube.com/watch?v=xE0bBV6OLaM

Ensuite, ils ont recruté un échantillon de près de 450 participants (via une plateforme de crowdworking aux USA) et leur ont fait visionner plusieurs de ces vidéos. Chaque participant était intégré à une cohorte. Dans la première, ces derniers devaient passer au travers d’une suite de vidéos selon l’ordre suivant :

vidéo humaine / vidéo générée par IA / vidéo humaine / vidéo générée par IA

Et dans la seconde cohorte, c’était l’inverse qui était réalisé, à savoir

vidéo générée par IA / vidéo humaine / vidéo générée par IA / vidéo humaine

A la fin de chaque vidéo, l’apprenant devait répondre à un questionnaire pour évaluer son “expérience d’apprentissage” (en gros, le ressenti, l’intérêt, le niveau d’engagement, etc.), et passait un mini-quizz pour mesurer ses “résultats d’apprentissage” (rétention de l’information, niveau de compréhension, etc.). L’idée, c’était vraiment de mettre en place un protocole expérimental où seuls les “vidéos IA vs vidéos humaines” variaient, afin de voir si cette différence de mode de production avait un impact significatif sur l’apprentissage.

Les résultats sont intéressants, et j’avoue que j’aurai pensé naïvement autrement : les apprenants ont, dans l’ensemble, une légère préférence pour les vidéos humaines en termes d’expérience. Ils trouvent, par exemple, que le rythme, la présence “plus naturelle” ou encore la clarté de l’explication leur parlent davantage quand il y a un “vrai” prof (ou un “vrai” formateur) face caméra. Mais l’écart est extrêmement faible ! On pourrait presque dire que les vidéos faites par IA font le job suffisamment bien pour ne pas trop rebuter les apprenants. Ce qui est encore plus marquant, c’est que sur les résultats concrets (leur score au quiz, en gros), il n’y a quasiment aucune différence statistiquement significative : les apprenants retiennent autant (ou presque) qu’ils regardent une vidéo humaine ou une vidéo générée. Donc, pas de miracle, mais pas de fiasco non plus : on apprend apparemment presque aussi bien avec un avatar digital parfaitement scénarisé qu’avec un formateur bien réel.

Alors concrètement, qu’est-ce qu’on en tire ? Déjà, même si les vidéos humaines restent légèrement plus convaincantes pour maintenir l’attention, l’IA n’est pas franchement à la traîne. Dans certaines disciplines plus “techniques” ou sur des contenus très structurés, l’écart pourrait même devenir de plus en plus minime. Et là, on touche peut-être un point-clé : pour l’expérience d’apprentissage, le facteur “humain” continue de compter (relation à la personne, empathie, gestes, spontanéité), mais pour la performance pure (la mémorisation, la compréhension), la “machine” semble capable de délivrer un contenu à peu près aussi efficace. Bien sûr, comme le soulignent les auteurs, il faut replacer ça dans un contexte précis : des vidéos courtes, portant sur des notions assez nettes (pas de concepts ultra-complexes ou de débats théoriques infinis). Il est possible que pour des cours plus nuancés, plus qualitatifs, où la relation pédagogique est plus cruciale, la touche humaine conserve encore un gros avantage. Cela dit, même dans ce type de scénarios, on voit mal l’IA perdre en efficacité pédagogique, surtout au rythme où elle évolue. Bref, le futur risque de nous réserver un sacré cocktail de classes virtuelles, d’avatars semi-humains et de formateurs qui devront composer avec ce nouvel écosystème pédagogique

Comme je vous vois venir petits français râleurs, voici tout de même six biais que je pense pertinents vis-à-vis de l’étude :

D’abord, l’étude ne s’intéresse ici qu’à des vidéos de courte durée (entre 2 min 29 et 3 min 23), ce qui laisse de côté tout un univers de formats plus longs et plus complexes.
Ensuite, on sait très bien qu’on n’apprend pas qu’avec des vidéos : un parcours pédagogique comporte normalement une pluralité d’activités (discussions, exercices pratiques, etc.) qu’il serait illusoire de reproduire via ces clips. Donc quid de la qualité de l’évaluation QCM proposée ici (même si les vidéos, et c’est écrit, ne visent que l’acquisition de connaissances)
Par ailleurs, la taille des cohortes (environ 450 personnes réparties en deux groupes) reste modeste et, combinée à la nationalité des testeurs – tous basés aux États-Unis –, la généralisation à d’autres contextes culturels doit être faite avec prudence.
On notera aussi que le domaine étudié, le management/production, ne reflète pas forcément la diversité des champs disciplinaires où l’IA pourrait intervenir : rien ne nous dit que ça fonctionnerait pareil en langues ou en sciences humaines, par exemple.