Publication
• Updated
19 December 2017
LNC2

Confirmation bias in human reinforcement learning: Evidence from counterfactual feedback processing

An international team of scientists from the Laboratoire de Neurosciences Cognitives (Ecole Normale Supérieure) and the Institute of Cognitive Neuroscience (University College London) led by Dr. Stefano Palminteri and Professor Sarah-Jayne Blakemore investigated to learn more about this phenomenon and understand its origin. 

Please note that this content is currently not available in English.

Revue PLoS Computational Biology

La façon dont les gens prennent des décisions paraît parfois être sous-optimale, voir même totalement irrationnelle. Une explication à ce comportement est que l’humain a tendance à préférer les informations qui confirment ses croyances a priori et à occulter celles qui rentrent en contradictions avec ces dernières. Un phénomène appelé biais de confirmation.

Dans deux expériences publiées récemment dans la revue PLoS Computational Biology (Août 2017), comptant chacune 20 participants, les sujets réalisaient une tâche d’apprentissage dans laquelle ils devaient choisir de manière répétée l’un des deux symboles qui leur étaient présentés et tenter d’obtenir le plus grand nombre de points possible. Les différents essais étaient soit regroupés dans une condition stable, auquel cas chaque symbole conservait tout au long de l'expérience la même probabilité de gagner 1 point, soit dans une condition instable, auquel cas ces probabilités étaient interverties entre les deux symboles à la moitié de l'expérience, rendant la tâche plus ardue pour les participants.

L’ensemble de ces essais a été répété avec le second groupe de sujets, mais avec une différence : non seulement il était indiqué aux sujets s’ils avaient gagné un point ou non mais aussi qu’ils auraient pu en gagner un s’ils avaient choisi l’autre symbole. En d’autres termes, les sujets avaient la possibilité d'observer à la fois le résultat de l’option qu'ils avaient sélectionnée ainsi que le résultat de l'autre option, ce dernier pouvant être soit le même que celui de l’option choisie, soit supérieur (les sujets pouvaient alors éprouver du regret de ne pas avoir choisi l'autre option), soit inférieur (les sujets pouvaient alors éprouver du soulagement pour avoir fait le bon choix).

Les résultats de la première expérience ont montré que les participants apprennent mieux lorsque leur choix est suivi d’un retour d’information. Et lorsqu’ils ont aussi connaissance de ce qu’ils auraient pu gagner en choisissant l’autre symbole, ils apprennent mieux lorsque cet autre symbole n’est au contraire pas récompensé plutôt que lorsqu’il l’est. Autrement dit, les gens apprennent mieux lorsque l’information qu’ils reçoivent confirme le choix qu’ils viennent d’effectuer par rapport au cas où elle le contredit. Enfin, en cas d’inversion des probabilités, ce biais d’apprentissage freine la capacité des sujets à s’adapter au changement à tel point que le nombre total de points gagnés par les sujets les plus biaisés en était affecté.

En conclusion, les gens préfèrent prendre en compte les informations qui confirment leur choix plutôt que celles qui sont en contradiction avec leur choix. Et plus important encore, cela reste vrai même lorsque ce biais d’apprentissage a des conséquences immédiates négatives, indiquant le profond ancrage de ce dernier. Les chercheurs pensent que leurs résultats peuvent expliquer pourquoi les gens conservent de fausses croyances ou encore persistent dans des comportements à risque en termes de santé, en dépit d’informations évidentes et contradictoires. D’un autre côté, ce biais pourrait aussi permettre de maintenir la motivation et l’estime de soi chez certaines personnes. Selon eux, mieux connaitre les biais dans notre apprentissage pourrait nous permettre d’apprendre de manière plus efficace et d’être plus vigilant quant à notre propension naturelle à tirer des conclusions hâtives.  

To Know more:

Confirmation bias in human reinforcement learning: Evidence from counterfactual feedback processing 

Contacts:

Stefano Palminteri
Chercheur INSERM
stefano.palminteri@ens.fr

Clementine Eyraud
Chargée de dissémination scientifique
Département d’études cognitives
Clementine.fourrier-eyraud@ens.fr