Pensez-vous prendre toutes vos décisions de manière rationnelle ? Imaginez par exemple que vous avez le choix entre différents fruits. Vous avez probablement un ordre préétabli de vos préférences et vous allez faire votre choix en fonction de cet ordre. Si vous préférez l’ananas à la banane, et la banane à la cerise, il y a de grandes chances pour que vous préfériez l’ananas à la cerise. Mais en est-il de même pour vos choix économiques ? Votre expérience peut-elle influencer vos décisions lorsqu’il s’agit d’argent ? Stefano Palminteri - chercheur au Laboratoire de Neurosciences Cognitives et Computationnelles - et son équipe Humain Reinforcement Learning se sont intéressés à ces questions. Ces travaux de recherche ont été publiés le 2 avril 2021 dans la revue Science Advances.
Les chercheurs ont développé un protocole expérimental dans lequel près de mille participants devaient choisir à plusieurs reprises des symboles abstraits associés, de manière implicite, à différents gains monétaires. Pour apprendre la valeur associée à chaque symbole, ceux-ci étaient disposés en paires fixes, constituant plusieurs contextes d’apprentissage.
Dans un premier contexte, l’un des symboles rapportait en moyenne 7,5 points alors que l'autre rapportait en moyenne 2,5 points. Dans un second contexte, les valeurs monétaires associées aux symboles étaient dix fois plus petite, soit 0.75 points et 0.25 points. Les points accumulés au cours de l’expérience ont ensuite été convertis en argent réel, de façon à ce que les participants apprennent, par essai-erreur, à choisir le symbole associé au plus gros gain. A la fin de la phase d’apprentissage, les participants ont développé une préférence tout à fait rationnelle pour le symbole rapportant le plus d’argent.
Dans une deuxième phase de l’expérience, l'équipe de chercheurs ont demandé aux mêmes participants de choisir entre le symbole rapportant 2.5 points et celui rapportant 0.75 points. Contrairement aux prédictions du modèle standard du choix rationnel, les participants ont montré, en moyenne, une préférence marquée pour le symbole valant 0.75 points, alors qu’il est environ 3 fois moins avantageux. En outre, les auteurs ont montré que cette préférence irrationnelle est d’autant plus marquée que la phase d’apprentissage était facile. Cette expérience a mis en évidence un résultat contre-intuitif : mieux on apprend dans chaque contexte, plus on se trompe lorsque l’on doit généraliser.
Pour expliquer ces décisions irrationnelles, les auteurs ont proposé un modèle mathématique d’apprentissage qui normalise les valeurs économiques en fonction du contexte dans lequel elles sont apprises. Ainsi, lorsque nous établissons notre ordre de préférence, cela va dépendre des autres options que nous avons à disposition. En d’autres termes, les valeurs économiques des symboles sont apprises de façon relative au contexte où elles se trouvent. C’est pourquoi le symbole rapportant 2.5 points, qui était comparé à un symbole rapportant 7.5 points, est perçu comme moins désirable qu’un symbole qui rapporte 3 fois moins mais qui était précédemment perçu comme le plus avantageux dans son contexte. En fait, un symbole devient perçu comme plutôt « gagnant » ou plutôt « perdant » selon le contexte dans lequel il a été rencontré, indépendamment de sa valeur réelle.
Alors quel est l’avantage d’apprendre à faire les choix les plus avantageux si cela nous mène à faire des erreurs lorsque les décisions sont prises hors contexte ? Afin de tenter de répondre à cette question, les auteurs insistent sur le fait que le cerveau cherche à être le plus performant possible dans la tâche qui lui est demandée. Ainsi, faire le raccourci vers « gagnant » ou « perdant » nous permet ponctuellement d’augmenter notre performance et de prendre de meilleures décisions, plus rapidement. Sachant que le cerveau ne sait pas quelle sera la prochaine tâche, le gain induit par ce processus compense l’arrivée éventuelle d’une généralisation. Est-ce que ce processus est également responsable des décisions irrationnelles dans des situations de la vie quotidienne ? Est-ce que les processus psychologiques mis en évidence par cette étude peuvent être utiles pour la recherche en intelligence artificielle ? Ce sont les questions auxquelles Stefano Palminteri et son équipe tentent désormais de répondre.
Référence : Sophie Bavard, Aldo Rustichini, Stefano Palminteri (2021). Two sides of the same coin: Beneficial and detrimental consequences of range adaptation in human reinforcement learning. Sciences Advances, 7, 14, eabe0340, 10.1126/sciadv.abe0340.