Certains biais cognitifs, tels que les biais d’optimisme et de confirmation, contamineraient nos mécanismes mentaux les plus simples. Une étude inédite ouvre la voie à de nouvelles pistes de recherche qui permettraient d’affiner notre compréhension des biais et processus cognitifs liés à l’apprentissage, et notamment celui dit « par renforcement ».
Lorsque nous mettons en œuvre des processus cognitifs complexes, par exemple lors de la prise de décisions, nous sommes soumis à des biais cognitifs. Mais qu’en est-il de processus plus simples comme ceux impliqués dans les apprentissages les plus élémentaires ? Dans une nouvelle étude analysant les données issues de l’ensemble des travaux existants sur le sujet, des chercheurs de l’Inserm et de l’ENS-PSL montrent que non seulement les biais d’optimisme et de confirmation sont présents même dans les processus cognitifs les plus simples, chez l’humain et chez l’animal, mais aussi que leur intégration dans des algorithmes d’apprentissage renforceraient leurs performances. Ces travaux, à paraître dans Trends in Cognitive Sciences suggèrent que ces biais pourraient être initialement un avantage évolutif très ancien.
Comment les biais cognitifs influencent nos croyances et nos décisions
Les biais cognitifs, tels que les biais d’optimisme et de confirmation, sont connus pour influencer nos croyances et nos décisions. Jusqu’à récemment, on supposait qu’ils étaient spécifiques aux processus cognitifs dits de « haut niveau », c’est-à-dire qui sont mis en œuvre lorsque que l’on raisonne sur des propositions complexes et incertaines. Par exemple, il est bien connu que les gens surestiment les probabilités des événements désirables (la France gagne la coupe du monde) et sous-estiment celles des événements indésirables (un mariage se termine en divorce).
Dans une étude publiée dans la revue scientifique Trends in Cognitive Sciences, Stefano Palminteri, chercheur Inserm au Laboratoire de neurosciences cognitives et computationnelles de l’ENS-PSL et de l’Inserm (1), et Maël Lebreton, chercheur à l’Ecole d’Economie de Paris (2), remettent en cause cette conception de l’implication des biais d’optimisme et de confirmation.
Les chercheurs se sont appuyés sur l’ensemble des données existantes dans la littérature scientifique sur l’apprentissage dit « par renforcement ». Il s’agit d’un processus cognitif élémentaire d’apprentissage par récompenses et punitions, que l’humain partage avec de nombreux animaux. Il ressort de cette revue de littérature que des tests très simples d’apprentissage par renforcement, permettent de mettre en évidence des signatures comportementales propres aux biais d’optimisme et de confirmation chez les personnes qui y sont soumises. Ces biais apparaissent comme beaucoup plus répandus qu’estimé jusqu’à aujourd’hui, et sont présents même dans les processus cognitifs les plus simples comme celui d’apprendre à prendre une bonne décision par essaie et erreur (récompense et punition).
De plus, ces biais ne semblent pas exclusifs à l’être humain : les signatures comportementales apparaissent également dans des tests similaires chez l’animal. Cela suggère que ces biais auraient émergé dans l’évolution chez un ancêtre commun, bien avant l’apparition d’Homo sapiens, ce qui soulève la question de savoir pourquoi l’évolution a sélectionné et maintenu ce qui peut être perçu, à première vue, comme des processus pouvant générer des comportements apparemment irrationnels.
Vers des algorithmes d’apprentissage encore plus performants
Stefano Palminteri et Maël Lebreton pensent avoir identifié une partie de la réponse à cette question à travers les résultats d’études basées sur des simulations informatiques. Ces études ont comparé les performances d’algorithmes d’apprentissage par renforcement, certains algorithmes intégrant des biais d’optimisme et de confirmation et d’autres n’en intégrant pas. Ces simulations montrent que la présence d’un biais de confirmation dans l’algorithme lui permet en fait un apprentissage plus efficace dans une large gamme de situations. Ces biais pourraient donc, en réalité, favoriser la survie, ce qui expliquerait pourquoi ils n’ont pas été corrigés au cours de l’évolution.
Rappelons qu’en intelligence artificielle, l’apprentissage par renforcement consiste, pour un agent autonome (robot, etc.), à apprendre les actions à prendre à partir d’expériences, de façon à optimiser une récompense quantitative au cours du temps. L’agent est plongé au sein d’un environnement, et prend ses décisions en fonction de son état courant. En retour, l’environnement procure à l’agent une récompense, qui peut être positive ou négative. L’agent cherche, au travers d’expériences itérées, un comportement décisionnel optimal, en ce sens qu’il maximise la somme des récompenses au cours du temps.
L’article ouvre la voie à de nouvelles pistes de recherche qui permettraient d’affiner notre compréhension des biais et processus cognitifs liés à l’apprentissage par renforcement. Les chercheurs proposent notamment d’explorer le rôle de ces biais dans l’apparition et le maintien d’états pathologiques, tels que l’addiction ou la dépression. Sur un autre registre, ces résultats suggèrent que l’ajout de ces biais dans des algorithmes d’intelligence artificielle pourrait, paradoxalement, améliorer leurs performances.
(1) Laboratoire de Neurosciences Cognitives et Computationnelles, Institut National de la Santé et Recherche Médicale, Paris, France /Département d’études cognitives, Ecole Normale Supérieure, Paris, France /Université de Recherche Paris Sciences et Lettres.
(2) Paris School of Economics, Paris, France /LabNIC, Department of Fundamental Neurosciences, University of Geneva, Geneva, Swiss / Swiss Center for Affective Science, Geneva, Swiss.
Pour aller plus loin :
- « Biais cognitifs : la fabrique des histoires » – France Culture, 2019