Chat-GPT est un réseau qui, en intégrant leurs structures grammaticales et syntaxiques, établit et intègre systémiquement par concaténation des liens entre des mots et des groupes de mots qui sont identifiés à partir d’une base de données. L’organisation en réseau dits « neuronaux » de l’algorithme du système rend possible l’identification de la probabilité de ces mots ou groupes de mots particuliers comme étant constitutifs d’une réponse cohérente et intégrée au contexte d’une « question » particulière. En ce sens, cette fonction n’est qu’une intelligence de décodage statistique des « concepts » porté »s par ces groupes de mots, et donc une collecte de « connaissances » existantes et juste « interprétative » de leur liens par rapport au contexte de la question explorée. Un tel système n’est donc pas (encore) une intelligence extrapolatrice et » créative » du produit de ces intégrations systémiques. Par analogie, une application de type Chat-GPT produit à ce stade ce que l’on nomme en milieu académique des mémoires décrivant des acquis, et non des thèses transcendant les limites de ces acquis.
Un point important est que le caractère statistique du processus rend difficile, voire impossible, d’identifier, via cet algorithme statistique, des références précises relatives aux éléments de réponses qu’il génère et sélectionne. Et notamment d’identifier précisément des données qui pourraient par ailleurs être considérées inadéquates, dépassées, voire biaisées, notamment sur le plan scientifique ou sur le plan éthique : de la platitude de la planète Terre au considérations racistes, pour ne prendre que ces deux exemples. Données que seul un « jugement transcendant » des éléments sélectionnés statistiquement permet de moduler.
Une forme de prise en compte de tels biais possibles existe dans Chat-GPT : elle consiste en deux types d’interventions structurelles dans la constitution et la pondération algorithmique d’intégration des liens identifiés et sélectionnés par le système comme éléments de « réponse » à la question qui lui est soumise. Ce sont des processus particuliers d’apprentissage de l’algorithme qui vont permettre cette supervision et cette orientation sélective des « liens » entre les groupes de mots identifiés et issus de l’exploration statistiquement systémique de la base de données.
Ces interventions structurelles qui vont moduler le processus « neuronal » d’apprentissage algorithmique sont en fait générées par deux types d’interventions humaines décrites notamment par le professeur Antonin Descampe du Pôle de recherche en communication de l’Université de Louvain [1]. Elles consistent en :
- des processus d’« apprentissage supervisé » appliqué à certains types de collectes de données. Ces interventions renforcent la sélection de certaines réponses sur un sujet qui sont jugées à priori plus « pertinentes » parmi les données identifiées. A cette fin, des « petites mains » sont chargées de rédiger des couples de requêtes et de réponses considérées comme idéales. Ces couples vont alors nourrir l’algorithme et son processus général de sélection et de cadrage de réponses ;
- des processus d’ « apprentissage par renforcement » des réponses par évaluation et pondération (« ranking ») d’une série de différentes réponses proposées par le système à une question, ceci en classant ce qui est considéré par des analystes humains comme leur degré de pertinence.
Ces couches d’apprentissage vont donc influencer l’utilisation de certains éléments qui, dans le produit algorithmique initial d’éléments de réponse à la requête, seraient considérés à priori comme inappropriés.
Cet « algorithme instruit » va ainsi indirectement filtrer et renforcer une « interprétation » considérée globalement comme » plus acceptable ». C’est sur cette base que l’algorithme de Chat-GPT a été adapté, notamment pour être en mesure de détecter et éliminer des contenus qui seraient considérés comme « non éthiques » mais il se pourrait alors que ces « phases d’apprentissage » ne soient elles-mêmes source de biais …
La dimension « intelligente », au sens propre du terme, du système algorithmique Chat-GPT est donc essentiellement toujours bien de nature humaine et de niveau « mémoire » plutôt que de niveau « thèse ».
Jacques de Gerlache, Éco-toxicologue, professeur à l’institut Paul-Lambin à Bruxelles. Conseiller scientifique auprès du Conseil fédéral belge du développement durable. Manager du site multilingue www.greenfacts.org
[1] Chat-GPT, une révolution ? Emission Déclic- Le Tournant https://auvio.rtbf.be/media/podcast-3008334