Les « Big data » (1), c’est un thème qui n’est plus tout à fait nouveau et doit interroger tout le monde, les chercheurs au premier chef ! Il autorise beaucoup de points de vue qu’il est fécond de multiplier et de rapprocher. Voici un exercice d’introduction qu’il est indispensable de recommencer régulièrement de façon à mieux jauger au fil du temps l’importance respective des problématiques qu’il charrie.
Préambule sur les caractéristiques importantes des Big Data (BD)
De grandes quantités de données – les Big Data, donc – sans qualité apparente, structurées ou non, mais numériquement analysées avec des outils adaptés, charrient des informations indiquant des tendances quand un échantillon, donc de petites quantités de données souvent qualitativement chargées et plus cohérentes, débouche, après analyse, sur des informations où domine la logique de précision et d’exactitude. Or aujourd’hui, la majorité des acteurs, les plus puissants d’entre eux au moins, assoient davantage leurs intérêts autour de la tendance. Pourquoi ? Parce qu’elle autorise plus souvent une meilleure mobilisation de moyens adaptés à une fin que le passage obligé par la précision et l’exactitude à laquelle nous étions techniquement contraints jusque-là. La recherche de la tendance constituerait désormais un méta-objectif implicite parce que son pouvoir de prédictibilité serait supérieur. Deux mondes différents se juxtaposent : celui ouvrant sur la tendance, lequel deviendrait dominant, celui fondé sur l’exactitude, lequel deviendrait récessif.
D’autres caractéristiques des BD apparaîtront au long de mon propos. J’ai choisi, néanmoins, d’insister dans ce préambule (qui constitue de fait une « introduction à l’introduction ») sur les premiers enseignements suivants :
– De grandes quantités de données, organisées en catégories non homogènes de multiples échantillons aléatoires et de niveau granulométrique différent, ont donc le pouvoir, grâce aux nouvelles méthodes de traitement numérique, de mieux prévoir « ce qui pourrait advenir » que des petits échantillons de données à catégories homogènes.
– On résume souvent les propriétés originales des BD par la formule des 3 V : volume, variété, vélocité. A l’appui de cette assertion, on invoque le fait que l’accroissement du nombre de données est plus important en termes de « résultat » escompté que l’accroissement de la rapidité des machines et de leurs puces et plus important même que l’accroissement des performances des algorithmes. Ne perdons pas de vue que ce qu’on appelle « résultat » se rapporte avant tout au référentiel suivant : la rapidité d’obtention d’informations pour un coût minimum !
– On remarquera que, par construction, les BD ne considèrent que ce qui est enregistré et ce qui fut enregistré (2).
1. Les nouveaux outils des BD sont issus de la révolution numérique
Les machines, puis les réseaux, puis les logiciels : voilà les trois premiers temps du développement de l’ère numérique depuis 50 ans. Le 4ème temps, aujourd’hui donc, serait celui des données.
La puissance de nos outils cognitifs et techniques a beaucoup augmenté. Et elle ne va pas faiblir, bien au contraire ! En effet, aux abaques, aux chiffres arabes, à la comptabilité en partie double, à la notion de « moyenne » (chez Quetelet et Gauss), moments majeurs de cette progression, puis, à l’époque contemporaine, aux outils analogiques, s’est ajouté un outil de performance : la numérisation, lato sensu ; en particulier :
– des satellites en batterie qui autorisent la mise en données par géolocalisation (GPS) (3)
– des logiciels de reconnaissance optique de caractères qui autorisent le traitement par ordinateur et l’analyse à l’aide d’algorithmes (vous savez, ces processus de calcul qui, une fois formalisés, se passent de toute instruction humaine et sociale !) ; de la sorte, la mise en données offre la possibilité d’indexer lettres, mots, phrases, paragraphes à partir de l’image numérique d’une page.
Car le grand projet qui se profile avec la numérisation, c’est bien « la mise en données de tout phénomène », ce qui revient à quantifier les informations dont on dispose. Dit autrement : sera(it) écartée une représentation du monde comme suite d’événements à interpréter en tant que phénomènes naturels ou sociaux et émergera(it) une représentation du monde pour l’essentiel composée d’informations transformées en données quantifiées. Elle devrait donc modifier notre façon d’appréhender « la réalité », modification qu’il n’est toutefois pas aisé de qualifier. Ce que l’on peut dire, c’est que la commensurabilité, que permet la quantification, semble désormais ne plus avoir de limite de pénétration : elle concerne les individus, les groupes, le réseau, la masse, les organisations désormais considérés comme unités d’analyse commensurables ; mais également les interactions (relations, expériences, états d’âme,…) ; çà mesure, çà se mesure, parce que çà quantifie, çà se quantifie, voie royale du calcul. Le champ de cette ambition où il s’agit toujours de recueillir, puis d’enregistrer des informations (4), de les stocker, de les rendre disponibles, de les traiter, de les utiliser, puis de les retraiter, une ou plusieurs fois,… est considérablement élargi. Ambition, je me répète un peu, qui alimente de manière originale la dynamique quantophrénique qui a pris son essor… voilà 4 siècles !