Les données sécurisées au cœur de la datascience : usages et perspectives

Données détaillées de l’Insee, données fiscales, données du ministère de la justice, de l’éducation… et données de santé : comment la sécurisation accrue de l’accès à ces données, toujours plus riches, plus précises, plus qualitatives, élargit le domaine des possibles de la datascience, de la recherche, de l’innovation et de l’évaluation…

En avril dernier, le centre d’accès sécurisé aux données (CASD) a organisé une conférence dédiée aux enjeux de l’accès sécurisé aux données pour la recherche scientifique et la data science, soulevant de nombreuses interrogations sur l’utilisation de données personnelles, confidentielles ou sensibles notamment avec l’émergence des technologies « big data ».

Mille chercheurs et datascientists utilisent actuellement la plateforme du CASD pour travailler sur des données sécurisées.

Le CASD est un équipement permettant aux chercheurs de travailler à distance, de manière hautement sécurisée, sur des données individuelles très détaillées. Ces données sont confidentielles car elles sont le plus souvent couvertes par un secret : secret professionnel, secret des affaires, secret statistique, secret fiscal, secret médical, etc. Les données présentes sur le CASD sont donc toutes d’une grande précision, identifiantes ou indirectement identifiantes, et contiennent une grande richesse d’information. La mise à disposition de ces données ne peut se faire que dans des conditions de sécurité très élevée garantissant leur confidentialité ainsi que leur traçabilité.

Aujourd’hui, plus de 120 sources de données sont disponibles sur le CASD pour près de 350 projets, soit près de 1000 utilisateurs en France et en Europe. Bien qu’il soit très difficile d’être exhaustif, il a été possible de recenser plus d’une centaine de publications dans des revues scientifiques s’appuyant sur des travaux réalisés sur le CASD.

En avril, pour la première fois, des utilisateurs ont partagé leur expérience d’utilisation du dispositif CASD mais aussi des résultats qu’ils ont obtenus grâce à l’accès aux données. C’est aussi la première fois que des propriétaires de données ont évoqué leurs démarches de mise à disposition de leurs données pour le monde de la recherche et de la data science. Des éclairages sur ces questions et les nouvelles perspectives à explorer pour les années à venir.

Sécuriser les données, une condition nécessaire pour leurs utilisations

Au cœur de l’actualité, la sécurisation des données soulève de nombreuses questions quant à la difficulté technique d’anonymiser les données et aux enjeux juridiques liés à l’accès aux données à caractère personnel.

Notre siècle marque une véritable rupture par rapport au siècle précédent : au XXème siècle, la valeur était créée par les ressources naturelles et reposaient sur la rareté. Désormais, nos ressources sont les données, qui sont au contraire abondantes et réutilisables, d’où l’enjeu de leur accessibilité, leur diffusion et leur circulation. On voit bien que les géants de l’internet ont tous fait de la collecte et du croisement des données le cœur de leur business model. Cependant, aucun secteur économique n’y échappe, de l’agriculture à l’automobile en passant par la banque… C’est également un enjeu pour les administrations pour mieux atteindre des objectifs de politique publique. A partir de là, une autre nécessité se fait jour : un décloisonnement entre les mondes politique, économique et celui de la recherche, dont les besoins sont interdépendants. En économie, on parle d’ « open innovation ».

Les dispositions du projet de loi sur la République numérique devraient permettre l’appariement de ces données administratives sensibles qui constituent un véritable trésor national. Le mouvement avait déjà été amorcé avec l’ouverture des données fiscales en 2013 puis l’accès facilité aux données de santé dans le cadre de la loi de santé. Il subsiste néanmoins des obstacles assez forts : ainsi le traitement des données contenant le NIR exige un passage devant le Conseil d’Etat, ce qui est loin d’être une promenade de santé ! Il faut convaincre sur le fond comme sur la forme de l’opportunité d’autoriser cet accès.

Pour donner un exemple, on parle beaucoup de l’échec de la formation professionnelle, tout en brandissant des chiffres variables selon les analyses. Seul un appariement des données du marché du travail avec la base des élèves de l’Education Nationale permettrait une véritable évaluation de l’impact de la réforme du bac pro, d’autant que l’on dispose de fichiers administratifs de grande qualité technique. C’est pourquoi il devrait être rendu possible un appariement basé sur le NIR, sous condition d’une autorisation de la CNIL et d’un hachage du NIR. Cette décision sera le fruit de longues discussions avec le Conseil d’Etat et l’Agence nationale de la sécurité des Systèmes d’information. Il s’agit bien d’un enjeu politique qui doit être porté au débat public.

Un certain nombre de députés ont exprimé des craintes relatives à la manipulation de certaines données sensibles à des fins douteuses. Pour les apaiser, il est essentiel d’apporter le plus de garanties possibles, sur le plan de la protection des données personnelles et de la sécurisation par la technologie. Mais la mise en place de solutions technologiques doit aussi se conjuguer avec une mise à disposition des données de la manière la plus simple et la plus rapide possible. Il s’agit ainsi de construire un mécanisme d’autorisation unique pour raccourcir les délais et ce, de sorte que les premiers projets de recherche soient approuvés dès début 2017.

De nouveaux horizons de recherche

Or ce défi est en train d’être gagné grâce à la mobilisation de l’Insee et du GENES.

Ces dispositions s’inscrivent dans un cadre plus large d’ouverture des données, décliné à trois niveaux. Tout d’abord, il y a la mini-révolution de l’open data par défaut : dorénavant les administrations nationales, comme les collectivités locales ou encore les SPIC collectant les données devront mettre en œuvre une publication systématique des données produites. S’y ajoutent des mesures d’open data sectorielles. Tout d’abord, l’accès au registre SIRENE de l’Insee sera gratuit à compter du 1er janvier 2017. On voit bien que si il y avait eu une base SIRENE des entreprises enregistrées au Panama en particulier, peut-être que les scandales qui sont révélés aujourd’hui auraient été connus et peut-être que certains comportements auraient été prévenus.

Egalement, au niveau sectoriel, la base de demandes de valeur foncière de la DGFIP – correspondant aux prix de vente des logements – sera ouverte, ainsi que la publication des données agrégées de consommation individuelle des compteurs intelligents Linky déployés par ERDF. Ce projet de loi introduit aussi une nouvelle catégorie de données : les données d’intérêt général, que la France est le premier pays à inscrire dans le droit. Elles auront un caractère mixte, des données émanant d’entreprises privées pouvant être mobilisées au service de l’intérêt général.

Il existe bien sûr des obstacles potentiels évidents à lever par rapport à la propriété de ces données. Mais le développement du partage de celles-ci entre les entreprises, en particulier de secteurs distincts, devrait leur ouvrir des perspectives économiques et commerciales, comme elle en ouvrira pour le grand public. Un exemple, les collectivités locales qui signent des concessions de service public auront tout intérêt à pouvoir accéder aux données récoltées pendant l’exécution du contrat, notamment dans le cadre d’un renouvellement.

En ce qui concerne l’accès sécurisé aux données confidentielles indirectement nominatives très sensibles, sur la santé, les revenus, la famille… ce sont des biens à strictement protéger évidemment. En ce sens, le CASD a permis des progrès certains, avec une technologie assez unique. Mais les chercheurs demandent en outre un accès facilité à d’autres catégories de données, celles de Pôle Emploi, de la CNAF… avec des enjeux scientifiques et sociaux considérables à la clé.

Dans cette optique, l’Etat travaille sur une disposition juridique avec l’espoir de pouvoir intégrer un amendement au projet de loi d’ici son passage devant le Sénat mi-mai.

Dernier point sur un principe de l’open gouvemement, il se trouve que la France va prendre à l’automne la présidence d’un organisme international de « soft law », l’OGP (Partenariat pour un gouvernement ouvert). L’objectif de la France est d’instaurer une dynamique constructive dans notre pays auprès des administrations pour les encourager à adopter des méthodes d’ouverture et de co-construction, d’intégrer des start-up d’Etat et d’aller toujours plus loin en matière de transparence des politiques publiques.

La loi pour la transparence de la vie publique a été adoptée en ce sens tandis que Michel Sapin va faire passer une loi pour protéger les lanceurs d’alertes, contenant également de nombreuses dispositions relatives à la transparence.

En conclusion, sans verser dans la naïveté ou l’angélisme, il paraît essentiel de tirer le meilleur parti possible des technologies numériques pour orienter les travaux des chercheurs et par conséquent les politiques publiques. Face aux reproches d’irrationalité et d’imprévisibilité qui sont si souvent faits aux décisions politiques, objectiver les débats est un enjeu majeur, y compris pour obliger les hommes et les femmes politiques à assumer pleinement leurs responsabilités en la matière.

Comment concilier richesse de l’information et protection des données sensibles ?

Selon Sophie Vulliet-Tavernier, Directeur des relations avec les publics et la recherche à la CNIL (Commission Nationale de l’Informatique et des Libertés), la problématique de la conciliation entre l’accès aux données à des fins de recherche et la protection des données suscite encore beaucoup de malentendus et d’idées fausses.

Pour clarifier cette problématique, il faut évoquer précisément trois points.

Le premier, c’est la frontière entre données personnelles, anonymat et pseudonymat, le deuxième porte sur la question de la démarche d’analyse « informatique et libertés » que devrait avoir tout chercheur, et le troisième est relatif à la prise en compte des besoins et spécificités de la recherche, à la fois dans la régulation actuelle et la régulation à venir.

En effet, nous avons, en France, la Loi Informatiques et Libertés (LIL), au niveau européen une directive mais qui est en fin de vie puisqu’un nouveau règlement européen a été adopté et devrait entrer en application dans les deux ans à venir.

Certes, aujourd’hui, il est reproché à la Cnil un certain délai dans le traitement des demandes des chercheurs. Aussi, pour avancer ensemble, il faut encourager vivement ces derniers à venir à la CNIL pour expliquer leurs projets et lever ainsi les incompréhensions.

En ce qui concerne l’usage des données, revenons à quelques définitions. Tout d’abord, les données à caractère personnel recouvrent toute information relative à une personne physique identifiée ou identifiable, directement ou indirectement. En ce qui concerne l’identification indirecte elle passe aussi bien par l’apparence physique, l’identité culturelle, sociale, génétique… ou encore technique, via les adresse IP par exemple. La directive européenne actuelle considère que pour déterminer si une personne est identifiable, il convient de considérer l’ensemble des moyens susceptibles d’être raisonnablement mis en œuvre pour identifier ladite personne, tandis que la LIL prend plus largement en compte l’ensemble des moyens en vue de permettre l’identification auxquels peut avoir accès ou dont dispose le responsable du traitement ou toute autre personne. Quant au concept de pseudonymisation, qui renvoie aux données indirectes et aux identifiants à caractère personnel, il a suscité un vif débat autour du projet de règlement européen, certains lobbies, notamment, souhaitant que les données pseudonymes ne soient pas considérées comme des données à caractère personnel. Finalement, le règlement définit le pseudonymat comme le traitement de données à caractère personnel de sorte qu’elles ne puissent plus être attribuées à une personne concernée précise sans avoir recours à des informations supplémentaires. Quant à l’anonymat, il est lié au retrait de tous les éléments permettant d’identifier une personne et à l’impossibilité de les ré-identifier. La doctrine de la Cnil en la matière s’est élaborée de manière progressive, en lien avec les évolutions législatives et technologiques.

L’une de ses premières approches a vu le jour dans le domaine de la santé et de la recherche médicale, avec la problématique du VIH dans les années 85-90. La prise de conscience qu’il fallait réussir à conjuguer l’essor des recherches et la protection de l’anonymat a conduit à développer des techniques de pseudonymisation. Par la suite, une polémique a éclaté autour du PMSI, lorsqu’on s’est rendu compte que l’anonymisation de cette base de données hospitalières n’était pas si effective. Après encore d’autres évolutions au fil de l’eau, l’avis du G29 du 10 avril 2014 a relancé le débat en définissant trois critères permettant d’aboutir à l’anonymat total : l’individualisation, la corrélation et l’inférence.

Actuellement, par rapport au développement de l’open data et du big data, la CNIL travaille à l’élaboration de conseils pratiques pour vulgariser ces techniques, exemples à la clé, en concertation notamment avec des équipes de recherche qui travaillent sur ces sujets.

En ce qui concerne la démarche d’analyse « Informatique et Libertés » que devrait avoir tout chercheur amené à utiliser des données personnelles, elle consiste tout simplement à prendre appui sur les principes de protection des données (finalité, pertinence, sécurité, conservation, droits des personnes) pour se poser les « bonnes questions », par exemple, à réfléchir, au regard des objectifs de recherche que l’on poursuit et de la méthodologie que l’on entend suivre , à ce dont on a réellement besoin : de données réelles ou fictives ? De données directement identifiantes ou pseudonymes ? Peut-on arriver à travailler sur des données anonymes ?

Mais il faut battre en brèche l’idée que la CNIL ne prônerait que des recherches anonymes : tout dépend du protocole… Au-delà, il y a un aspect important, celui de la pertinence des données par rapport à la finalité, ce que le projet de règlement traduit par le terme de minimisation. Or ce domaine de la recherche et des statistiques présente à cet égard des spécificités car on est par définition dans le cadre d’hypothèses à tester, d’où la nécessité parfois d’avoir à recueillir a priori un grand nombre de données sans que l’on sache véritablement si celles-ci seront pertinentes. Donc ilo faut insister pour que les chercheurs n’hésitent pas à venir argumenter leurs projets auprès de la CNIL, surtout s’il s’agit de données sensibles (santé, ethniques, sexuelles…)… A ce propos, il faudrait revenir sur cette question de savoir si l’on peut mener des études sur la mesure de la diversité et pour progresser vers l’égalité des chances. La CNIL a émis des recommandations sur ce sujet en 2006 et a coproduit avec le Défenseur des Droits un guide pratique pour les chercheurs et les entreprises expliquant comment mener ce type d’enquête. Donc, contrairement aux idées reçues, il y a des possibilités de le faire en France. Pour finir, on entend dire souvent que la recherche est le parent pauvre de la régulation dans le domaine de la protection des données. Or aussi bien dans la loi que dans le projet de règlement, il y a une exception pour la recherche qui est reconnue. Elle touche à la réutilisation, à des fins de recherche, des données déjà collectées à d’autres fins, à la possibilité de traiter des données sensibles, de bénéficier de dérogations en matière d’information, d’exercice des droits des personnes, de durée de conservation… et ce, moyennant des garanties techniques, légales, organisationnelles…

Du côté de la loi, un assouplissement des formalités pour l’utilisation du NIR se dessine, mais au-delà, il faudra d’autres évolutions législatives. Quel contrôle par exemple pour ce qui est hors recherche en santé et recherche statistique, notamment les aux sciences sociales : aujourd’hui, il y a nécessité, par exemple, de fixer clairement les conditions dans lesquelles les données soi-disant « publiques » issues du web social peuvent être utilisées à des fins de recherche. Au-delà, à l’égal de ce qui existe dans le domaine de la recherche médicale, faut-il ou non instaurer dans le champ des sciences humaines et des recherches sur le numérique, à côté de la CNIL, des comités d’éthique qui puissent conseiller les chercheurs ?

Comment être compétitif par rapport aux délais actuels de réponse de la CNIL qui semble être en surcharge concernant l’instruction des dossiers… C’est pourquoi avec le projet de loi pour une République numérique on s’oriente vers la mise au point de procédures déclaratives simplifiées. Avec le règlement européen, les formalités déclaratives vont très largement disparaître au profit de référentiels, de codes de conduite, d’études d’impact vie privée, en bref d’une plus grande responsabilisation des entreprises et administrations…

… Enfin, dans ce débat un peu technique, n’oublions pas les personnes dont les données sont utilisées, aujourd’hui encore trop peu associées et notamment trop peu informées des résultats des recherches entreprises avec l’aide de leurs données. Là aussi la transparence s’impose.

« Computational privacy » ou comment le comportement humain limite les possibilités d’anonymisation

Comment le comportement humain peut limiter la portée de ce que l’on met en place pour protéger la vie privée, particulièrement dans le domaine des big data ?

Selon Yves-Alexandre de Montjoye, chercheur en mathématiques appliquées au MIT Media Lab et à Harvard, l’utilisation des données sensibles à des fins de recherche soulève plusieurs défis, dont le premier porte sur l’unicité et les limites de l’anonymisation. Une des grandes données de la big data, c’est la géolocalisation, très souvent utilisée de manière « anonyme ». Historiquement, en effet, on a réussi à trouver un équilibre entre la protection de la vie privée et l’utilisation des données en les anonymisant.

Pour anonymiser des données, on retire tout d’abord les identifiants directs comme le nom, numéro de téléphone, de carte de crédit, ou l’adresse, etc des bases de données. On va ensuite empêcher les ré-identifications indirectes, par exemple si nous n’avons dans l’échantillon qu’une seule femme de 92 ans, en ajoutant du bruit, en généralisant, par exemple en utilisant une tranche d’âge (plus de 80 ans) plutôt qu’une date de naissance (le 12 juin 1924). Ces démarches permettent d’obtenir des données « anonymes », une notion qui distingue légalement les données personnelles et les données « non personnelles ».

Cependant, différents travaux ont montré que des données qu’on pensait anonymes étaient en fait ré-identifiables. On peut citer par exemple les données de recherche du moteur AOL, notamment en raison de la propension des gens à tendance à se chercher eux-mêmes, et à faire des recherches relativement locales. Même constat avec la base de données partagée par Netflix, dans la mesure où quand on regarde un film, on a tendance à le noter, à laisser des critiques sur plusieurs sites spécialisés après…

Dès lors, la question est de savoir si ses ré-identifications sont dues à une anonymisation qui n’a pas été correctement effectuée (comme l’affirment les sociétés spécialisées dans l’anonymization), ou si des éléments plus fondamentaux liés aux big data empêchent de trouver cet équilibre entre la protection de la vie privée et l’utilisation des données en les anonymisant.

On peut, par la métrique, quantifier le risque moyen de ré-identification dès lors qu’on est en possession d’un certain nombre d’informations, équivalant à des « points », sur les personnes. Dans ce cadre, l’unicité mesure la probabilité, à partir de la connaissance d’un nombre de « points », d’identifier une personne unique. On peut ainsi considérer qu’une information est la présence dans un lieu et à un moment précis. A partir de là, en travaillant sur une base de données téléphonique d’1,5 million de personne sur 15 mois, combien de points faut-il pour identifier une seule personne à un endroit et un moment donnés ? La réponse est quatre, dans 95% des cas.

Le même type d’expérience avec des résultats similaires a été mené avec des données de carte bancaire. Donc, avec le big data, retirer tous les identifiants n’est pas suffisant pour protéger la vie privée.

La deuxième étape sera donc de rajouter du bruit, en réduisant la résolution spatiale et temporelle. Le résultat probable de ré-identification se comporte alors comme une loi de puissance : si on ajoute un peu de bruit, on baisse significativement la possibilité de ré-identification, mais le rendement est ensuite décroissant. Dès lors, il suffit pour l’attaquant de collecter quelques points supplémentaires pour ré-identifier une personne avec une forte probabilité malgré l’ajout de bruit. Là encore, cette précaution n’est pas suffisante.

Le deuxième risque est celui de l’inférence, à partir de données que l’on considère a priori comme pas si sensibles que ça, celles du téléphone par exemple. Dans le passé, c’était en effet le cas. Cette fois, des recherches ont permis d’utiliser des métadonnées d’appels, pour voir ce qu’il est possible de prédire sur la personne selon la façon dont elle se sert de son téléphone. Après avoir soumis des étudiants à un test de personnalité classique, on a utilisé leurs données téléphoniques pour construire des indicateurs comportementaux en fonction du temps passé au téléphone, du nombre de personnes appelées, de la répartition entre appels et envois de SMS, du temps mis à répondre à ces derniers… tout en faisant appel à la géolocalisation pour définir une taille de région telle qu’on sait que la personne s’y trouve 95% du temps. Grâce à l’algorithme construit sur cette base, on a pu inférer dans une proportion significative à quel degré se situe une personne sur l’échelle de tel ou tel trait de caractère, par exemple prédire le degré de neurotisme d’une personne jusqu’à 1.7 mieux qu’au hasard ou son degré d’extraversion avec 61% de chances. Ce résultat, répliqué dans des études à grande échelle, met en évidence le fait que la sensibilité des données big data est bien plus importante que ce que l’on peut penser a priori.

Dès lors, comment redéfinir le « trade off » entre vie privée et utilisation des données ? Le paradigme actuel, qui passe par l’anonymisation et l’utilisation de données jugées peu sensibles, ayant montré ses limites, il faut en changer y compris légalement au niveau Français et Européen. Sans abandonner la promesse d’anonymisation, il s’agit de bâtir une infrastructure sur le principe de l’ « oignon » qui permet de garantir une utilisation des données dans le respect de leur anonymat. C’est ce que fait le CASD.

Est-ce du ressort du politique et de la loi de fixer le « trade off » ? Celui-ci relève d’un choix sociétal, mais il est essentiel que celui-ci se fasse sur des bases techniques solides. L’anonymisation de données offre-t-il un équilibre satisfaisant ? Il est nécessaire de changer de paradigme afin que l’on puisse légalement garantir que les données soient utilisées de manière anonyme non pas parce que les données elles-mêmes sont anonymes mais parce que l’on a construit une infrastructure et des mécanismes de sécurité et d’auditing qui garantissent une utilisation « anonymisante » de ses données.

En conclusion, que peuvent faire les diffuseurs d’accès ?

Tout d’abord, pour éviter des délais trop longs et des démarches complexes, il faudrait une procédure simplifiée quand le but est la validation, avec une finalité déjà validée. Cette piste est discutée aux Etats-Unis.

Ensuite, des archives référentiables publiques devraient être disponibles pour les programmes et résultats divulgués, en incluant les résultats qui n’ont pas été utilisés dans la publication.

Enfin, des archives référentiables confidentielles pour les données de base, assorties de métadonnées non confidentielles et ouvertes, pourraient faire l’objet d’un accès soumis à approbation, dans un cadre européen pour faciliter les échanges transnationaux.

Source : CASD – « Vos données sécurisées au cœur de la datascience : usages et perspectives » – Avril 2016