Deux textes historiques conservés aux Archives nationales, la Déclaration des droits de l’homme et celle des droits de la femme, rédigée par Olympe de Gouges en 1791, ont été encodés sur ADN, grâce à une nouvelle technologie qui promet un stockage plus durable et moins volumineux que le numérique classique. Il s’agit de deux minuscules capsules contenant des brins d’ADN de synthèse, sur lesquels ont été encodés les deux textes. Leur durée de vie est estimée à plusieurs dizaines de milliers d’années. L’ADN peut-il devenir le stockage ultime de l’information ?

Les capsules ont été déposées ce 23 novembre dans l’armoire de fer des Archives nationales à Paris, aux côtés des originaux et d’autres textes emblématiques comme la Constitution de 1958 ou le testament de Napoléon. « C’est la première fois que les Archives de France conservent des documents sur ADN, et c’est une première mondiale pour une institution publique », s’est félicité Bruno Ricard, directeur général des Archives nationales, lors de la cérémonie de dépôt.

La technologie consiste à transformer une donnée numérique binaire (le document sur papier encodé sous un fichier constitué de 0 et de 1), en donnée quaternaire : les lettres A, T, C et G. Ces lettres sont les briques de l’ADN, le support de l’information génétique qui se transmet de génération en génération, sur plusieurs dizaines de milliers d’années. L’information numérique ainsi convertie est stockée sur des grandes molécules — comme le fait le vivant – copiées des milliards de fois : « c’est une stratégie innovante bio-inspirée », explique Stéphane Lemaire, directeur de recherche CNRS, dont l’équipe à l’origine du projet « DNA Drive ».

L’ADN offre potentiellement « une densité si élevée qu’on pourrait stocker toutes les données du monde dans l’équivalent d’une tablette de chocolat », avance-t-il.

L’ADN réécrit est ensuite lyophilisé et pour lire l’information, il suffit de rajouter une goutte d’eau. On peut ensuite récupérer le fichier via un séquenceur d’ADN. La stabilité est garantie pendant « plus de 50.000 ans », dit Stéphane Lemaire, rappelant qu’un génome complet d’un mammouth de plus d’un million d’années avait pu être reconstitué. Le stockage numérique sur bande magnétique, lui, n’a qu’une durée de vie faible – les données doivent être transférées tous les dix ans. La technologie est en outre « non énergivore » et incomparablement moins volumineuse que la « datasphère », qui rassemble l’ensemble des données numériques mondiales. – AFP

L’ADN : stockage ultime de l’information ?

En 2010, le monde ne produisait que deux zettaoctets de données numériques, soit l’équivalent de deux milliards de téraoctets. En 2020, ce chiffre dépassera les 50 zettaoctets, il attendra 175 zettaoctets en 2025, et 600 zettaoctets vers 2030. Résultat de cette explosion informationnelle : plus de la moitié de toute l’information produite par l’humanité depuis ses origines l’a été depuis moins de trois ans.

Why not enjoy unlimited reading of UP'? Subscribe from €1.90 per week.

I choose my subscription

Comment continuer à stocker l’immense masse d’informations produites par notre civilisation, sachant que, si l’Internet était un pays, il serait le 3ème consommateur d’électricité au monde, avec environ avec 1500 TWH par an, derrière la Chine et les Etats-Unis. Au total, le Web, avec ses myriades de serveurs et d’ordinateurs, consomme déjà plus de 6 % de la production mondiale d’électricité, et cette consommation pourrait tripler d’ici 2030, sans ruptures technologiques profondes, ce qui n’est pas envisageable, tant pour des raisons économiques qu’environnementales.

Pour relever ce défi technologique, chercheurs et ingénieurs rivalisent d’imagination dans le monde entier et ne cessent de concevoir des mémoires physiques toujours plus performantes, qu’elles soient optiques, magnétiques ou électroniques. Mais ces systèmes physiques, bien qu’ils consomment de moins en moins d’énergie, doivent être multipliés pour faire face à la croissance quasi-exponentielle des demandes diverses de stockage numérique, à court et long terme. En outre, tous ces supports physiques ont une durée de vie très courte, même en prenant beaucoup de précautions et ils sont à la fois victimes de l’usure du temps et de la succession de plus en plus rapide des formats et des technologies, souvent incompatibles entre eux. C’est pourquoi, depuis une dizaine d’années, les chercheurs redoublent d’efforts pour préparer un grand saut technologique, celui du stockage biologique, sur ADN. Cette structure de base du vivant, découverte en 1953 par James Watson et Francis Crick et Rosalyd Franklin, trop longtemps oubliée, l’ADN, a dix milliards de fois la capacité d’un CD. Il ne consomme pas d’électricité et surtout, il peut, même dans des conditions climatiques sévères, se conserver pendant des millions d’années.

Encoder sur ADN pour stocker et lire l’information

En 2012, une équipe de chercheurs de Harvard a réussi à encoder sur ADN un livre de 300 pages, illustrations comprises. En 2016, les équipes du Molecular Information Systems Lab (MISL) de l’Université de Washington et de Microsoft ont réussi à encoder un clip vidéo d’environ 200 Mo sur de l’ADN ; ils sont depuis parvenus à un nouveau record de 1 Go. En 2017, des chercheurs du New York Genome Center et de l’Université de Columbia ont réussi à coder un petit film dans son intégralité. Au total, ils ont stocké 2 mégaoctets de données dans 72.000 brins d’ADN. Mais surtout, ils ont ensuite été capables de les lire en streaming, car il ne s’agit pas seulement de conserver l’information, il faut également pouvoir la lire facilement et rapidement. Cette approche permet déjà de stocker quelque 215 pétaoctets (215 millions de milliards d’octets) de données dans un seul gramme d’ADN, ce qui représente environ deux cent fois tout le contenu de la Bibliothèque nationale de France.

Début 2018, les chercheurs du Waterford Institute of Technology (WIT) ont, de leur côté, fait la démonstration d’encodage et de décodage d’un message dans une bactérie E.coli. Cette équipe dirigée par Yutaka Takahashi, en collaboration avec les ingénieurs de Microsoft est parvenue à fabriquer une machine capable de transformer automatiquement des données numériques (suites de 0 et de 1) en séquences ADN (bases azotées A, C, T et G). Fait remarquable, ce prototype a coûté moins de 10 000 euros. Il a été réalisé à l’aide de récipients en verre où sont fabriqués des brins d’ADN synthétiques, et un séquenceur d’Oxford Nanopore a permis de reconvertir ces données en informations numériques.

À l’occasion d’une présentation de cette technologie qui a fait sensation, le dispositif élaboré par le WIT a réussi à traduire le mot « hello » en ADN. L’algorithme de Microsoft a d’abord converti les bits en bases ADN, qui sont obtenus à l’aide d’un synthétiseur en ajoutant des produits chimiques. Les cinq octets de « hello » (01001000 01000101 01001100 01001100 01001111) ont ainsi pu être stockés dans 1 mg d’ADN.

Il reste que, pour l’instant, ce processus de stockage est bien trop lent pour être exploité commercialement. Mais les chercheurs affirment qu’il n’existe aucun obstacle insurmontable pour rendre cette vitesse de conversion et de lecture plus rapide « Notre objectif est de mettre au point un système qui, pour l’utilisateur final, ressemble à n’importe quel autre service de stockage cloud, où les données sont envoyées dans un datacenter ADN, puis sont reconverties en bits lorsque le client en a besoin », explique Karin Strauss, chercheuse principale chez Microsoft.

Selon Microsoft, la totalité de l’information contenue dans un datacenter pourrait tenir dans un volume de la taille d’un dé et la totalité des données produites par l’humanité, depuis les origines, jusqu’en 2030, pourraient être stockée dans un volume pas plus gros qu’un réfrigérateur. Mais plus encore que sa capacité inouïe de stockage, l’ADN recèle un autre avantage décisif : il reste stable et exploitable pendant des centaines de milliers d’années, contre seulement quelques décennies pour les mémoires magnétiques et électroniques, et au mieux quelques siècles, pour les mémoires de masses en verre spécial. Microsoft estime ainsi qu’il faudra atteindre une vitesse de conversion d’environ 100 Mo par seconde pour être viable commercialement. Le coût de la fabrication d’ADN doit également baisser.

En 2019, des scientifiques irlandais de l’Institut irlandais de technologie de Waterford ont par ailleurs mis au point une solution innovante permettant de stocker des données dans de l’ADN et d’utiliser des bactéries pour archiver jusqu’à un zettaoctet dans un gramme d’ADN. La technique utilise des molécules d’ADN à double contrainte appelées plasmides pour coder des données qui sont stockées dans la souche Novablue de la bactérie E Coli. Les données stockées peuvent être transférées en libérant une souche HB101 mobile de E Coli qui utilise un processus appelé conjugaison pour extraire les données. Bien que cette méthode soit très fiable, elle reste également lente et coûteuse mais il ne fait guère de doute, qu’au rythme où cette technologie progresse, elle permettra bien plus vite qu’on ne croit un stockage massif, rapide et surtout d’une durabilité à toute épreuve de nos données numériques les plus précieuses.

C’est dans ce contexte que la biotech française DNA Script a annoncé avoir reçu un financement du gouvernement américain pour mettre au point une technologie de stockage des données dans l’ADN. En partenariat avec des chercheurs du Massachusetts Institute of Technology (MIT), d’Harvard, et d’Illumina – le géant américain du séquençage génétique –, elle a quatre ans pour développer sa technologie originale qui utilise des enzymes génétiquement modifiées et pour concevoir une machine capable d’encoder dans une molécule un téraoctet de données – l’équivalent de 250 films – en vingt-quatre heures pour un coût maximal de 1 000 dollars (902 euros). Le but : développer des technologies de stockage d’information moins coûteuses et moins énergivores en utilisant de l’ADN de synthèse.

Des enjeux économiques et écologiques considérables

Il est vrai que les enjeux économiques et écologiques de ces recherches sont considérables. On estime en effet que le coût de construction d’un centre de données de l’ordre de l’exaoctet est d’environ 100 millions de dollars, sans compter les frais de maintenance et d’exploitation. Par ailleurs, les différents supports de stockage actuels ont une obsolescence rapide et coûteuse et doivent être dupliqués au moins une fois par décennie pour garantir l’intégrité des données. L’ADN, en revanche, s’il est conservé dans de bonnes conditions, peut rester stable et exploitable pendant des durées qui défient l’entendement. Des chercheurs ont par exemple réussi à décrypter le génome d’un cheval vieux de 700 000 ans.

To fight against disinformation and to favour analyses that decipher the news, join the circle of UP' subscribers.

I choose my subscription

Si cet ambitieux programme de recherche aboutit, le stockage moléculaire sur ADN pourrait être disponible commercialement d’ici dix ans. Il serait réservé dans un premier temps à l’archivage de données particulièrement précieuses, comme des informations portant sur la localisation des déchets nucléaires ou de zones de contamination chimique ou biologique majeures, autant de données qui doivent absolument être transmises intactes pendant de très nombreux siècles. A plus long terme, 20 ou 25 ans, cette technologie de stockage sur ADN se diffuserait dans le grand public et les entreprises, permettant de stocker et de récupérer des masses inimaginables d’informations pour un coût marginal très faible.

La France est également bien consciente de l’importance de cet enjeu technologique et économique. Le CNRS, entre autres, mène des recherches très intéressantes pour inscrire et lire l’information en utilisant des polymères de synthèse. Jean-François Lutz et son équipe travaillent par exemple sur une méthode qui consiste à associer deux monomères artificiels, qu’on définit arbitrairement comme 0 et 1. L’idée est de contrôler l’ordre dans lequel se lient ces monomères, en imaginant des techniques permettant d’attacher les blocs de monomère un à un. « Avec cette méthode, on réussit à écrire quelques mots et on devrait pouvoir coder une phrase entière d’ici quelques mois et écrire l’équivalent d’un livre d’ici quatre ans », précise Jean-François Lutz.

L’ADN, moteur d’un nouveau type d’ordinateur

Mais si l’ADN va permettre une véritable révolution en matière de stockage de l’information, il pourrait bien également devenir le moteur d’un nouveau type d’ordinateur, radicalement différent dans son principe de fonctionnement des machines électroniques binaires qui dominent l’informatique depuis 80 ans. L’année dernière, des chercheurs de l’Université de Rochester, dans l’État de New York, sont parvenus à développer un ordinateur à base d’ADN et à le faire fonctionner pour calculer la racine carrée des nombres 1, 4, 9, 16, 25, 36 et ce jusqu’à 900.

Pour réaliser cette prouesse, les chercheurs ont utilisé 32 brins d’ADN pour former un « bio-ordinateur » afin de stocker et de traiter les informations de l’ordinateur. Cette machine utilise le phénomène d’hybridation, qui se produit lorsque deux brins d’ADN se lient pour former de l’ADN double brin. L’ordinateur peut « calculer la racine carrée d’un nombre binaire de 10 bits (au sein de l’entier décimal 900) en concevant des séquences d’ADN et en programmant des réactions de déplacement de brin d’ADN. Les signaux d’entrée sont optimisés grâce à la rétroaction de sortie pour améliorer les performances dans les opérations logiques plus complexes » précise l’étude. Selon Chunlei Guo, qui dirige ces recherches, « L’informatique ADN en est encore à ses balbutiements, mais elle est très prometteuse, à l’instar de l’ordinateur quantique, pour résoudre des problèmes qui sont trop difficiles, voire impossibles à gérer par les ordinateurs actuels à base de silicium ».

On le voit à la lumière de toutes ces passionnantes recherches, le « bio-ordinateur », utilisant l’ADN à la fois pour le stockage d’informations et le calcul complexe, ne fait plus partie, désormais, de la science-fiction et sera probablement une réalité avant le milieu de ce siècle. Pour se préparer à cette rupture technologique et sociétale majeure, notre pays, qui possède des compétences mondialement reconnues dans le domaine des sciences physiques, des mathématiques et des sciences de la vie, doit sans tarder lancer un ambitieux plan de recherche sur 20 ans, visant à maîtriser, à l’horizon 2040, l’ensemble de ces extraordinaires technologies informatiques à base d’ADN, qui s’annoncent toute aussi révolutionnaires que l’informatique quantique.

René Trégouët, Sénateur honoraire, Fondateur du Groupe de Prospective du Sénat, chroniqueur invité de UP’ Magazine

Ce texte a été initialement publié sur le blog de René Trégouët RT Flash