Молекула ДНК запомнила монолог Гамлета наизусть - " Быть или не быть" молекулярному суперкомпьютеру
Американский стартап Catalog Technologies смог записать отрывок в 17 000 слов из «Гамлета» Шекспира на искусственную ДНК-молекулу, которая может открыть путь в новую эру "молекулярного Интернета".
***
Зачем вообще хранить данные в молекулах ДНК
С начала развития интернета, количество информации, который создает человек, растет в геометрической прогрессии. По некоторым прогнозам, в следующие три года общее количество цифровых данных увеличится в три раза, и достигнет 175 зетабайт (175 миллиардов терабайт). Современные технологии хранения данных — жесткие диски и магнитные ленты, не позволяют надежно и долговечно сохранить такое количество информации.
Исследователи считают, что строительство новых дата-центров с применением сегодняшних технологий не спасет человечество от переизбытка информации. Хранение данных будет становиться все более накладным, что будет тормозить развитие по всем передовым направлениям.
Одно из возможных решений — хранение данных в синтетических молекулах ДНК. Всего один грамм ДНК способен хранить в себе до 215 петабайт (215 миллионов гигабайтов) данных. Это означает, что весь существующий сегодня интернет-контент мог бы поместиться в обувную коробку.
Иформационная "атомная бомба"
Впервые идею хранить информацию в таком формате более 60 лет назад предложил американский физик, нобелевский лауреат и один из создателей атомной бомбы Ричард Фейнман. На тот момент идея звучала крайне футуристично — но появившиеся в XXI веке методы создания полностью искусственной (синтетической) ДНК-молекулы сделали эту технологию реальностью.
Рынок разработок в области цифровой ДНК-памяти в прошлом году достиг $105.5 млн, и, по прогнозам, будет расти на 69,8% в год. Исследованиями в этой области занимаются технологические компании, научные институты и даже Агентство национальной безопасности США.
Основные игроки отрасли — корпорации Twist Bioscience, Catalog Technologies, Microsoft, Ansa Biotechnologies, Western Digital, Biomemory. Пока технология далека от массового производства, поэтому компании больше сотрудничают, обмениваясь опытом, а не конкурируют. В 2020 году крупнейшие разработчики и исследовательские институты объединились в Альянс хранения памяти в ДНК (DNA Data Storage Alliance), насчитывающий уже 50 участников.
Американские агентства IARPA и DARPA — исследовательские центры при Агентстве национальной безопасности и Минобороны США, также активно участвуют в разработке технологии. Помимо судбсидирования работы в научных институтах, в 2020 году IARPA запустила собственную программу под названием MIST (Молекулярное хранение информации). Под руководством разведки исследованиями занимаются ученые из Технического института Джорджии.
Часто разработчики ДНК-памяти вступают в коллаборации с исследовательскими центрами и коммерческими компаниями из других отраслей. Так, Twist Bioscience сотрудничали с Netflix, чтобы продемонстрировать возможность использования ДНК для сохранения видео. А закодировать первый эпизод сериала «Биохакеры» в нуклеотиды им помогли исследователи из Высшей технической школы в Цюрихе.
Как сохраняют данные в ДНК
Молекулы ДНК содержатся в клетках живых организмов на Земле и хранят генетическую информацию о них. Каждая молекула состоит из длинной цепочки нуклеотидов четырех видов, название которых сокращают до четырех букв: А (аденин), Т (тимин), G (гуанин) и C (циазин). Их последовательность и представляет собой четырехзначный код, в котором записана вся информация.
Эта система аналогична тому, как хранит данные компьютер — с той лишь разницей, что цифровые данные зашифрованы в виде последовательностей из нулей и единиц. Для записи информации на ДНК необходимо перевести ее из двоичной системы в четверичную, секвенировать (выстроить в цепочку), а затем перенести на искусственную или натуральную молекулу. Рассмотрим этот процесс подробнее.
Существует множество способов перевести двоичные данные в четырехзначную систему, и именно от них зависит эффективность разработки. Современные методы позволяют сжимать данные без потери качества и записывать их на ДНК-молекулу с максимальной плотностью. Например, в прошлом году, ученым из Иллинойского Института Бекмана удалось химически изменить молекулу, добавив в нее еще семь символов, помимо четырех основных. Таким образом, исследователи стали первыми, кто расширил «алфавит» ДНК, тем самым увеличив вместимость ее памяти.
После шифрования код собирается в последовательности ДНК при помощи цепочек биологических реакций — в итоге создается искусственная ДНК-молекула. Принцип, по которому она синтезируется, похож на работу струйного принтера: закодированная информация наносится на лабораторное стекло как чернила на бумагу. Поскольку создавать короткие фрагменты намного быстрее и дешевле, чем длинные, ученые создают небольшие последовательности информации, а затем систематизируют их в единое хранилище, разбитое на блоки. Этот метод напоминает хранение данных на любом дисковом накопителе.
За 30 лет стоимость создания ДНК-молекулы снизилась в 10 миллионов раз
Главное достоинство необычной технологии — плотность хранения данных. Информация в ДНК-молекуле «утрамбована» как минимум в в 1009 раз более плотно, чем на самом компактном жестком диске.
Надо сказать, что это — именно предельная потенциальная вместимость, которая пока не достигнута. Плотность данных, которой достигают разработчики, постоянно растет. Так, механика, с помощью которой в 2012 году была сделана первая запись на молекулу ДНК, позволяла хранить информацию с плотностью 1,28 петабайт на грамм. Современные технологии шифрования позволяют достигать примерно в сто раз лучшего результата — то есть около половины от предельной плотности.
У развития цифровых технологий есть оборотная сторона: они быстро устаревают. Это вызывает проблемы с доступом к информации, записанным на предыдущие поколения устройств. Так, чтобы прочитать данные с дискеты, записанные всего 30 лет назад, придется сильно постараться, чтобы найти подходящий дисковод.
В то же время строение молекулы ДНК не меняется уже 3 млрд лет. Это означает, что такому методу хранения не грозит устаревание, а человечество с большой вероятностью всегда сможет расшифровать записанные данные. ДНК-хранилище через сотни лет будет устроено примерно так же, как и сегодня.
Хорошая новость в том, что в развитии и удешевлении технологии синтеза ДНК заинтересованы далеко не только те, кто хочет хранить в ней данные. Последние 20 лет она развивается как самостоятельная отрасль и имеет огромное значение для биологии, медицины и генетики.
Развитие технологий приводит к тому, что стоимость создания ДНК-молекулы уменьшается. За последние 30 лет оно подешевело в 10 миллионов раз. Возможно не за горами момент, когда цена станет достаточно низкой для массового производства.
Другой способ решения проблемы с дороговизной — использование натуральных ДНК-молекул вместо искусственных. Именно это сделали ученые из Гарвардского университета в 2017 году, записав короткую анимацию на ДНК живых бактерий. Для записи использовался механизм CRISPR, который позволяет бактериям вырабатывать иммунитет, накапливая память о встреченных вирусах. Но есть серьезная проблема — в отличие от синтезированной, натуральная молекула ДНК склонна к мутации, что сильно снижает надежность хранения данных.
Большинство цифровых данных предполагают постоянный доступ к ним. Низкая скорость поиска и выгрузки данных на ДНК-носителе делает работу с ними крайне неэффективной.
Этот вызов пытаются преодолеть компания Catalog, с которой мы начали статью . Ее особенность в быстрой системе поиска данных по ключевым словам. Для поиска данных в записанном учеными отрывке из «Гамлета» в 17 000 слов системе понадобилось всего несколько минут.
Источник "HABR" ( в сокращении )