Молекула ДНК запомнила монолог Гамлета наизусть - " Быть или не быть" молекулярному суперкомпьютеру

Американский стартап Catalog Technologies смог записать отрывок в 17 000 слов из «Гамлета» Шекспира на искусственную ДНК-молекулу, которая может открыть путь в новую эру "молекулярного Интернета". 

Молекула, которая умеет размножаться

***

Зачем вообще хранить данные в молекулах ДНК

С начала развития интернета, количество информации, который создает человек, растет в геометрической прогрессии. По некоторым прогнозам, в следующие три года общее количество цифровых данных увеличится в три раза, и достигнет 175 зетабайт (175 миллиардов терабайт). Современные технологии хранения данных — жесткие диски и магнитные ленты, не позволяют надежно и долговечно сохранить такое количество информации. 

Исследователи считают, что строительство новых дата-центров с применением сегодняшних технологий не спасет человечество от переизбытка информации. Хранение данных будет становиться все более накладным, что будет тормозить развитие по всем передовым направлениям. 

Одно из возможных решений — хранение данных в синтетических молекулах ДНК. Всего один грамм ДНК способен хранить в себе до 215 петабайт (215 миллионов гигабайтов) данных. Это означает, что весь существующий сегодня интернет-контент мог бы поместиться в обувную коробку.

Формула химического гормона окситоцина 3d серебристого цвета на светлом  глянцевом фоне реалистична | Премиум Фото

 

Иформационная  "атомная бомба"

Впервые идею хранить информацию в таком формате более 60 лет назад предложил американский физик, нобелевский лауреат и один из создателей атомной бомбы Ричард Фейнман. На тот момент идея звучала крайне футуристично — но появившиеся в XXI веке методы создания полностью искусственной (синтетической) ДНК-молекулы сделали эту технологию реальностью.

Рынок разработок в области цифровой ДНК-памяти в прошлом году достиг $105.5 млн, и, по прогнозам, будет расти на 69,8% в год. Исследованиями в этой области занимаются технологические компании, научные институты и даже Агентство национальной безопасности США.  

Основные игроки отрасли — корпорации Twist Bioscience, Catalog Technologies, Microsoft, Ansa Biotechnologies, Western Digital, Biomemory. Пока технология далека от массового производства, поэтому компании больше сотрудничают, обмениваясь опытом, а не конкурируют. В 2020 году крупнейшие разработчики и исследовательские институты объединились в Альянс хранения памяти в ДНК (DNA Data Storage Alliance), насчитывающий уже 50 участников. 

Американские агентства IARPA и DARPA — исследовательские центры при Агентстве национальной безопасности и Минобороны США, также активно участвуют в разработке технологии. Помимо судбсидирования работы в научных институтах, в 2020 году IARPA запустила собственную программу под названием MIST (Молекулярное хранение информации). Под руководством разведки исследованиями занимаются ученые из Технического института Джорджии.

Часто разработчики ДНК-памяти вступают в коллаборации с исследовательскими центрами и коммерческими компаниями из других отраслей. Так, Twist Bioscience сотрудничали с Netflix, чтобы продемонстрировать возможность использования ДНК для сохранения видео. А закодировать первый эпизод сериала «Биохакеры» в нуклеотиды им помогли исследователи из Высшей технической школы в Цюрихе.

Как сохраняют данные в ДНК

неонографика — картинки и видео в Шедевруме

Молекулы ДНК содержатся в клетках живых организмов на Земле и хранят генетическую информацию о них. Каждая молекула состоит из длинной цепочки нуклеотидов четырех видов, название которых сокращают до четырех букв: А (аденин), Т (тимин), G (гуанин) и C (циазин). Их последовательность и представляет собой четырехзначный код, в котором записана вся информация. 

Эта система аналогична тому, как хранит данные компьютер — с той лишь разницей, что цифровые данные зашифрованы в виде последовательностей из нулей и единиц. Для записи информации на ДНК необходимо перевести ее из двоичной системы в четверичную, секвенировать (выстроить в цепочку), а затем перенести на искусственную или натуральную молекулу. Рассмотрим этот процесс подробнее. 

Существует множество способов перевести двоичные данные в четырехзначную систему, и именно от них зависит эффективность разработки. Современные методы позволяют сжимать данные без потери качества и записывать их на ДНК-молекулу с максимальной плотностью. Например, в прошлом году, ученым из Иллинойского Института Бекмана удалось химически изменить молекулу, добавив в нее еще семь символов, помимо четырех основных. Таким образом, исследователи стали первыми, кто расширил «алфавит» ДНК, тем самым увеличив вместимость ее памяти.

После шифрования код собирается в последовательности ДНК при помощи цепочек биологических реакций —  в итоге создается искусственная ДНК-молекула. Принцип, по которому она синтезируется, похож на работу струйного принтера: закодированная информация наносится на лабораторное стекло как чернила на бумагу. Поскольку создавать короткие фрагменты намного быстрее и дешевле, чем длинные, ученые создают небольшие последовательности информации, а затем систематизируют их в единое хранилище, разбитое на блоки. Этот метод напоминает хранение данных на любом дисковом накопителе. 

За 30 лет стоимость создания ДНК-молекулы снизилась в 10 миллионов раз

Хаотичные цепи нейронов в …» — картинка создана в Шедевруме

Главное достоинство необычной технологии  — плотность хранения данных. Информация в ДНК-молекуле «утрамбована» как минимум в в 1009 раз более плотно, чем на самом компактном жестком диске. 

Надо сказать, что это — именно предельная потенциальная вместимость, которая пока не достигнута. Плотность данных, которой достигают разработчики, постоянно растет. Так, механика, с помощью которой в 2012 году была сделана первая запись на молекулу ДНК, позволяла хранить информацию с плотностью 1,28 петабайт на грамм. Современные технологии шифрования позволяют достигать примерно в сто раз лучшего результата — то есть около половины от предельной плотности.

 У развития цифровых технологий есть оборотная сторона: они быстро устаревают. Это вызывает проблемы с доступом к информации, записанным на предыдущие поколения устройств. Так, чтобы прочитать данные с дискеты, записанные всего 30 лет назад, придется сильно постараться, чтобы найти подходящий дисковод. 

В то же время строение молекулы ДНК не меняется уже 3 млрд лет. Это означает, что такому методу хранения не грозит устаревание, а человечество с большой вероятностью всегда сможет расшифровать записанные данные. ДНК-хранилище через сотни лет будет устроено примерно так же, как и сегодня. 

Хорошая новость в том, что в развитии и удешевлении технологии синтеза ДНК заинтересованы далеко не только те, кто хочет хранить в ней данные. Последние 20 лет она развивается как самостоятельная отрасль и имеет огромное значение для биологии, медицины и генетики. 

Сладкий ребёнок эмбрион в утробе, …» — картинка создана в Шедевруме

Развитие технологий приводит к тому, что стоимость создания ДНК-молекулы уменьшается. За последние 30 лет оно подешевело в 10 миллионов раз. Возможно не за горами момент, когда цена станет достаточно низкой для массового производства.

Другой способ решения проблемы с дороговизной — использование натуральных ДНК-молекул вместо искусственных. Именно это сделали ученые из Гарвардского университета в 2017 году, записав короткую анимацию на ДНК живых бактерий. Для записи использовался механизм CRISPR, который позволяет бактериям вырабатывать иммунитет, накапливая память о встреченных вирусах. Но есть серьезная проблема — в отличие от синтезированной, натуральная молекула ДНК склонна к мутации, что сильно снижает надежность хранения данных. 

Большинство цифровых данных предполагают постоянный доступ к ним. Низкая скорость поиска и выгрузки данных на ДНК-носителе делает работу с ними крайне неэффективной. 

Этот вызов пытаются преодолеть компания Catalog, с которой мы начали статью . Ее особенность в быстрой системе поиска данных по ключевым словам. Для поиска данных в записанном учеными отрывке из «Гамлета» в 17 000 слов системе понадобилось всего несколько минут. 

Источник "HABR" ( в сокращении )