Молекула ДНК запомнила монолог Гамлета наизусть - " Быть или не быть" молекулярному суперкомпьютеру

Американский стартап Catalog Technologies смог записать отрывок в 17 000 слов из «Гамлета» Шекспира на искусственную ДНК-молекулу, которая может открыть путь в новую эру "молекулярного Интернета".

Молекула, которая умеет размножаться

***

Зачем вообще хранить данные в молекулах ДНК

С начала развития интернета, количество информации, который создает человек, растет в геометрической прогрессии. По некоторым прогнозам, в следующие три года общее количество цифровых данных увеличится в три раза, и достигнет 175 зетабайт (175 миллиардов терабайт). Современные технологии хранения данных — жесткие диски и магнитные ленты, не позволяют надежно и долговечно сохранить такое количество информации.

Исследователи считают, что строительство новых дата-центров с применением сегодняшних технологий не спасет человечество от переизбытка информации. Хранение данных будет становиться все более накладным, что будет тормозить развитие по всем передовым направлениям.

Одно из возможных решений — хранение данных в синтетических молекулах ДНК. Всего один грамм ДНК способен хранить в себе до 215 петабайт (215 миллионов гигабайтов) данных. Это означает, что весь существующий сегодня интернет-контент мог бы поместиться в обувную коробку.

Формула химического гормона окситоцина 3d серебристого цвета на светлом глянцевом фоне реалистична | Премиум Фото

Иформационная "атомная бомба"

Впервые идею хранить информацию в таком формате более 60 лет назад предложил американский физик, нобелевский лауреат и один из создателей атомной бомбы Ричард Фейнман. На тот момент идея звучала крайне футуристично — но появившиеся в XXI веке методы создания полностью искусственной (синтетической) ДНК-молекулы сделали эту технологию реальностью.

Рынок разработок в области цифровой ДНК-памяти в прошлом году достиг $105.5 млн, и, по прогнозам, будет расти на 69,8% в год. Исследованиями в этой области занимаются технологические компании, научные институты и даже Агентство национальной безопасности США.

Основные игроки отрасли — корпорации Twist Bioscience, Catalog Technologies, Microsoft, Ansa Biotechnologies, Western Digital, Biomemory. Пока технология далека от массового производства, поэтому компании больше сотрудничают, обмениваясь опытом, а не конкурируют. В 2020 году крупнейшие разработчики и исследовательские институты объединились в Альянс хранения памяти в ДНК (DNA Data Storage Alliance), насчитывающий уже 50 участников.

Американские агентства IARPA и DARPA — исследовательские центры при Агентстве национальной безопасности и Минобороны США, также активно участвуют в разработке технологии. Помимо судбсидирования работы в научных институтах, в 2020 году IARPA запустила собственную программу под названием MIST (Молекулярное хранение информации). Под руководством разведки исследованиями занимаются ученые из Технического института Джорджии.

Часто разработчики ДНК-памяти вступают в коллаборации с исследовательскими центрами и коммерческими компаниями из других отраслей. Так, Twist Bioscience сотрудничали с Netflix, чтобы продемонстрировать возможность использования ДНК для сохранения видео. А закодировать первый эпизод сериала «Биохакеры» в нуклеотиды им помогли исследователи из Высшей технической школы в Цюрихе.

Как сохраняют данные в ДНК

неонографика — картинки и видео в Шедевруме

Молекулы ДНК содержатся в клетках живых организмов на Земле и хранят генетическую информацию о них. Каждая молекула состоит из длинной цепочки нуклеотидов четырех видов, название которых сокращают до четырех букв: А (аденин), Т (тимин), G (гуанин) и C (циазин). Их последовательность и представляет собой четырехзначный код, в котором записана вся информация.

Эта система аналогична тому, как хранит данные компьютер — с той лишь разницей, что цифровые данные зашифрованы в виде последовательностей из нулей и единиц. Для записи информации на ДНК необходимо перевести ее из двоичной системы в четверичную, секвенировать (выстроить в цепочку), а затем перенести на искусственную или натуральную молекулу. Рассмотрим этот процесс подробнее.

Существует множество способов перевести двоичные данные в четырехзначную систему, и именно от них зависит эффективность разработки. Современные методы позволяют сжимать данные без потери качества и записывать их на ДНК-молекулу с максимальной плотностью. Например, в прошлом году, ученым из Иллинойского Института Бекмана удалось химически изменить молекулу, добавив в нее еще семь символов, помимо четырех основных. Таким образом, исследователи стали первыми, кто расширил «алфавит» ДНК, тем самым увеличив вместимость ее памяти.

После шифрования код собирается в последовательности ДНК при помощи цепочек биологических реакций — в итоге создается искусственная ДНК-молекула. Принцип, по которому она синтезируется, похож на работу струйного принтера: закодированная информация наносится на лабораторное стекло как чернила на бумагу. Поскольку создавать короткие фрагменты намного быстрее и дешевле, чем длинные, ученые создают небольшие последовательности информации, а затем систематизируют их в единое хранилище, разбитое на блоки. Этот метод напоминает хранение данных на любом дисковом накопителе.

За 30 лет стоимость создания ДНК-молекулы снизилась в 10 миллионов раз

Хаотичные цепи нейронов в …» — картинка создана в Шедевруме

Главное достоинство необычной технологии — плотность хранения данных. Информация в ДНК-молекуле «утрамбована» как минимум в в 1009 раз более плотно, чем на самом компактном жестком диске.

Надо сказать, что это — именно предельная потенциальная вместимость, которая пока не достигнута. Плотность данных, которой достигают разработчики, постоянно растет. Так, механика, с помощью которой в 2012 году была сделана первая запись на молекулу ДНК, позволяла хранить информацию с плотностью 1,28 петабайт на грамм. Современные технологии шифрования позволяют достигать примерно в сто раз лучшего результата — то есть около половины от предельной плотности.

У развития цифровых технологий есть оборотная сторона: они быстро устаревают. Это вызывает проблемы с доступом к информации, записанным на предыдущие поколения устройств. Так, чтобы прочитать данные с дискеты, записанные всего 30 лет назад, придется сильно постараться, чтобы найти подходящий дисковод.

В то же время строение молекулы ДНК не меняется уже 3 млрд лет. Это означает, что такому методу хранения не грозит устаревание, а человечество с большой вероятностью всегда сможет расшифровать записанные данные. ДНК-хранилище через сотни лет будет устроено примерно так же, как и сегодня.

Хорошая новость в том, что в развитии и удешевлении технологии синтеза ДНК заинтересованы далеко не только те, кто хочет хранить в ней данные. Последние 20 лет она развивается как самостоятельная отрасль и имеет огромное значение для биологии, медицины и генетики.

Сладкий ребёнок эмбрион в утробе, …» — картинка создана в Шедевруме

Развитие технологий приводит к тому, что стоимость создания ДНК-молекулы уменьшается. За последние 30 лет оно подешевело в 10 миллионов раз. Возможно не за горами момент, когда цена станет достаточно низкой для массового производства.

Другой способ решения проблемы с дороговизной — использование натуральных ДНК-молекул вместо искусственных. Именно это сделали ученые из Гарвардского университета в 2017 году, записав короткую анимацию на ДНК живых бактерий. Для записи использовался механизм CRISPR, который позволяет бактериям вырабатывать иммунитет, накапливая память о встреченных вирусах. Но есть серьезная проблема — в отличие от синтезированной, натуральная молекула ДНК склонна к мутации, что сильно снижает надежность хранения данных.

Большинство цифровых данных предполагают постоянный доступ к ним. Низкая скорость поиска и выгрузки данных на ДНК-носителе делает работу с ними крайне неэффективной.

Этот вызов пытаются преодолеть компания Catalog, с которой мы начали статью . Ее особенность в быстрой системе поиска данных по ключевым словам. Для поиска данных в записанном учеными отрывке из «Гамлета» в 17 000 слов системе понадобилось всего несколько минут.

Источник "HABR" ( в сокращении )

Молекула ДНК запомнила монолог Гамлета наизусть - " Быть или не быть" молекулярному суперкомпьютеру

Зачем вообще хранить данные в молекулах ДНК

Иформационная "атомная бомба"

Как сохраняют данные в ДНК

За 30 лет стоимость создания ДНК-молекулы снизилась в 10 миллионов раз

ЗОРЯ КОБЗАРЯ: у свою 212 річницю Т.Г. Шевченко висвітлює український шлях до висоти

"Открытое письмо гражданки России президенту. "Я БУДУ ПЕРЕЧИСЛЯТЬ МОИ НАЛОГИ АРМИИ УКРАИНЫ!"

Життя заради світла, миру та культури. Світла пам'ять Лії Олександрівні Гурарій

Как на самом деле выглядел Иисус Христос и как история меняла его облик?

Як Санта знаходить дім на Різдво, адже на планеті Земля два північних полюса

"Стрибок на Сонце": отримано дивовижну фотографію, яку ще ніхто не робив, і це не фотошоп (фото)

Світ українського кіно - чотирилапі рятувальники зустрінуться з шанувальниками

"Український космос" Олега Шупляка. Відкриття віставки 16 липня

Чернобыль вышел из карантина, но остался в Зоне отчуждения

В Днепре пройдет грандиозный цыганский фестиваль: такого не видели больше десяти лет

«Поєднані Дніпром» - виставка майстрів образотворчого мистецтва

На международный книжный фестиваль в Днепре приедут Корогодский и Орлуша

Отповедь вместо проповеди - Папа Римский впервые за 500 лет прибыл в Монако, где учил, куда лучше всего тратить деньги от казино

Від банкноти до ... банкрутства?Трамп хоче увічнити себе на золотій монеті і кожному паперовому грошовому знаку

Орки з російського аду завдали удар по святині - Львівському органнному залу у костелі Святої Марії Магдалини, але музика перемогла чортів

«Кожна баба – на вагу золота»: як військові та історики евакуюють тисячолітні артефакти під вогнем КАБів

Давос і нині там - і це Трамп, який бажає перетворити Європу в труну і обирає війну...

Не можу ходити, але можу літати - в космос вперше полетіла людина, яка на землі використовує колісне крісло