Наша оцифрованная современная действительность, генерирует всё больше данных каждую минуту, включая видео с вездесущих смартфонов, наблюдения с миллиардов датчиков и камер наблюдения, выходные данные искусственного интеллекта и многое другое. До сих пор экспоненциальный рост ёмкости жёстких дисков и твёрдотельных устройств хранения информации в значительной степени соответствовал этому потоку при стабильном уменьшении стоимости самих устройств. Но эта тенденция может не сохраниться, так как IT-индустрия избаловала пользователей — хранилища доступны бесконечно и постоянно, из года в год, стоимость хранения гигабайта дешевеет. Такая ситуация не обязательно будет иметь место в ближайшем будущем.
Привычные жёсткие диски (HDD) сейчас ещё способны обеспечивать растущий спрос, наряду с их твердотельными эквивалентами (SSD). Они широко используются для «тёплых» данных, к которым нужно часто обращаться. Однако стоимость этих решений уже не падает достаточно быстро. Но мир приближается к той отметке, когда, в пику развития новых технологий, возникнет потребность в устройствах, которые могут предоставить миллионы петабайт свободного места для корпоративного использования, по цене, приближающейся к 0,001 доллара за гигабайт. Большая часть растущего спроса приходится на долгосрочное архивное хранение «холодных» данных, которые будут извлекаться лишь изредка (или никогда). Архивирование такой информации требует долгосрочной надёжности, низких первоначальных и эксплуатационных расходов. А поэтому, в ближайшей перспективе, стриммеры на магнитных лентах (ленточные накопители — tape drive streamer), вероятно, станут лучшим вариантом для заполнения этого пробела.
Но исследования продолжаются, и инженеры ведущих корпораций с этой целью изучают такие методы, как запись на неорганических плёнках или объёмная модификация плавленого кварца лазерными импульсами (кварцевые диски со структурой пятимерного носителя 5D, на которых информация может храниться миллионы лет). Однако гораздо более плотное долгосрочное хранение может быть потенциально достигнуто с помощью синтетических молекул ДНК, которые могут стабильно хранить информацию на протяжении столетий. Биологические инструменты для дешёвого считывания последовательностей ДНК уже значительно усовершенствовались. Совсем недавно исследователи адаптировали методы микроэлектроники для быстрого и недорогого кодирования информации в молекулах, хотя, надо признать, что эти методы всё ещё находятся на ранней стадии разработок.
Возвращение ленты
Центры обработки данных (ЦОД или дата-центры) являются основным драйвером спроса на хранение больших объёмов, как архивной, так и оперативной информации, а жёсткие диски на основе магнитных дисков являются ключом к его удовлетворению. Твердотельные накопители, построенные на принципе флэш-памяти, удобно расширяют эту ёмкость, но по более высокой цене за гигабайт. Такие технологии, как статическая, динамическая и магнитная память с произвольным доступом (SRAM, DRAM и MRAM), могут быть тесно интегрированы с вычислениями, но слишком дороги для использования в больших объёмах.
Однако большая часть возросшего спроса приходится на «холодные» данные, которые необходимо дёшево хранить неограниченный срок, так как 60% всей сферы данных не являются часто используемыми и не требуют быстрого доступа, что делает её пригодной для хранения на лентах. Плотность записи на ленте намного ниже, чем на жёстком диске, биты которого экспоненциально уменьшались с годами. Однако рост плотности записи на HDD резко замедлился примерно с 2009 года. Напротив, разработчики прогнозируют устойчивый быстрый рост плотности записи на ленте. Существуют технические проблемы с переходом на более высокую плотность такой записи, но это далеко не те физические ограничения, с которыми сталкиваются традиционные HDD, включая надёжность. Что ещё важнее, плотность записи в битах — это только часть истории, а одним из преимуществ ленты является то, что на одном картридже можно разместить большую ёмкость, поскольку лента по сути трёхмерна, поскольку наматывается слоями поверх себя, не умножая количество оборудования для чтения и записи. В течение следующего десятилетия, безусловно, директора по информационным технологиям будут вынуждены использовать ленточные стриммеры для архивации, потому, что жёсткие диски и твердотельные накопители слишком дороги и потребляют слишком много энергии.
Присматриваемся к оптическим накопителям.
Потребители, конечно, знакомы с другими технологиями массового хранения, такими, как оптические диски, которые предлагают множество (несовместимых) форматов. Однако их стоимость неконкурентоспособна с жёсткими дисками, не говоря уже о ленточных накопителях. Компании сейчас работают над альтернативными решениями для долговременной надёжной архивации данных. Разрабатывается перспективная оптическая технология Digital Optical Technology System (DOTS), придуманная компанией Kodak. Другие фирмы работают над коммерциализацией системы, которая использует мощные фемтосекундные лазеры для параллельной записи более миллиона битов на тонкий керамический слой. Хранение информации в голографических (оптических) системах даже десятилетия назад требовало огромных усилий и затрат. В принципе, это работает, но найти материалы, на которые можно записывать огромные объёмы данных с помощью маломощных лазеров, и которые не разрушаются со временем или при чтении, оказалось непросто. Тем не менее, даже сейчас одна из британских компаний стремится к коммерциализации технологии хранения данных в виде небольших голограмм, записанных на фотополимерных материалах, которые стабильны в широком диапазоне температур.
Прозрачные носители также обеспечивают увеличенный объем оптической памяти за счёт многослойной записи. Например, «Folio Photonics» представила оптические диски, состоящие из нескольких слоёв органических молекул, флуоресценция которых избирательно гасится за счёт нелинейного воздействия сфокусированных лазеров. А исследовательская лаборатория Microsoft в Кембридже, изучает возможность использования оптических накопителей с сотнями слоёв. В основе этого проекта тоже используются фемтосекундные лазеры, но уже более мощные, для изменения (на постоянной основе – без возможности перезаписи) локальной структуры в пластинах плавленого кварца, основываясь на пятимерном 5D считывателе.
«Улучшив основные показатели технологии (например, плотность, пропускную способность, энергоэффективность записи), мы смогли создать по-настоящему надёжное архивное хранилище», — написал в своём блоге Йован Стефанович, главный исследователь группы облачной инфраструктуры Microsoft Research Cambridge. «Мы предполагаем, что эта передовая технология станет основой центров обработки данных Azure», которые поддерживают облачные сервисы.
Хотя многослойность значительно увеличивает ёмкость, возможности оптических накопителей ограничены размерами, сопоставимыми с длиной волны оптического излучения. Например, компания IBM отказалась от оптических накопителей, как только магнитные жёсткие диски превысили предел оптической технологии.
Молекулярная технология.
Надёжное хранение цифровых данных в синтетической ДНК естественным образом вписывается в многоуровневую модель взаимодействия открытых систем и имеет много общего с современными способами существующих технологий и интерфейсов хранения. Использование синтетической ДНК в качестве носителя данных серьёзно рассматривается в качестве решения для архивного хранения из-за его потенциала объёмной плотности, характеристик хранения, устойчивости и потенциала для значительного снижения совокупной стоимости владения по сравнению с существующими технологиями.
Эти фундаментальные возможности позволяют кодировать цифровые данные в последовательность оснований (аденин, гуанин, цитозин и тимин, или AGCT), записывать эту последовательность как набор соответствующих молекул ДНК (синтез), хранить молекулы, подготавливать их для считывания (извлечение), считывать их обратно как последовательность оснований (секвенирование) и, наконец, декодировать исходную информацию.
Молекулярное хранение, особенно в последовательности генетической молекулы ДНК, могло бы повысить плотность на порядки величин. В 2012 году книга объёмом 5 мегабит была закодирована в ДНК и прочитана специалистами из Гарвардской медицинской школы и Института биологической инженерии в Бостоне. При адаптации биологических инструментов для синтеза и секвенирования ДНК их отмасштабировали для совершенно другого применения, чтобы промышленность была готова вкладывать последующие инвестиции и фактически работать над созданием этой новой отрасли, которая находится в процессе развития.
Действительно, Microsoft также изучает хранение ДНК в сотрудничестве с Вашингтонским университетом. В 2021 году команда продемонстрировала параллельный синтез миллиона коротких цепочек ДНК. «Мы ожидаем, что в будущем скорость записи превысит этот показатель», — сообщили исследователи этого IT-гиганта.
Операция чтения требует некоторого времени для начала из-за того, как долго идут этапы подготовки ДНК к чтению. Это создаёт высокую задержку чтения, ограничивая возможности этой технологии на данный момент только в качестве архивного хранилища. Но повышение скорости записи (синтез ДНК) была важнейшей целью на первом этапе проекта. Один из лидеров процесса синтеза («Twist Bioscience») создали устройство, способное записывать 100 миллионов олигомеров ДНК параллельно, чем значительно превзошли современный уровень пропускной способности записи для ДНК. На сегодняшний день существует более пятидесяти компаний, пытающихся создать совместимую симбиотическую экосистему. Для архивирования подходят биомолекулы, такие как ДНК, которые могут быть настолько невероятно стабильными в разумных условиях, что это по сути снимает многие проблемы. Учёные надеются, что эти системы будут работать по принципу записать и забыть — никогда не нужно будет делать проверки целостности или замены, в отличие от магнитных носителей, которые требуют проверки целостности каждые два года и замены носителей каждые пять лет.
Однако хранение ДНК кардинально отличается от других форматов, поскольку каждый свободно перемещаемый фрагмент должен нести адресную информацию. Кроме того, структура ДНК склонна к вставкам и удалениям, в дополнение к заменам (эквивалент битовых переворотов). Однако этот тип ошибок не является новым для теоретиков кодирования, поскольку такие ошибки распространены в современных компьютерных сетях. Величайшим фактором прогресса в области молекулярного хранения информации станет разработка алгоритмов вычислительной экспертизы. И уже в ближайшее десятилетие кто-нибудь может добиться колоссального прогресса в этой области.