Pulsar - wyjątkowy portal naukowy. Pulsar - wyjątkowy portal naukowy. AI / Shutterstock
Technologia

DNA: przechowalnia milionów terabajtów

Na czym właściwie polega magazynowanie danych w DNA? Czy nie jest tylko futurystyczną mrzonką? A przede wszystkim: czy taka technologia jest nam w ogóle potrzebna?

Obserwuj nas. Pulsar na Facebooku:

www.facebook.com/projektpulsar

Badacze z University of Washington we współpracy z firmami Microsoft oraz Ansa Biotechnologies przekonują, że wykonali istotny krok naprzód w eksperymentach nad syntetyzowaniem DNA. Ich wyniki są nadal w trakcie analizy, ale Rob Carlson w magazynie IEEE Spectrum daje wyraz przekonaniu, że badania jego zespołu mogą przyczynić się do rozwoju technologii magazynowania danych w materiale genetycznym. Dlaczego powinno to nas interesować?

Cyfryzacja świata postępuje, produkujemy, przetwarzamy i magazynujemy coraz więcej danych. Jak szacuje serwis Statista, dziennie do internetu uploadujemy ponad 300 eksabajtów (czyli 300 milionów terabajtów!) danych. Z kolei International Data Corporation przewiduje, że całkowita pojemność danych cyfrowych do 2025 r. osiągnie 175 zettabajtów (175 miliardów terabajtów).

Zapis cyfrowy jest, niestety, nietrwały oraz podatny na manipulacje. Dyski danych działają dzięki układom maleńkich tranzystorów, które są wrażliwe na przegrzanie oraz różne uszkodzenia mechaniczne. Szacuje się, że na nowoczesnych dyskach komputerowych dane mogą przetrwać do 10 lat. Paradoksalnie jednym z najlepszych nośników danych pozostaje papier, który odpowiednio przechowywany przetrwa całe stulecia. Niestety, zaledwie kilka petabajtów (tysiąc terabajtów) danych na papierze wypełniłoby wszystkie biblioteki uniwersyteckie Stanów Zjednoczonych. Ilość papieru potrzebna do zmagazynowania choć 1 zettabajta jest trudna do wyobrażenia.

Sięgnij do źródeł

Data Storage Using DNA

Dlatego szuka się nowego, mało gabarytowego i długowiecznego sposobu zapisu danych. I tu właśnie pojawia się DNA – nośnik, z którego da się odczytać informacje nawet po tysiącleciach.

Potencjał jest, są też możliwości

Idea magazynowania informacji w DNA jest żywa wśród twórców SF oraz naukowców od dekad. DNA, czyli kwas deoksyrybonukleinowy, to doskonały produkt matki natury służący dosłownie do przechowywania, kopiowania i ciągłego aktualizowania danych. Jego pojemność jest wręcz olbrzymia. W każdej komórce ludzkiego ciała znajduje się 46 chromosomów zbudowanych z poskręcanych i pozwijanych cząsteczek DNA o strukturze podwójnej helisy, złożonych z sekwencji nukleotydów. Gdyby połączyć wszystkie cząsteczki z jednej tylko komórki w 1 helisę, uzyskalibyśmy włókno o średnicy ok. 2 nm i długości ponad 2 metrów! W tych 2 metrach zapisanych jest ponad 3 mld liter kodu genetycznego, odpowiadających sekwencji zasad azotowych w nukleotydach (A, T, C lub G). Przekładając to na dane cyfrowe, 1 g DNA to dość materiału, by zakodować prawie 20 milionów terabajtów. Wspomniane 175 zettabajtów bylibyśmy w stanie zapisać na 10 kg materiału DNA.

Czy za pomocą DNA, które powstało, by kodować instrukcję budowy białka, da się zapisać książkę, symfonię lub film? Teoretycznie tak. Idea jest bardzo prosta. Przyjmijmy, że każdy z 4 nukleotydów jest równy 2 bitom, np.: A będzie odpowiadać sekwencji bitów 00; T to będzie 11; C to 01, a G to 10. Idąc tym tropem, możemy łatwo przetłumaczyć dowolny pakiet danych cyfrowych na sekwencję nukleotydów. Później trzeba to oczywiście zapisać, czyli zbudować cząsteczkę DNA. Istnieją metody syntezowania łańcuchów DNA z użyciem terminalnej transferazy nukleotydowej (TdT) – enzymu, który przyłączony do cząsteczki DNA ułatwia dobudowanie do niej nowego nukleotydu. Procedura ta polega na dostarczaniu na przemian enzymu TdT oraz pożądanego nukleotydu, i tak w kółko, aż do zbudowania docelowej sekwencji. Gotowy łańcuch można powielić dobrze znaną reakcją PCR i tak uzyskujemy kilka kopii naszego pakietu danych. Gotowy materiał genetyczny można przechowywać w zamrażarce lub – bezpieczniejsza opcja – w formie odwodnionego proszku.

Lata mijają, a teorią wciąż wyprzedza rzeczywistość

No dobrze, a więc mamy np. całą Bibliotekę Narodową zapisaną w postaci łańcuchów DNA. Co, jeśli chcemy teraz sięgnąć konkretnie po „Pana Tadeusza” albo „Lalkę”? Otóż zakodowane w DNA pakiety danych można wyłapywać, używając starterów, czyli unikatowych, krótkich sekwencji DNA. W technice PCR takie startery służą do identyfikacji cząsteczki DNA, którą chce się powielić, więc da się też ich użyć do znajdywania informacji w bibliotece. Już 6 lat temu udowodniono, że za pomocą tej metody można bezbłędnie nawigować pośród 35 plików zakodowanych w DNA. Kiedy już właściwy plik zostanie odnaleziony, to wystarczy przeprowadzić sekwencjonowanie DNA, aby odczytać sekwencję nukleotydów, następnie przetłumaczyć je na kod binarny i wreszcie odzyskać cyfrowy plik.

Jak więc widać, idea zapisu danych w DNA jest całkiem nieźle przemyślana. Niestety: to, co w teorii brzmi prosto, w praktyce nadal jest bardzo skomplikowane. Algorytmy, które mają kodować genetyczny zapis, nadal nie są dość sprawne i szybkie. Inny problem to wydajność zapisu danych. Im dłuższe są cząsteczki DNA, tym ich podatność na błędy większa. W krótszych da się jednak zapisać mniej informacji, więc wymagają one dokładniejszego indeksowania oraz większej liczby cząsteczek na 1 pakiet danych. Korzystając z dostępnych dziś technik, można syntezować miliony cząsteczek DNA na dobę, ale w celu zapisu kilku terabajtów danych potrzeba dziesiątek miliardów cząsteczek. To wszystko przekłada się na koszty – cena zmagazynowania 1 TB informacji w DNA może sięgnąć setek milionów dolarów. Samo sekwencjonowanie również nie jest tanie – kosztuje setki dolarów.

Wspomniany we wstępie eksperyment Carlsona polegał właśnie na opracowaniu nowej, elektrochemicznej metody syntezy DNA – szybszej i bardziej pewnej niż wcześniejsze metody enzymatyczne. Zespół sugeruje, że docelowo należałoby zbudować układ elektroniczny, który najpierw będzie przetwarzał kod binarny na sygnały elektrochemiczne. Na nie reagowałyby odpowiednie enzymy, podstawiając odpowiedni nukleotyd. W ten sposób zapis informacji w DNA byłby zautomatyzowany.

Propozycje nowych rozwiązań i nowe komplikacje

W ostatnich latach nanotechnolodzy z Cavendish Labaratory w Cambridge zaproponowali podejście alternatywne: kodowanie informacji na nici DNA w postaci biomolekuł, które będą dawały odpowiedni sygnał elektryczny, odczytywany jako kod binarny. Jest to technika w założeniu prostsza niż zapis oparty na nukleotydach, ale rozwija się dopiero od paru lat i jak na razie jej efektywność jest bardzo niska.

Trudno powiedzieć, czy wizja zapisu informacji w DNA się kiedyś ziści. Wydaje się, że skoro jest to teoretycznie możliwe i jedynym ograniczeniem jest technologia, to jest jedynie kwestią czasu, by zoptymalizować i zautomatyzować całą procedurę. Lata jednak mijają i nie widać na tym polu znaczącego postępu. Pojawiają się za to zupełnie nowe propozycje, w których tamte ograniczenia nie obowiązują, ale za to niosą własne problemy. Podobny schemat dotyczy niestety wielu współczesnych przedsięwzięć naukowych. Pewne projekty, choć przyświeca im inspirująca wizja, wymagają tak dużych kosztów i są tak niepewne, że dopóki nie pojawi się jakiś istotny przełom, muszą tkwić w szufladzie z napisem z etykietką „eksperyment w toku”.

Ta strona do poprawnego działania wymaga włączenia mechanizmu "ciasteczek" w przeglądarce.

Powrót na stronę główną