- Gostota DNK omogoča do 455 eksabajtov na gram, njeno ohranjanje, enkapsulirano v silicijevem dioksidu in v hladnem skladiščenju, pa doseže milijone let.
- Binarno kodiranje v A/C/G/T z Reed-Solomonovo korekcijo omogoča natančno shranjevanje in pridobivanje podatkov s toleranco napak.
- Poskusi (EBI, ETH Zurich, Microsoft+UW) in prototipi, kot je na primer DNK-»trak«, prikazujejo avtomatizacijo in delovanje, podobno trdemu disku.
- Stroški so še vedno visoki, vendar z genomiko padajo; DNK si prizadeva za obsežno in trajnostno arhiviranje kljub omejitvam podatkovnih centrov.
Digitalni svet nenehno raste in čeprav govorimo o "oblaku", ta oblak živi na trdnih tleh, znotraj gigantskih podatkovnih centrov. Ogromna skladišča z neskončnimi hodniki, vrstami strežnikov in ogromnimi računi za elektriko zdaj shranjujejo naše fotografije, videoposnetke, e-pošto in znanstvene podatke. V tem scenariju pridobiva na veljavi ideja: uporaba DNK kot medija za informacije, drobne molekule z ... gostota shranjevanje presenetljivo.
Obljuba je mogočna: kodirajte bite v zaporedja A, C, G in T, da shranite vse od zgodovinskega dokumenta do video datoteke, in to storite stabilno stoletja ali celo desetletja. več kot milijon let Če je dobro ohranjena. Dejstvo, ki buri domišljijo, je dobro znano: teoretično bi lahko en sam gram DNK shranil do 455 eksebajtov podatkov (455.000 milijard GB), kar je številka, ki presega trenutne trde diske in silicijeve pomnilnike.
Kaj je shranjevanje DNK in zakaj je pomembno
DNK je navodilo za življenje, njen jezik pa je napisan s štirimi "črkami": adeninom (A), citozinom (C), gvaninom (G) in timinom (T). Za računalniške namene lahko ničle in enice prevedemo v kombinacije teh baz, da ustvarimo sintetično zaporedje, ki ob branju prikliče izvirno datoteko. Ta prevod se je izkazal za izvedljivega od leta 2012, ko je bila vsebina megabajta uspešno kodirana in prebrana, kar je odprlo vrata do ... nova paradigma digitalnega arhiviranja.
Osnovni razlog je gostota: z združevanjem informacij v molekule se potreben fizični prostor zmanjša. V številkah govorimo o tistih 455 eksabajtov na gramDa bi razumeli brez kalkulatorja: majhna epruveta bi lahko vsebovala vse. Wikipedia skupaj z Facebook in če razširimo obseg, bi znanje naše civilizacije zasedlo le nekaj kubičnih metrov, kar nima nobene zveze s tisoči kvadratnih metrov podatkovnih centrov.
Ta vizija ni le estetska. V praksi DNK ne potrebuje elektrike, da bi ostala berljiva: v hladnih, suhih in temnih pogojih se podatki ohranijo. To vemo iz molekularne arheologije, ki nam omogoča branje genskega materiala iz ostankov, starih več sto tisoč let. Zaradi tega vedenja je DNK idealen kandidat za zelo dolgoročno arhiviranje.
Zmogljivost, primerjave in izziv današnjih podatkovnih centrov
Podatkovni centri so "katedrale bitov". Po vsem svetu jih je več kot 2.000, vsak pa v povprečju zaseda približno 5 hektarjev (50.000 m²). Če primerjamo ta odtis s kompaktnostjo DNK, je vpliv očiten. Ne gre samo za zemljišče in stavbo: hlajenje in poraba energije sta prav tako ogromna, okoljski odtis povezano ni manjše.
Vzporedno se podatki močno povečajo. google dnevno obdela približno 4.650 milijarde iskanj; YouTube si dnevno ogleda skoraj 4.700 milijarde videoposnetkov; Facebook prejme več kot 350 milijonov fotografij vsakih 24 ur; Twitter pa pošlje približno 600 milijonov tvitov. Globalne napovedi kažejo, da bo do leta 2025 približno 463 eksabajtov podatkov vsak dan, pri čemer se velik del človeštva še ni povezal z internetom. To ni majhen podvig.
Ta plaz obremenjuje trenutne tehnologije ravno v trenutku, ko se približujejo fizičnim mejam. Izkušnje podjetja Backblaze, ki spremlja 25.000 trdih diskov v uporabi, ponujajo namige: po štirih letih skoraj 22 % enot kažejo obrabo ali okvaro. Nekatere zdržijo več kot desetletje, druge pa zelo hitro odpovedo. Zaključek je preprost: strojna oprema Konvencionalno ni večno in nenehna zamenjava ima ekonomske in operativne stroške.
DNK kot spomin pa del problema preusmeri na kemijsko in ohranjevalno raven. Z stabilnim medijem in brez potrebe po energiji, ki bi »ohranjala« informacije pri življenju, bi lahko globoki arhiv – tisti, ki ga pregledujemo zelo občasno, a mora vztrajati – spremenil svojo paradigmo in sprosti pritisk na velikanskih infrastrukturah.
Kako kodirati, ohraniti in popraviti napake
Kodiranje podatkov v DNK je sestavljeno iz prevajanja bitov v baze. Preprosta shema preslika A in C v "0" ter G in T v "1". To preslikavanje zapiše kratke fragmente, ki ob združitvi rekonstruirajo katero koli digitalno datoteko. Za povečanje robustnosti se uporabljajo kode za popravljanje napak. Reed-Solomon, ki dodajajo inteligentno redundanco: če so nekateri deli poškodovani, lahko sistem obnovi prvotne informacije.
Velik preskok v vzdržljivosti je naredila ekipa ETH Zurich, ki sta jo vodila Robert Grass in Reinhard Heckel. Navdihnjeni s tem, kako se DNK ohranja v fosilih, so molekule DNK zaprli v silicijeve (steklene) krogliceZakaj steklo? Ker je kemično inerten material in ščiti pred elementi, ki najbolj razgrajujejo DNK: predvsem vodo in kisikom.
Da bi pospešili »časovnico«, so enkapsulirano DNK izpostavili temperaturam 60, 65 in 70 °C, kar je simuliralo desetletja ali stoletja propadanja v nekaj tednih. Stabilnost DNK v steklu je bila izjemna. Z ekstrapolacijo in shranjevanjem pri -18 °C bi se informacije lahko ohranile za več kot milijon let, številka, ki spreminja miselni okvir tega, kar razumemo pod pojmom trajen arhiv.
Kontrast z epruveto, izpostavljeno odprtemu zraku, je presenetljiv: DNK preživi le dve ali tri leta, preden postane neberljiva. Z zaprtjem v steklu in shranjevanjem v hladnem, suhem in temnem okolju se njena stopnja preživetja pomnoži. Poleg tega tehnologija sol-gel olajša ustvarjanje te steklene "lupine" okoli molekul, kar olajša postopek. tehnično dostopno iz laboratorija.
Poskusi in rezultati: od EBI in ETH Zürich do Microsofta in UW
Dokazi se kar kopičijo. Leta 2012 je bila vsebina DNK uspešno kodirana in prebrana, kmalu zatem pa je Evropski bioinformatični inštitut (EBI) v Angliji idejo razvil še dlje: shranil je besedilo, slike in zvok – vključno s Shakespearovimi soneti, odlomki iz govora Martina Luthra Kinga »I have a dream«, sliko samega inštituta in prelomnim člankom o dvojni vijačnici – nato pa pridobil informacije z 100% natančnost.
Njihova metodologija je združevala prekrivajoče se fragmente, indekse položajev in redundanco, da bi zagotovila rekonstrukcijo, tudi če so bile nekatere kopije poškodovane. Skupna prostornina je bila približno 760 KB, ekvivalentna DNK pa je bila manjša od delca prahu. Na ravni biološke varnosti so pojasnili, da ta sintetična DNK uporablja drugačno "kodo" in je ni mogoče po nesreči vključiti v genom živega organizma; če vstopi v telo, ... bi razgradil in odstranil brez funkcionalnega prostora.
Harvard je idejo preizkusil tudi s knjigo z več kot 53.000 besedami in 11 slikami, pri čemer je na steklenem čipu sintetiziral na tisoče kratkih fragmentov, ki so jih nato prebrali s standardnimi tehnikami sekvenciranja, enakimi tistimi, ki jih uporabljamo za preučevanje starodavnih genomov ali arheoloških vzorcev. To je okrepilo idejo, da je mogoče "molekularno knjižnico" pregledati s široko dostopno opremo. molekularna biologija.
Po vrnitvi na ETH Zürich sta Grass in njegova ekipa dva zgodovinska dokumenta (skupaj približno 83 KB, vključno s Švicarskim zveznim paktom iz leta 1291 in odlomki iz Arhimedovega palimpsesta) podvrgla toplotnim obremenitvam. Po tednu dni pri 60–70 °C so bila besedila še vedno berljiva. Njihovi izračuni so pokazali, da je obstojnost pri 10 °C približno 2.000 let, pri shranjevanju pri -18 °C pa se lahko podaljša na milijone let. Stroški so bili takrat visoki – približno od 1.350 do 2.000 dolarjev na dokument. samo 83 KB— vendar so trendi stroškov v genomiki ugodni.
Dokaz za to je dramatičen padec stroškov sekvenciranja človeškega genoma: z nekaj milijonov let nazaj na le nekaj sto let danes. V skladu s tem so raziskovalci iz Microsofta in Univerze v Washingtonu zgradili prvo napravo, ki avtomatizira celoten proces shranjevanja in branja DNK. Z njo so kodirali besedo »hello« in jo pridobili, kar je inženirski podvig, ki je – čeprav je trajal približno 21 ur za 5 bajtov– kaže, da avtomatizacija že poteka.
Prototipi, ki gledajo v prihodnost: od kasetnega traku DNK do industrije
Nedavni predlog, ki ga je v reviji Science Advances objavila ekipa z Južne univerze za znanost in tehnologijo, oživlja zelo znano obliko: »kasetni trak«. Njihova naprava združuje najlonsko in poliestrsko membrano z vzorci črtnih kod Lasersko natisnjeno. Bela območja vsebujejo predelke za shranjevanje sintetične DNK s kodiranimi datotekami; črne črte delujejo kot hidrofobne ovire, ki preprečujejo mešanje.
Vsaka particija ima edinstven "naslov", ki omogoča operacije DMRM (mnogi proti mnogim, mnogi proti mnogim). To pomeni, da lahko shranimo več datotek, jih pridobimo, izbrišemo in prepišemo na isto območje, s čimer posnemamo vedenje ... trdi disk vendar na molekularnem nosilcu. V številkah lahko 1.000-metrska kaseta sprejme več kot 500.000 particij in doseže do 362 petabajtov na kilometer, kar je po mnenju avtorjev dovolj za shranjevanje nekajkrat več vsebine YouTuba v velikosti, manjši od romana v mehki vezavi.
Ta linija obstaja sočasno z drugimi pobudami. Microsoft dela tudi na projektu Silica, ki raziskuje kremen kot arhivski medij: laserji trajno spremenijo kristalno strukturo, nato pa algoritmi strojnega učenja preberejo te oznake. To ni DNK, vendar ponazarja iskanje medijev. ultra stabilen in kompakten za arhiviranje.
Tudi biotehnološka industrija si prizadeva. Catalog, zagonsko podjetje iz Bostona, je razvilo sistem za prerazporejanje vnaprej pripravljenih blokov DNK in zapisovanje podatkov, ne da bi jih bilo treba sintetizirati od začetka, na poti do tega, kar imenujejo prvi "stroj", ki uporablja DNK, kot da bi bil fizični operacijski sistemV San Diegu Iridia združuje DNK in nanotehnologijo za izdelavo pogonov, ki lahko delujejo vzporedno, kar je seme »živega trdega diska«.
Iz javnega sektorja IARPA – ameriška agencija za napredne obveščevalne raziskovalne projekte – promovira program MIST, katerega cilj je zapisati terabajt DNK na dan in ga prebrati z desetkrat večjo hitrostjo. »Želimo zamenjati trenutne trde diske z gostejšimi, varnejšimi in odpornejšimi molekularnimi mediji,« pojasnjujejo, v skladu z idejo, da silicij dosega svojo fizične omejitve.
Primerjave gostote zagotavljajo kontekst: trdi disk ima približno 10^9 bitov na kubični centimeter, medtem ko DNK doseže 10^18. Ni čudno, da nekatera poročila – kot je tisto iz Inštituta Potomac za politične študije – govorijo o tem, kako bi se vse digitalno na planetu lahko prilegalo približno enemu kilogramu DNK. To se morda sliši veličastno, vendar je fizična (in biološka) osnova trdna, hladno in suho shranjevanje pa ponuja začasna okna ki daleč prekašajo običajne magnetne in optične tehnologije.
Vprašanje, ki se skriva za doseganjem stabilnosti in gostote, je: kaj shranimo? Za Roberta Grassa bi se moral osredotočiti na izbiro »resnično pomembnih« informacij, ki si zaslužijo nevtralno arhiviranje za prihodnost. Tako kot je naša vizija srednjega veka odvisna od tega, kaj se je ohranilo, bo zvesta fotografija našega časa zahtevala merila, kuriranje in odprti standardi kar bo čez stoletja olajšalo branje.
Izzivi ostajajo: danes sta sinteza in sekvenciranje v velikem obsegu draga in relativno počasna. Vendar pa krivulja stroškov v genomiki trmasto pada, avtomatizacija pa že kaže na tehnično izvedljivost. Algoritmi za lektoriranje, formati ciljanja in arhitekture, kot je »molekularna kaseta«, kažejo na sisteme, ki to omogočajo. pisanje in brisanje bolj praktično.
Kot da ne bi bilo dovolj dokazov, da je DNK trajen medij, paleogenetika še naprej prinaša rekorde: sekvencirali so DNK polarnega medveda, starega približno 110.000 let, konja, starega približno 700.000 let, v Sima de los Huesos (Španija) pa so odkrili 400.000 let staro človeško mitohondrijsko DNK. Čeprav so pogoji pomembni – mraz pomaga – primeri v relativno zmernih jamah širijo zemljevid kraljevsko ohranjanje.
Manj glamurozna, a ključna plat pa je tista vsakdanje kemije: voda in kisik sta največja sovražnika. Zato njuno zapiranje v steklo in shranjevanje v hladnih komorah zmanjšuje reakcije in prekinitve verig. V laboratorijskem merilu je ustvarjanje silicijevih kroglic z uporabo sol-gel tehnik poenostavilo postopek, poskusi s toplotnim stresom pa kažejo, da propadanje sledi vzorcem. predvidljivo, primerljivo s tistimi, ki jih opazimo v fosilih.
Za lažjo predstavo se je vredno spomniti razlike v velikosti in stroških: testni komplet z dokumenti velikosti 83 KB je pred nekaj leti stal približno 1.350 evrov/2.000 dolarjev. Drago je, če pomislimo na terabajte in petabajte, toda ne tako dolgo nazaj je sekvenciranje človeškega genoma stalo milijone, danes pa stane okoli stotin. Če se bo ta trend nadaljeval, bo DNK iz eksperimentalnega medija postala konkurenčen. množično arhiviranje in »hladne« varnostne kopije.
Združitev biologije in tehnologije ni več znanstvena fantastika. Od črtno kodiranih "trakov" DNK do molekularnih knjižnic, ki ne potrebujejo elektrike, in alternativ, kot je kremenčev kristal, se je začela tekma za trpežen in kompakten medij. Če se zdi ena stvar jasna, je to, da se DNK – s svojo nemogočo gostoto in poslanstvom preživetja – pojavlja kot glavni kandidat za shranjevanje digitalnega spomina naše vrste na veličasten način z ... časovna robustnost česar noben trenutni album ne more obljubiti.
Strasten pisec o svetu bajtov in tehnologije nasploh. Rad delim svoje znanje s pisanjem in to je tisto, kar bom počel v tem blogu, saj vam bom pokazal vse najbolj zanimive stvari o pripomočkih, programski opremi, strojni opremi, tehnoloških trendih in še več. Moj cilj je, da vam pomagam krmariti po digitalnem svetu na preprost in zabaven način.