科普園地

聯係AG亚游集团/Contact us

  • 銷售部:
  • 電話:022-83726542-802
  • 郵件:sales@dushizhengke.com
  • 技術支持:
  • 電話:022-83726776-810
  • 郵件:techmgr@dushizhengke.com

當前位置:首頁 > 科普園地

DNA如何存儲大數據?
發布時間:2016-12-09 15:07:12 點擊瀏覽:

海量數據的存儲讓科學家們頭疼不已,但大自然卻以一種意想不到的方式巧妙解決了這個問題。

對Nick Goldman來說,用DNA編碼數據的想法一開始隻是個玩笑。

2011年2月16日,星期三,Goldman在德國的一家酒店與一些生物信息學家討論海量的基因組以及其它數據的存儲問題。當時,科學家們對傳統計算技術的成本和局限性感到沮喪,他們開玩笑地提起了一些科幻式的替代方案。現任歐洲生物信息研究所(European Bioinformatics Institute, EBI)組長的Goldman表示,他們想,是什麽東西阻止了AG亚游集团用DNA來儲數據呢?

笑聲戛然而止。Goldman指出,這就是靈感閃現的瞬間。跟讀取速度在毫秒級的矽芯片相比,DNA讀取和寫入的速度太慢——編碼數據需要幾個小時,用測序儀器讀取又需要好幾個小時。但DNA的突出優點是,人類基因組這麽多數據,都能存儲在肉眼不可見的小細胞裏。從信息存儲的密度上來講,DNA完勝矽芯片,尤其適合做長期歸檔。

據Goldman回憶,他們用圓珠筆在餐巾紙上做筆記,認真考慮DNA存儲技術會遇到的問題。研究人員最擔心的是,DNA合成和測序的錯誤很高,每100個核苷酸中就可能有1個出錯。這對大規模數據存儲來說極其不可靠——除非能找到可行的錯誤校正方案。能不能用堿基對來編碼數據,同時找到校正錯誤的方法?Goldman表示,經過一個晚上的討論,他們認為這是可行的。

Goldman和他在EBI的同事Ewan Birney開始在實驗室中實施這個想法,兩年後他們宣布成功使用DNA編碼五個文件,包括Shakespeare的十四行詩(sonnet)和Martin Luther King的“我有一個夢想(I have a dream)”演講中的一段。當時,哈佛大學(Harvard University)的生物學家George Church等人已發表文章,使用DNA 編碼數據。但Goldman編碼的文件大小達到739個堿基(kB),是一段時間裏DNA編碼的最大文件。直到2016年7月,微軟和華盛頓大學(University of Washington)取得了突破性的進步,成功編碼了長達200兆字節(MB)的數據。

最新的實驗表明,基因組學以外的其它領域也對DNA存儲深感興趣:全世界都麵臨著數據過載問題。從天文圖片到雜誌文章,再到YouTube視頻,2020年全球數字檔案館的存儲量將達到44千兆字節(GB),相比於2013年,增加了10倍。到2040年,如果即時訪問的東西都存儲下來的話,預期數據量將會是閃存芯片中內存條容量的10到100倍。

這就是為什麽很少人訪問的永久檔案會以老式的磁帶方式存儲。磁帶的信息密度遠高於矽芯片,但讀取速度也相對慢很多。然而,美國高級情報研究計劃局(IARPA)的David Markowitz指出,磁帶存儲方法是不可持續的。他說,建立一個擁有10億GB的數據中心是可行的。但這樣的一個中心的建設和維護需要10年以上的努力,花費10億美元,以及數百兆瓦的電力。“分子數據存儲則不需要這麽複雜的設施,同時可將成本降低千百倍。”如果信息存儲的密度可以像大腸杆菌的基因一樣密集,那麽全世界的數據都隻需要一千克DNA。

實現這個目標十分困難,科學家們需要克服一係列障礙:如何可靠地使用DNA編碼信息?如何隻檢索用戶所需要的信息?如何降低核酸成本,加快合成速度?

但是,科學家們也在加快研究的步伐。由一個芯片製造公司組成的財團支持的Semiconductor Research Corporation(SRC)公司就支持DNA存儲的研發工作。Goldman和Birney拿到了英國政府撥款,用於研發下一代DNA存儲方法,並計劃成立一個公司專門從事詞類研究。今年4月,IARPA和SRC舉辦了一場學術界和產業界研究者的研討會,指導DNA存儲研發。

SRC主任和首席科學家Victor Zhirnov指出,十年來,他們一直在尋找矽芯片以外的存儲方式。矽芯片很難替代。但是,DNA——最強的候選人之一,“看起來有可能做到”。


長期內存

1988年,與哈佛大學(Harvard University)的研究者合作時,藝術家Joe Davis首次把0和1的電子數據和DNA的四個堿基一一對應。他們插入到大腸杆菌(E.coli)基因中的DNA序列,僅編碼了35字節的數據。他們把5×7像素、古日耳曼代表著生命和女性的符文的圖片編碼到DNA中。原圖片中,暗像素點對應的是1,亮像素點對應0。

今天,Davis隸屬於Church實驗室。Church實驗室從2011年開始研究DNA數據存儲。這個研究小組希望能降低合成DNA的成本,就像基因組學降低了測序的成本一樣。2011年11月,Church、加州大學(University of California)的Sri Kosuri以及約翰霍普金斯大學(Johns Hopkins University)的遺傳學家Yuan Gao開始進行概念證明實驗。研究小組使用許多短的DNA序列,編碼了長為659 kb的Church合著的一本書中的一段。每個序列中有一段標明的是序列片段的順序。二進製的0可以用腺嘌呤或胞嘧啶編碼,二進製的1可用鳥嘌呤胸腺嘧啶表示。這種靈活性有助於避免設計序列的閱讀問題——在包含大量含鳥嘌呤和胞嘧啶,或重複序列,或與另一端序列粘附在一起的區域都容易出現閱讀問題。從嚴格意義上來講,Davis 等人並沒有錯誤校正,而是依賴於每個序列都有多條重複來進行校驗。測序後Church等人發現了22個錯誤。這對於可靠的數據存儲是遠遠不及格的。

與此同時,在EBI,Godman等人也使用DNA序列來編碼739-kB的數據,包括圖像、ASCII文本、音頻文件和Watson、Crick的DNA雙螺旋結構的PDF版本。為了避免重複堿基和其它誤差源,EBI團隊使用了一種更複雜的方案(圖:製造DNA內存)。他們的方法並不使用二進製的0和1,而是使用0、1和2進行編碼數據。他們讓堿基輪流代表0、1和2,從而避免讀取時遇到問題。他們把序列分割成25個堿基為單位的片段,以便於查錯和相互比較。

即便如此,合成出來的序列中還是有2個25個堿基段的丟失。巧合的是,丟失的恰恰是Watson和Crick的文件部分。然而,這些結果堅定了Godman的信念:DNA具有成為耗能低、廉價和長期數據存儲手段的潛力。至於DNA存儲期的長度,他指出,2013年科學家們解析了封存在凍土裏、70萬年前的馬骨頭的DNA。在數據中心,沒人相信放了3年的硬盤的可靠性。磁帶放了10年,也不再可靠。一旦可以用DNA編碼數據,你可以用DNA來做安全備份,然後把DNA放在洞裏。想用的時候,再拿出來。


DNA如何儲存大數據?


新興領域

2013年,華盛頓大學(University of Washington)的計算機科學家Luis Ceze和微軟研發中心(Microsoft Research)的Karin Strauss聽了Goldman的研究報告之後,對DNA數據存儲非常感興趣。Strauss指出,DNA的高密度、穩定性和成熟度讓他們很興奮。

Strauss還指出,一回到華盛頓,她和Ceze就開始和華盛頓大學(University of Washington)的Georg Seelig合作進行這方麵的研發。他們關注的是另一個DNA存儲的主要缺點——一個比易出錯更大的問題。使用標準測序方法,檢索任何一個數據,需要檢測所有數據:每一段DNA序列都必須被讀取。這將比傳統的計算機內存更麻煩,因為傳統的計算機內存允許隨機存取:隻讀取用戶需要的數據。

4月初,該小組在亞特蘭大格魯吉亞舉行的一個會議上給出了解決方案。研究人員開始從DNA檔案庫中提取微小樣本。然後他們就用聚合酶鏈反應(PCR)把目標序列複製多份拷貝。序列複製讓測序速度更快、成本更低,而且比之前的方法更準確。該小組還設計了一個替代的糾錯方案,該方案會讓EBI數據編碼的密度增加一倍,而且還能保證可靠性。

作為示範,微軟—華盛頓大學的研究人員存儲了151 kB的圖像(其中一些使用EBI編碼方法,一些使用新方法)。他們使用EBI方法讀取了三個圖像——貓、悉尼歌劇院和卡通猴,結果出現了一個需要手動修改的讀取錯誤。他們使用新方法讀取了悉尼歌劇院圖像,沒有出現任何錯誤。


經濟學vs化學

伊利諾伊大學(University of Illinois)烏爾瓦納–香檳分校的計算機科學家Olgica Milenkovic等人已經開發了一種隨機訪問的方法,讓他們能重寫數據。這種方法以長段DNA序列來存儲數據,序列的兩端都有地址序列。研究人員采用PCR或CRISPR-Cas9技術,根據這些地址選擇、擴增和使用序列。

地址序列需要避免妨礙閱讀的序列,還需要與其它地址序列有足夠大的差別,以防止出現混淆。另外一方麵,研究人員還需避免分子折疊問題,因為如果序列能相互識別,那麽兩條序列就會結合在一起。Milenkovic指出,起初,他們用計算機來設計這些序列,因為要符合所有這些要求非常困難。她的團隊現在使用數學公式取代了這個勞動密集型的過程,大大縮短了設計編碼方案的時間。

Kosuri則表示,DNA數據存儲的其它挑戰包括尺度和序列合成速度。這也是他對DNA存儲並不樂觀的理由。據他回憶,在哈佛大學(Harvard University)早期實驗時,他們隻能編碼700 kB的數據。即使DNA編碼的數據增加1000倍,也才700 MB,也就是一張CD的容量。如果要解決現在的數據過載問題,至少需要拍字節(PB)的容量。Kosuri認為,這不是不可能的,但要知道,存儲量增加了上百萬倍。

Markowitz也同意,這不是一件容易的事。他指出,目前主流的合成方法是30多年來的老方法,即添加一個堿基需要400秒。如果繼續使用這種方法,必須同時合成數十億條序列,才能達到數據存儲的速度。目前最多能同時合成幾萬條序列。

一個密切相關的因素是DNA合成的成本。EBI開展的DNA編碼實驗花費了12,660美元,其中98%的費用花在了DNA合成上。測序費用隻占2%,這還要感謝2003年人類基因組計劃的完成,測序成本降低了200萬倍。盡管有這樣的先例,Kosuri並不相信,DNA合成也能出現這樣的成本陡降。他指出,70億人的測序市場大大激發了研究者們的熱情,但目前還沒有70億人的全基因組市場。但他承認,Church等人6月提出的人類基因組編寫計劃(Human Genome Project-Write, HGP-write)可能導致DNA合成成本的降低。如果得到資助,該計劃將合成人類全基因組:包含32億個核苷酸的23個染色體對。但Kosuri表示,即使HGP-wirte項目成功,人類基因組隻包含0.75 GB的信息,與實際的數據存儲挑戰完全不能相比。

然而,Zhirnov非常樂觀。他認為,綜合成本可以比現在低幾個數量級。現在DNA合成成本高得離譜。

4月,微軟研究中心從Twiste Biosesciences公司(一家從事DNA合成的初創公司)訂購了1000萬條序列。這一舉動可能會大大鼓勵DNA合成市場。Strauss等人指出,他們一直在使用序列來推動隨機存取存儲方法步入0.2 GB時代。細節仍未公布,但據說,檔案包括超過100種語言的人權宣言(Declaration of Human Rights)、古登堡計劃(Project Guttenberg)的前100本書和一個種子庫。盡管這相對於HGP-write小很多,但比現在的存儲容量提升了250倍。

她指出,是時候提高AG亚游集团處理大量DNA的能力了,看看能取得哪些突破。事實上,他們現在就已經突破了很多問題了。

Godman有信心,他認為這還隻是冰山一角。Godman表示,他們的估計是需要100,000倍的改進,但他們認為這是可能的。雖然過去的技術進步並不能保證未來,但每年或每兩年就會有新的讀取技術出現。在基因組學,6個數量級並不是什麽大問題。AG亚游集团需要做的隻是等待。


原文檢索:
Andy Extance. (2016) How DNA could store all the world’s data.Nature, 537(1038):22-24.
張潔/編譯

說明:圖文均轉自《生命奧秘》。