Amazon的云計算機構Amazon Web Services(AWS)將存儲美國國家衛(wèi)生研究院(NIH)的“千人基因組計劃”—一項對1700人的遺傳信息的調查,數(shù)據(jù)大小為200TB—的全部內容,并向公眾開放。任何人都可以免費訪問這些信息,且不對因此而產(chǎn)生的任何研究成果要求共享。
據(jù)外媒報道,美國國立衛(wèi)生研究院29日宣布,他們的千人基因組計劃的全部數(shù)據(jù)將免費對外開放。這些數(shù)據(jù)總量達到200TB,是上大的人類基因變異數(shù)據(jù)集。亞馬遜旗下的云計算公司——“亞馬遜網(wǎng)絡服務”將存儲這個龐大的數(shù)據(jù)庫。
千人基因組計劃旨在為基因變異如何影響健康以及與疾病間關系的研究奠定基礎。所有數(shù)據(jù)免費對外開放意味著更多科學家可以利用這些數(shù)據(jù)進行研究,以更快的速度得出基因型與癌癥、糖尿病等疾病間關系的發(fā)現(xiàn)。這項計劃于2008年啟動,立基于全26個國家和地區(qū)的2600多人的基因組。其中1700人的DNA測序結果將在不久后公布并進行云存儲,余下900人的DNA將在2012年進行測序。
國立衛(wèi)生研究院的千人基因組計劃是一項規(guī)模更大的舉措組成部分,用于管理科學研究產(chǎn)生的海量數(shù)據(jù)——數(shù)據(jù)管理本身就是一門科學。由于類似千人基因組計劃這樣的數(shù)據(jù)集規(guī)模龐大,很少有研究人員具備處理能力,因此也就無法使用。根據(jù)國立衛(wèi)生研究院的計算,千人基因組計劃的數(shù)據(jù)如果打印出來,可放滿1600萬個檔案柜;如果使用標準DVD存儲,需要3萬多張DVD。
對于科學家和他們所在的研究機構來說,千人基因組計劃數(shù)據(jù)進行云存儲無疑是一個好消息,他們無需擁有更大帶寬,數(shù)據(jù)存儲和分析處理能力便可獲取這些數(shù)據(jù)。亞馬遜網(wǎng)絡服務公司產(chǎn)品德帕克·*表示:“這意味著所有研究人員和實驗室都可以獲取完整的千人基因組計劃數(shù)據(jù),無論它們規(guī)模大小和預算多少。他們可以立即對這些數(shù)據(jù)進行分析,而無需在這方面投入資源。通常情況下,他們需要硬件、設施和人員才能獲取這些數(shù)據(jù)。由于無需投入資源便可獲得研究所需數(shù)據(jù),科學家可以加快研究步伐。”
對于亞馬遜網(wǎng)絡服務公司來說,存儲千人基因組計劃的數(shù)據(jù)可能也是一個好消息。美國《紐約時報》報道稱,處理如此海量數(shù)據(jù)需要極大的運算能力,亞馬遜網(wǎng)絡服務公司可以要求獲得額外的資源,用于進一步處理或者分析這些數(shù)據(jù)。
認為云存儲千人基因組計劃數(shù)據(jù)是他們的“大數(shù)據(jù)研究和發(fā)展倡議”所提出的解決方案的一個*。美國科學和技術政策辦公室29日宣布,將有2億多美元投向6個聯(lián)邦機構,用于推動大數(shù)據(jù)計算領域的研究——包括大數(shù)據(jù)分析——以及大數(shù)據(jù)在科學探索、環(huán)境和生物醫(yī)學研究、教育以及國家安全領域的應用。