查文庫>論文> 大資料時代基於雲計算的資料監護研究論文

大資料時代基於雲計算的資料監護研究論文

大資料時代基於雲計算的資料監護研究論文

  在大資料時代,為了更好地管理和利用科學資料,計算機圖靈獎獲得者Jim Gray於2002年提出了資料監護(Data Curation)的概念。十餘年來,資料監護一直是國內外資訊資源管理領域的熱點議題,研究主題集中在資料監護的內容、發展策略、合作模式、職業教育、成功實踐等領域。111鑑於雲計算能夠為資料監護提供強有力的技術支撐,如雲計算快速提供資源的能力有助於輔助完成資源密集型資料監護任務,網路化雲服務有利於實現資料監護的協同工作,基於雲計算開展資料監護引起了國外資訊資源管理學界和業界的廣泛關注。本文對基於雲計算的資料監護問題進行探討,希望對我國的資料監護工作有所借鑑。

  一、資料監護工作流程

  資料監護是為了確保資料當前的使用目的,並能用於未來再發現及再利用,從資料產生伊始即對其進行管理和完善的活動。121為了有效指導資料監護實踐,提高資料監護效率,一些資料監護機構和研究者對資料監護過程進行了概念化,提出了相應的資料監護生命週期模型。本文基於英國資料監護中心的DCC資料監護生命週期模型13與王芳和慎金花提出的細化的資料監護生命週期模型,梳理出了資料監護工作流程,見圖1。資料監護工作流程由4個階段、11個業務環節組成,涵蓋了資料監護的所有必要階段和核心工作。

  資料收集階段:資料採集。資料採集是資料監護活動的起點,指根據採集政策,從資料建立者、檔案館、知識庫或資料中心等接收資料。元資料建立。為採集到的資料建立管理、描述、結構和技術元資料,以便進行資料管理和資料維護,以及實現資料共享。

  資料處理階段:資料評價和選擇。評估資料併為長期監護和儲存選擇資料。資料評價和選擇直接關係到科學資料庫的質量,並且帶有一定的主觀性。資料剔除。根據成文的政策、指引或法律要求,處理未成為長期監護和儲存物件的資料,將這些資料轉移到其他檔案館、知識庫、資料中心或其他保管機構。根據法律要求,有些資料會被安全銷燬。資料匯入。將經過選擇的資料傳送至檔案館、知識庫、資料中心或其他資料監護機構。為保證資料的可用性,在匯入資料之前,應進行去重、交叉註釋、格式認證等。資料遷移。根據儲存環境的需求,或者為了確保資料對硬體和軟體退化的抗擾性,改換資料的格式、儲存系統、儲存型別。

  資料儲存階段:資料長期儲存。長期儲存須確保資料的可信性、可靠性、可用性和完整性。長期儲存包括資料清洗、資料驗證、分配儲存元資料、分配表徵資訊,保證資料具備可接受的資料結構和檔案格式。資料儲存。遵守相關標準,選擇科學的組織方式和安全的儲存介質組織並存儲資料。資料儲存既可以保證資料的安全性,又便於資料被隨時使用和加工處理。

  資料利用階段:資料獲取。採用適當的標準釋出資料,並執行嚴格的訪問控制和驗證程式,保證使用者安全、準確的訪問和獲取資料。資料複用。制訂資料複用規則,在不違反智慧財產權的前提下,提供資料複製、連結、引用等服務。資料轉換。根據原始資料建立新資料。例如,透過轉換格式、建立子集等途徑,建立新資料。

  二、雲計算為資料監護提供支撐

  雲計算作為分散式計算、網路儲存、負載均衡、熱備份冗餘等計算機和網路技術融合的產物,具有超大規模、虛擬化、通用性、高可擴充套件性等諸多特點。雲計算的特點與資料監護的需求非常契合,可以為資料監護提供強有力的技術支撐。

  彈性服務:雲計算服務的規模可快速伸縮,以自動適應業務負載的動態變化。使用者使用的雲計算資源與業務的實際需求相一致,避免了因為資源供需不匹配而導致的服務質量下降或資源浪費。161資料監護的資料剔除和資料遷移等任務不需要持續不斷的執行,屬偶發性活動。雲計算的彈性服務能夠很好地滿足偶發性資料監護活動的資源呼叫需求。

  按需服務:雲計算以服務的形式為使用者提供基礎設施、儲存空間、應用程式等,並能夠根據使用者的需求,自動分配各種資源。17使用者也可以根據需要在雲中部署所需的應用程式。雲計算的按需服務為資料監護中需要依賴主觀意識完成的任務,如元資料建立、資料評價和選擇提供了極大的便利。

  泛在接入:使用者透過網際網路可以隨時隨地利用雲計算服務。資料使用者越來越多的使用膝上型電腦、智慧手機、平板電腦,將資料監護業務流程轉移至雲,能夠極大地方便使用者上傳、訪問和下載資料。資料監護的資料採集、資料獲取和資料複用等業務環節,可以從雲計算的這一特點中受益。

  服務外包:使用者進行資料處理所需的計算資源價格昂貴,將提供計算資源的業務委託給雲服務商,既能夠節省開支,又能夠使使用者專注於自己的核心工作。雲服務商為了利益最大化,保持最優競爭力,都會迅速應對技術變革,以更低的價格提供更快的處理器和更大的儲存空間。雲計算服務外包的特點使資料監護機構將部分資訊科技支援業務委託給雲服務商,以獲得更低廉的價格和更優質的服務成為可能。

  三、基於雲計算的資料監護模型

  雲計算提供從硬體設施到應用軟體的多層次服務。根據服務的物件和功能差異可以將雲計算劃分為三種服務模式:基礎設施即服務(IaaS)、平臺即服務(PaaS)、軟體即服務(SaaS);根據租用雲計算的使用者對資料和環境的控制權,可以將雲計算劃分為公有云、私有云和混合雲等部署模型。本文根據資料監護不同業務階段的工作內容和技術需求,並結合雲計算的服務模式和部署模型,構建了基於雲計算的資料監護模型,見圖2。下面分別從資料監護的雲計算服務模式和部署模型兩個方面分析基於雲計算的資料監護模型。

  (一)資料監護的雲計算服務模式

  IaaS層。IaaS提供基礎設施部署服務。IaaS透過虛擬化技術整合伺服器、儲存裝置、網路資源、高效能計算叢集等物理資源,構建全域性統一的動態虛擬化資源池。基於雲計算的資料監護模型的IaaS層為上層雲計算服務提供海量硬體資源,實現硬體資源的按需酉己置。

  PaaS層。PaaS是雲計算應用程式執行環境,提供應用程式部署與管理服務。PaaS不僅能夠實現海量資料的儲存,而且能夠提供面向海量資料的分析處理功能。在基於雲計算的資料監護模型的PaaS層,資料監護機構使用雲供應商的軟體工具和開發語言,開發資料收集和資料處理所需的各種應用程式,實現應用程式的多元化和定製化服務,並將科學資料保存於海量資料儲存系統。

  SaaS層。SaaS提供以服務為形式的應用程式。SaaS允許使用者使用部署於供應商雲基礎設施上的應用程式,使用者也可以根據需求向供應商定製應用程式。在基於雲計算的資料監護模型的SaaS層,資料監護機構透過應用程式向用戶提供資料利用服務,實現資料共享和科研協作。

  (二)資料監護的雲計算部署模型

  資料監護的各個階段分別面向資料監護方和資料使用方,對應不同的資料存取、處理等操作許可權,因此需要採用相適應的雲計算部署模型。資料監護過程中的資料利用階段位於SaaS層,為使用者提供方便高效的資料獲取等服務,而公有云面向一般公眾提供敏捷彈性服務的特點與資料利用階段的功能需求相契合。使用者能夠透過網路瀏覽器像使用個人電腦中的軟體那樣使用公有云的應用程式,實現應用程式的泛在訪問。因此,基於雲計算的資料監護模型的SaaS層應採用公有云部署模型。資料收集和資料處理工作要求雲計算提供量身定製的服務功能和非常穩定的'服務質量,而資料儲存工作要求雲計算能夠切實保障資料安全。私有云部署在使用者資料中心的防火牆內,能夠提供對資料、安全性和服務質量的最有效控制,而且不會衝擊使用者已有的業務流程。因此,基於雲計算的資料監護模型的PaaS層適宜採用私有云部署模型。上述公有云和私有云的基礎設施共同構成了基於雲計算的資料監護模型的IaaS層,並且公有云和私有云具有統一的介面標準,保證服務的無縫遷移,即IaaS層採用混合雲部署模型。

  四、基於雲計算的資料監護案例

  SRF專案:英國南安普頓大學的SRF專案,針對科學研究工作集成了許多已有的協作型資料管理工具,並將這些工具部署到一個共享的虛擬雲平臺上,以SaaS的方式提供服務。SRF工具最大的特點是能夠在網路日誌中自動或者手工建立和共享實驗資料。例如,SRF的一款代理軟體能夠植入實驗儀器和計算機,自動抽取儀器在實驗過程中記錄的資料,並轉換為XML格式,然後以部落格的形式釋出以實現協作複用。透過部落格釋出平臺實現實驗過程、實驗資料、實驗分析的互聯,組織實驗資料記錄,構建實驗、實驗資料、實驗裝置之間的關聯關係。在資料監護生命週期中,SRF工具主要用於接收和抽取資料,以保證實驗資料在上傳至雲的過程中會被格式化成標準格式。

  Data Flow專案:牛津大學的Data Flow專案,旨在建立免費的雲託管Data Stage和Data Bank,以便於管理、儲存、釋出研究資料。其中,Data Stage以在使用者電腦上執行對映驅動器的方式,提供研究組水平的、安全的“本地”檔案管理環境。另外,Data Stage還提供資料的網路獲取和線上儲存服務,使用者透過訪問控制程式的認證之後,即可以訪問私人、共享、協作、公眾和公共資料目錄。Data Bank是一種虛擬化的、基於雲部署的機構研究資料倉儲。機構可以選擇將Data Bank部署在Eduserv教育雲或者機構自己的基礎設施中。Data Bank還具備包括資料抽取、儲存、長期儲存、訪問在內的一系列資料監護功能。

  Kindura專案:倫敦國王學院的Kindura專案,是一個基於混合雲部署模型的科學資料管理試點專案,提供基於儲存的資料管理服務和基於計算的資料處理服務。Kindura專案透過DuraSpace推出的託管雲服務一DuraCloud,將本地服務與各種雲服務相銜接。使用者利用DuraCloud提供的統一介面,即可享受一站式資料存取服務。Kindura專案透過部署於伺服器上的規則引擎,以及面向規則的整合資料管理系統(iRODS)的規則庫,決定具體資料儲存在本地還是儲存於雲端:二進位制物件儲存在雲端,元資料和Fedora物件儲存在本地。l9Kindura專案證明,混合雲能夠有效節省資料監護成本,並且能夠更加高效地利用本地儲存庫,提升資料處理能力。

  東南大學AMS-02專案:東南大學為大型國際合作專案AMS-02的資料監護工作構建的雲計算平臺,提供IaaS、PaaS、SaaS服務。該雲計算平臺架構如圖3所示。在IaaS層,雲計算基礎設施由3500顆CPU核心和500TB高速儲存裝置構成,提供虛擬機器和物理機的按需分配,並且自動配置作業系統、科學計算函式庫等執行環境。在PaaS層,資料分析處理平臺提供大規模計算能力和海量資料儲存能力;應用開發環境為AMS-02資料分析處理應用提供程式設計介面。在SaaS層,以服務的形式部署雲計算應用程式,使用者透過訪問AMS-02應用,可以獲取原始科學資料以及資料處理分析結果。雲計算透過超級計算模式,整合大量的儲存、計算、頻寬等資源,為資料監護提供了經濟高效的解決方案。國內的資料監護尚處於起步階段,對基於雲計算的資料監護進行深入的理論探討和實踐探索,有助於推動我國的資料監護實現跨越式發展。