1. 首頁
  2. 金融/投資/銀行/保險/財會

淺談投資統計大資料處理關鍵技術

淺談投資統計大資料處理關鍵技術

【關鍵詞】投資統計 大資料處理 關鍵技術

本人從事多年統計工作,對投資統計大資料有著天然的親近感,投資統計就是蒐集、整理、分析、應用資料。目前投資統計改革正在有序開展,我們要抓住改革契機,充分利用投資統計大資料具有海量、實時、多元處理特點,深刻解讀資料,創新研究思路,提高投資統計資料處理能力,提供投資統計分析具有資料全、分析深、研究透、成果新、有理有據的可行建議,成為黨政府、部門決策的重要參謀。

1 概述

1.1 大資料

投資系統中資料有三種類型分別是專案投資管理資料、聯網直報房地產投資資料、規下投資抽樣資料。根據投資資料內在結構,可以分為兩類,一類是結構化資料,統計系統的企業原始資料可以透過二維表形式反映的資料;另一類是非結構化資料,不能以二維表的形式來反映的資料,如文字、圖片、音訊、影片等產生的資料。

與傳統投資統計不同,投資統計大資料可利用遙感技術和GIS技術進行動態監測,能夠獲取定期資料,對現有投資統計業務系統進行分析,主要表現在:一是為了能夠對投資統計系統執行獲取定期資料,要對投資專案進行定位,每個月節點都會產生大量的資料。二是PDA裝置對投資統計專案樣本點的經常性變化。三是為了能夠把握重大專案投資進度,要求對投資統計系統執行中相關資訊定期變樣採集。四是投資統計資料能夠定期與發改、住建、稅務等部門資料共享和資料比對。

投資統計大資料具有以下特點:一是資料量大。隨著大資料的發展,投資統計資料TB級逐步上升到PB級。二是型別種類多。現在黨政領導對投資統計資料需求越來越準,要進行處理結構化和非結構化投資統計也越來越多,才能夠滿足需求。三是利用率低。如在定期監測重大投資專案過程中, 大部分監測過程中的資料在正常範圍之內,而非常少的監測異常資料是非常有用的,特別是投資專案資料異常值(如極大、極小值),要透過這些資料對比驗證,資料是否正確,因此有利用價值的資料佔總資料的比例少。四是處理要快。處理投資統計大資料速度要求快,可以利用小型計算機和雲技術在非常短時間內能夠分析資料,為黨政領導決策提供高質量的資料作為依據。

2 關鍵技術

2.1 採集技術

大資料的採集指利用很多個數據庫同時接收,從客戶端的傳輸來的資料,一般使用者可以透過這些資料庫,在客戶端能夠達到一般查詢和處理過程。 但是在大資料的採集過程中,最大的難點資料併發高,很有可能會同時成千上萬的使用者來進行訪問和操作,採用在採集端部署大量資料庫作為支援,能夠有效、科學地在投資資料庫之間進行負載均衡和分片,是資料採集技術的關鍵環節。

各類大資料分部不同的部門或專案,給資料的收集帶來一定難度,採用關係資料管理模型,運用Google 檔案系統GFS 技術,具有縱向擴充套件功能,應對資料採集併發數高,也是確保實現高效獲取大資料的核心。

2.2 傳輸、儲存技術

投資統計系統採用聯網直報平臺,執行時會實時產生各式各樣的原始資料,特別定期用投資遙感監測中資料也會產生更多的資料,經過日月積累海量的資料,會給投資監控裝置及資料傳輸、儲存系統造成沉重的負擔,並對投資統計系統發展造成很大的影響。

目前投資統計系統資料的傳輸,為了減輕資料傳輸量,大部分採用資料壓縮的方式,可以應用到投資統計資料傳輸,大大提速整個系統資料的傳輸,從而有效降低資料儲存的空間。若沒有建立有效批處理模型,在壓縮、解壓過程中仍然佔用系統資源較大,浪費也很大,因此更急需建立有效的批處理模型是重要的。現在普遍採用MapReduce批處理模型,能夠在平常配置的計算機上實現並行化處理,且能夠分割輸入資料,在計算機組成的叢集上統一排程,確保計算機的叢集之間順暢的通訊。

投資統計大資料儲存一般採用分散式儲存方式,具有效能可靠性,可以解決海量資料的儲存問題,可有侷限性,如投資統計系統執行時,隨時產生實時性資料,處理過程中還是不能夠全面應對,最好要根據不同型別的大資料效能先分析,然後再進行實時分類儲存。特別是投資遙感監測系統中非結構化資料佔大資料比重非常大,需要解決大量非結構化資料轉變為結構化資料處理能力,是投資統計系統在大資料處理技術解決的.關鍵問題。採用GFS的分散式檔案系統主要對海量大檔案而設計,而海量小檔案可以用Haystack系統,可以用多個邏輯檔案共同使用一個檔案,解決小檔案儲存的問題。

2.3 實時處理技術

解決投資統計大資料處理速度是至關重要,資料處理範圍越來越大,資料處理時間就越長,假如資料量處理的範圍超過了資料本來的處理能力,缺乏整個系統穩定執行,就會對投資統計系統執行產生不可估量的影響。雖然可以利用雲計算系統,能夠提供投資統計系統服務,但是對特別聯網直報時間高峰期,現在也經常出現堵塞事件,造成企業統計人員無法準時上報資料,也對投資統計系統執行提出更高要求。

大資料產生的過程比較複雜,對有投資統計資料(結構化資料、半結構化資料和非結構化資料)進行基於各種統計算法的計算,必然存在資料的內涵不一致、記錄重複、或者感興趣擬處理的屬性指標不完整、或者含有噪聲(資料中存在錯誤和異常值)等各種問題,必須實時進行清洗和預處理,去掉噪聲和無關資料,便於後續的分析、分析處理。使用Sector廣域網的分散式系統,利用Sphere基本資料處理模型,針對不同的資料,能夠統一輸入資料流方式,進行實時大規模平行計算,在對資料進行分割,分割後資料轉交給SPE(具有處理引擎功能),能夠起到負載平衡。

2.4 分析技術

投資大資料分析主要透過分散式資料庫或者分散式計算叢集,對現有已儲存的大量資料庫,分步驟能夠簡單的分類彙總、統計分析等,能夠實現普遍常見的分析需求,但是對於一些需要批處理基於半結構化或非結構化資料,利用視覺化分析技術、高度整合技術,對影象和投資原始資料及專業的大資料分析工具,進行與部門資料之間統計分析或比對。統計與分析這環節的主要特點涉及的面廣、量大,執行系統資源佔用也非常高,特別是輸入輸出資源佔用率高。隨著大資料的發展,用Bigtable分散式、按列儲存、多維表結構的實時分散式資料庫,可以對大資料結構化、半結構化和非結構化資料讀寫操作,使用SQL 語言進行大量資料的統計、查詢和分析操作,解決了視覺化分析技術的擴充套件性,能夠有效提取重要資料、顯示合成影象。用LOD技術採用策略處理大資料量的實時傳輸與視覺化,實現按等級組織分塊,平常稱為金字塔結構。

大資料的分析技術與傳統的統計資料彙總分析方法有較大的差別,不能將原來的統計系統資料處理經驗簡單的移植到大資料的資料處理中去,需要針對不同的大資料物件,部署相應的資料採集環境,建立平值法、平滑法、預測法和頻率統計法等統計資料相關模型或演算法,對投資統計大資料進行深度和廣度的對比分析或核查。

3 結束語

伴隨現代資訊科技的迅猛發展,傳統的投資統計知識、理論、技術、方法等正處於大變革、大跨越、大發展之中,投資統計也面臨良好機遇。特別大資料時代的到來,投資統計大資料處理在遙感地理資訊系統、全球定位系統等空間資訊科技中應用,極大豐富了投資統計的資料來源,使投資統計工作如虎添翼,同時也對投資統計理念、資料來源和資料生產方式提出全新挑戰,繼續尋求有效的解決辦法,更要廣泛深入與國際、國內科研機構合作交流,不斷創新探索,有助於繁榮投資統計科學,傳播先進投資統計理念和方法,提升投資統計能力和水平。

參考文獻

[2]程開明,陳龍.大資料時代的統計挑戰與應對[J].中國統計,2013(8):11-13.