當前位置:學問谷 >

行業範例 >投資 >

淺談投資統計大數據處理關鍵技術

淺談投資統計大數據處理關鍵技術

【關鍵詞】投資統計 大數據處理 關鍵技術

淺談投資統計大數據處理關鍵技術

本人從事多年統計工作,對投資統計大數據有着天然的親近感,投資統計就是蒐集、整理、分析、應用數據。目前投資統計改革正在有序開展,我們要抓住改革契機,充分利用投資統計大數據具有海量、實時、多元處理特點,深刻解讀數據,創新研究思路,提高投資統計數據處理能力,提供投資統計分析具有數據全、分析深、研究透、成果新、有理有據的可行建議,成為黨政府、部門決策的重要參謀。

  1 概述

1.1 大數據

投資系統中數據有三種類型分別是項目投資管理數據、聯網直報房地產投資數據、規下投資抽樣數據。根據投資數據內在結構,可以分為兩類,一類是結構化數據,統計系統的企業原始數據可以通過二維表形式反映的數據;另一類是非結構化數據,不能以二維表的形式來反映的數據,如文本、圖片、音頻、視頻等產生的數據。

與傳統投資統計不同,投資統計大數據可利用遙感技術和GIS技術進行動態監測,能夠獲取定期數據,對現有投資統計業務系統進行分析,主要表現在:一是為了能夠對投資統計系統運行獲取定期數據,要對投資項目進行定位,每個月節點都會產生大量的數據。二是PDA設備對投資統計項目樣本點的經常性變化。三是為了能夠把握重大項目投資進度,要求對投資統計系統運行中相關信息定期變樣採集。四是投資統計數據能夠定期與發改、住建、税務等部門數據共享和數據比對。

投資統計大數據具有以下特點:一是數據量大。隨着大數據的發展,投資統計數據TB級逐步上升到PB級。二是類型種類多。現在黨政領導對投資統計數據需求越來越準,要進行處理結構化和非結構化投資統計也越來越多,才能夠滿足需求。三是利用率低。如在定期監測重大投資項目過程中, 大部分監測過程中的數據在正常範圍之內,而非常少的監測異常數據是非常有用的,特別是投資項目數據異常值(如極大、極小值),要通過這些數據對比驗證,數據是否正確,因此有利用價值的數據佔總數據的比例少。四是處理要快。處理投資統計大數據速度要求快,可以利用小型計算機和雲技術在非常短時間內能夠分析數據,為黨政領導決策提供高質量的數據作為依據。

  2 關鍵技術

2.1 採集技術

大數據的採集指利用很多個數據庫同時接收,從客户端的傳輸來的數據,一般用户可以通過這些數據庫,在客户端能夠達到一般查詢和處理過程。 但是在大數據的採集過程中,最大的難點數據併發高,很有可能會同時成千上萬的用户來進行訪問和操作,採用在採集端部署大量數據庫作為支持,能夠有效、科學地在投資數據庫之間進行負載均衡和分片,是數據採集技術的關鍵環節。

各類大數據分部不同的部門或項目,給數據的收集帶來一定難度,採用關係數據管理模型,運用Google 文件系統GFS 技術,具有縱向擴展功能,應對數據採集併發數高,也是確保實現高效獲取大數據的核心。

2.2 傳輸、存儲技術

投資統計系統採用聯網直報平台,運行時會實時產生各式各樣的原始數據,特別定期用投資遙感監測中數據也會產生更多的數據,經過日月積累海量的數據,會給投資監控設備及數據傳輸、存儲系統造成沉重的負擔,並對投資統計系統發展造成很大的影響。

目前投資統計系統數據的傳輸,為了減輕數據傳輸量,大部分採用數據壓縮的方式,可以應用到投資統計數據傳輸,大大提速整個系統數據的傳輸,從而有效降低數據儲存的空間。若沒有建立有效批處理模型,在壓縮、解壓過程中仍然佔用系統資源較大,浪費也很大,因此更急需建立有效的批處理模型是重要的。現在普遍採用MapReduce批處理模型,能夠在平常配置的計算機上實現並行化處理,且能夠分割輸入數據,在計算機組成的集羣上統一調度,確保計算機的集羣之間順暢的通信。

投資統計大數據存儲一般採用分佈式保存方式,具有性能可靠性,可以解決海量數據的存儲問題,可有侷限性,如投資統計系統運行時,隨時產生實時性數據,處理過程中還是不能夠全面應對,最好要根據不同類型的大數據性能先分析,然後再進行實時分類存儲。特別是投資遙感監測系統中非結構化數據佔大數據比重非常大,需要解決大量非結構化數據轉變為結構化數據處理能力,是投資統計系統在大數據處理技術解決的關鍵問題。採用GFS的分佈式文件系統主要對海量大文件而設計,而海量小文件可以用Haystack系統,可以用多個邏輯文件共同使用一個文件,解決小文件存儲的問題。

2.3 實時處理技術

解決投資統計大數據處理速度是至關重要,數據處理範圍越來越大,數據處理時間就越長,假如數據量處理的範圍超過了數據本來的處理能力,缺乏整個系統穩定運行,就會對投資統計系統運行產生不可估量的影響。雖然可以利用雲計算系統,能夠提供投資統計系統服務,但是對特別聯網直報時間高峯期,現在也經常出現堵塞事件,造成企業統計人員無法準時上報數據,也對投資統計系統運行提出更高要求。

大數據產生的過程比較複雜,對有投資統計數據(結構化數據、半結構化數據和非結構化數據)進行基於各種統計算法的計算,必然存在數據的內涵不一致、記錄重複、或者感興趣擬處理的屬性指標不完整、或者含有噪聲(數據中存在錯誤和異常值)等各種問題,必須實時進行清洗和預處理,去掉噪聲和無關數據,便於後續的分析、分析處理。使用Sector廣域網的分佈式系統,利用Sphere基本數據處理模型,針對不同的'數據,能夠統一輸入數據流方式,進行實時大規模並行計算,在對數據進行分割,分割後數據轉交給SPE(具有處理引擎功能),能夠起到負載平衡。

2.4 分析技術

投資大數據分析主要通過分佈式數據庫或者分佈式計算集羣,對現有已存儲的大量數據庫,分步驟能夠簡單的分類彙總、統計分析等,能夠實現普遍常見的分析需求,但是對於一些需要批處理基於半結構化或非結構化數據,利用可視化分析技術、高度集成技術,對圖像和投資原始數據及專業的大數據分析工具,進行與部門數據之間統計分析或比對。統計與分析這環節的主要特點涉及的面廣、量大,運行系統資源佔用也非常高,特別是輸入輸出資源佔用率高。隨着大數據的發展,用Bigtable分佈式、按列存儲、多維表結構的實時分佈式數據庫,可以對大數據結構化、半結構化和非結構化數據讀寫操作,使用SQL 語言進行大量數據的統計、查詢和分析操作,解決了可視化分析技術的擴展性,能夠有效提取重要數據、顯示合成圖像。用LOD技術採用策略處理大數據量的實時傳輸與可視化,實現按等級組織分塊,平常稱為金字塔結構。

大數據的分析技術與傳統的統計數據彙總分析方法有較大的差別,不能將原來的統計系統數據處理經驗簡單的移植到大數據的數據處理中去,需要針對不同的大數據對象,部署相應的數據採集環境,建立平值法、平滑法、預測法和頻率統計法等統計數據相關模型或算法,對投資統計大數據進行深度和廣度的對比分析或核查。

  3 結束語

伴隨現代信息技術的迅猛發展,傳統的投資統計知識、理論、技術、方法等正處於大變革、大跨越、大發展之中,投資統計也面臨良好機遇。特別大數據時代的到來,投資統計大數據處理在遙感地理信息系統、全球定位系統等空間信息技術中應用,極大豐富了投資統計的數據來源,使投資統計工作如虎添翼,同時也對投資統計理念、數據來源和數據生產方式提出全新挑戰,繼續尋求有效的解決辦法,更要廣泛深入與國際、國內科研機構合作交流,不斷創新探索,有助於繁榮投資統計科學,傳播先進投資統計理念和方法,提升投資統計能力和水平。

  參考文獻

[2]程開明,陳龍.大數據時代的統計挑戰與應對[J].中國統計,2013(8):11-13.

  • 文章版權屬於文章作者所有,轉載請註明 https://xuewengu.com/flhy/touzi/3k6kww.html