99视频在线免费播放_美国大片免费黄片视频_AV无码不卡免费影视_亚洲av无码精品色午夜

基于大數(shù)據(jù)的水利數(shù)據(jù)中心建設

字體 2017-04-14 14:00:23
     來源: 中國水務論壇在線  

隨著信息技術在水利行業(yè)應用的日趨廣泛,水利信息化采集、分析、業(yè)務處理等方面產(chǎn)生的數(shù)據(jù)量急劇膨脹,現(xiàn)代水利數(shù)據(jù)中心的建設需求隨之變得更加迫切。利用大數(shù)據(jù)技術,可高效的存儲和處理水文、水利工程監(jiān)測等長系列數(shù)據(jù)以及文檔、圖片、視頻等非結構化數(shù)據(jù)。本文通過總結水利大數(shù)據(jù)的特點以及大數(shù)據(jù)架構、實時數(shù)據(jù)處理和元數(shù)據(jù)等關鍵技術,提出基于傳統(tǒng)關系型數(shù)據(jù)庫與分布式文件系統(tǒng)相結合的、支持實時計算和元數(shù)據(jù)管理的水利數(shù)據(jù)中心架構。 

隨著信息化技術的迅猛發(fā)展,越來越多的水利信息化基礎設施及應用系統(tǒng),被應用到水利工程建設與管理、水行政業(yè)務處置等領域中。由此產(chǎn)生的數(shù)據(jù)量指數(shù)攀升,引發(fā)了水利數(shù)據(jù)中心建設的熱潮。與此同時,隨著整個社會(尤其是互聯(lián)網(wǎng)上)的信息量呈爆炸性增長態(tài)勢,大數(shù)據(jù)技術應運而生。大數(shù)據(jù)技術是一場技術革命,時刻改變著我們的生活、工作和思維方式。將大數(shù)據(jù)技術引入水利行業(yè),將其作為水利數(shù)據(jù)中心建設的基礎技術,成為一種必然的趨勢。 

水利信息化涵蓋水利工程勘測、規(guī)劃、設計、施工、運行管理和維護,防洪、水資源管理、水土保持等水行政管理等諸多方面。水利數(shù)據(jù)形式多樣、種類繁多,數(shù)據(jù)總量龐大且持續(xù)高速增長。例如,近年來監(jiān)測設備種類及數(shù)量增多,監(jiān)測數(shù)據(jù)跨地區(qū)上傳頻率加快,使得采集監(jiān)測數(shù)據(jù)量急劇上升;在防洪管理業(yè)務中,應用水文模型預報、推演、調度而產(chǎn)生的數(shù)據(jù)量也正迅猛增長;視頻、圖像和文檔等非結構化數(shù)據(jù)大量累計,難以采用關系型數(shù)據(jù)庫存儲與管理。在管理和應用層面上,用戶已不滿足于數(shù)據(jù)存儲和管理碎片化的現(xiàn)狀,提出了高效管理和共享的要求。如何存儲、傳輸、處理和應用水利大數(shù)據(jù),已成為水利信息化發(fā)展必須面對的問題和挑戰(zhàn)。 

根據(jù)水利信息化規(guī)劃要求,水利數(shù)據(jù)中心建設的目的是全面整合分散的各類水利信息資源,實現(xiàn)信息共享,并對數(shù)據(jù)進行深度挖掘,以滿足水利業(yè)務和事務發(fā)展需要。其中解決的主要問題包括:分布各處的水利數(shù)據(jù)到水利數(shù)據(jù)中心的實時匯集,海量水利數(shù)據(jù)的集中存儲,結構化數(shù)據(jù)和非結構化數(shù)據(jù)的統(tǒng)一管理,以及有效的數(shù)據(jù)分析和挖掘等。 

本文在總結了水利大數(shù)據(jù)特征的基礎上,分析了解決以上問題的關鍵技術,并提出了在傳統(tǒng)水利數(shù)據(jù)中心的基礎上,利用大數(shù)據(jù)技術建設現(xiàn)代水利數(shù)據(jù)中心的思路及架構。 

當前,大數(shù)據(jù)的概念已經(jīng)形成,但尚缺乏統(tǒng)一的定義。麥肯錫認為,大數(shù)據(jù)是“無法在一定時間內(nèi)用傳統(tǒng)數(shù)據(jù)庫軟件工具對其內(nèi)容進行抓取、管理和處理的數(shù)據(jù)集合”;Gartner認為,大數(shù)據(jù)是“需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)”。而判別大數(shù)據(jù)的主流標準是其是否具備“4V”特征:①(Volumn)大容量,存儲空間大,計算量大;②(Variety)多樣性,來源多,格式多;③(Velocity)快速,增長速度快,處理速度快;④(Value)價值,數(shù)據(jù)中包含著有價值的信息。 

水利信息化長期的業(yè)務實踐積累了大量分布異構獨立的業(yè)務數(shù)據(jù)。遙感、GIS、傳感網(wǎng)和射頻技術等現(xiàn)代化信息化術的發(fā)展與應用,全面拓展了水利信息的空間尺度和要素類型。水利數(shù)據(jù)已逐漸呈現(xiàn)出多源、多維、大量和多態(tài)的大數(shù)據(jù)特性。在經(jīng)過大量調研基礎上,水利大數(shù)據(jù)的特征概括為以下5點,①數(shù)據(jù)量大:水利數(shù)據(jù)量在數(shù)百TB或PB以上;②來源及形式多樣:包括勘測、規(guī)劃、設計、施工、管理等多種來源,以及長系列的結構化、半結構化數(shù)據(jù)和大量非結構化數(shù)據(jù);③持續(xù)增長:在水利行業(yè)各領域和環(huán)節(jié)的信息化應用不斷增加,監(jiān)測密度及指標不斷提升,數(shù)據(jù)增加速度不斷加快;④數(shù)據(jù)價值高:水利數(shù)據(jù)是水利工程建設、管理及水行政業(yè)務處置的依據(jù),蘊含較高的價值;⑤實時或準實時要求:部分水利數(shù)據(jù)(如水利工程安全監(jiān)測、地質監(jiān)測等)是判別應急事件的依據(jù),存在實時或準實時處理的需求。 

為解決水利大數(shù)據(jù)集中存儲以及結構化數(shù)據(jù)和非結構化數(shù)據(jù)統(tǒng)一管理的問題,可利用關系型數(shù)據(jù)庫與分布式文件系統(tǒng)結合的方式應對。ApacheHadoop作為Apache2.0許可協(xié)議發(fā)布的開源軟件框架,不僅能夠支持大數(shù)據(jù)密集型分布式存儲,而且具備強大的批量數(shù)據(jù)處理和分析能力,常被用于進行離線數(shù)據(jù)的存儲與分析,作為關系型數(shù)據(jù)庫管理系統(tǒng)的補充。Hadoop是根據(jù)Google公司發(fā)表的MapReduce和GFS(Google檔案系統(tǒng))的論文自行實現(xiàn)而成,與傳統(tǒng)關系型數(shù)據(jù)庫的比較。

基于大數(shù)據(jù)的水利數(shù)據(jù)中心建設
Hadoop與傳統(tǒng)關系型數(shù)據(jù)庫對比表

Hadoop框架透明地為應用提供大數(shù)據(jù)存儲和訪問的可靠性及數(shù)據(jù)自動化分布與移動。首先,Hadoop實現(xiàn)了名為MapReduce的編程范式,將應用程序分割成許多小部分,每個部分都能在集群中的任意節(jié)點上執(zhí)行或重新執(zhí)行;其次,Hadoop提供了HDFS分布式文件系統(tǒng),用于存儲所有計算節(jié)點的數(shù)據(jù),為整個集群帶來了非常高的數(shù)據(jù)帶寬。MapReduce編程范式和HDFS分布式文件系統(tǒng)的設計,使整個框架能夠自動處理節(jié)點故障。除了MapReduce和HDFS分布式文件系統(tǒng),Hadoop架構中采用Zookeeper提供集群內(nèi)的協(xié)調管理服務,使用HBase列式數(shù)據(jù)庫存儲與管理數(shù)據(jù),通過Pig、Hive、Mahout實現(xiàn)數(shù)據(jù)挖掘分析。 

基于大數(shù)據(jù)的水利數(shù)據(jù)中心建設
Hadoop架構圖 

在水利數(shù)據(jù)中心中,可通過Hadoop分布式文件系統(tǒng)存儲歷史監(jiān)測數(shù)據(jù)、視頻、圖片、文件等非結構化和半結構化數(shù)據(jù),并利用MapReduce批量計算處理歷史監(jiān)測數(shù)據(jù),提供對監(jiān)測數(shù)據(jù)的分析挖掘和模型計算。  

在水利業(yè)務應用中,涉及大量對實時數(shù)據(jù)的處理,如雨水情、工情、水資源等監(jiān)測數(shù)據(jù)和視頻監(jiān)控數(shù)據(jù)等,對應急事件的預警及決策處置意義重大。為實現(xiàn)大數(shù)據(jù)流的實時處理,可在水利數(shù)據(jù)中心架構中加入Storm實時計算框架。 

與Hadoop擅長于存儲處理離線數(shù)據(jù)不同,Storm的數(shù)據(jù)源可以是不斷更新的,即收到一條數(shù)據(jù)便處理一條。通過Storm提供可靠地處理無限的數(shù)據(jù)流的能力,可實時處理Hadoop的批任務,同時實現(xiàn)視頻流的實時處理以及專業(yè)模型的實時計算。 

元數(shù)據(jù)是關于“數(shù)據(jù)的數(shù)據(jù)”,對數(shù)據(jù)進行描述,這些描述涉及基礎屬性(例如,結構和行為)、業(yè)務定義(包括字典和分類法)以及操作(如活動指標和使用歷史)等特征。對于水利數(shù)據(jù)而言,元數(shù)據(jù)是對水利各種信息描述的數(shù)據(jù)。在水利數(shù)據(jù)中心中,應建設元數(shù)據(jù)管理維護系統(tǒng),實現(xiàn)元數(shù)據(jù)實體維護,負責元數(shù)據(jù)的抽取與整合,形成對關系型數(shù)據(jù)庫以及分布式文件系統(tǒng)中存儲的各種監(jiān)測數(shù)據(jù)、業(yè)務數(shù)據(jù)、視頻、圖像等數(shù)據(jù)的數(shù)據(jù)字典。在關系型數(shù)據(jù)庫以及分布式文件系統(tǒng)中的數(shù)據(jù)進行變化時,元數(shù)據(jù)管理維護系統(tǒng)負責實現(xiàn)元數(shù)據(jù)及時自動更新。 

當前,水利數(shù)據(jù)中心主要采用關系型數(shù)據(jù)庫組織和管理結構化數(shù)據(jù);地理空間數(shù)據(jù)的組織管理亦在關系型數(shù)據(jù)庫的基礎上擴展實現(xiàn);半結構化或非結構化數(shù)據(jù)采用關系型數(shù)據(jù)庫管理目錄加文件存儲方式組織管理。對于水利大數(shù)據(jù)的存儲與應用需求,現(xiàn)有架構在數(shù)據(jù)存儲、處理和分析挖掘等方面存在瓶頸。為此,本文提出了基于大數(shù)據(jù)的水利數(shù)據(jù)中心架構,包括數(shù)據(jù)匯集、數(shù)據(jù)存儲、數(shù)據(jù)處理分析以及數(shù)據(jù)應用四個層次。 

基于大數(shù)據(jù)的水利數(shù)據(jù)中心建設
大數(shù)據(jù)水利數(shù)據(jù)中心建設架構圖 

(1)數(shù)據(jù)匯集 

水利數(shù)據(jù)中心需對不同來源的異構數(shù)據(jù)進行匯集,主要包括上報采集數(shù)據(jù)、其他系統(tǒng)節(jié)點數(shù)據(jù)以及與其他領域交換的數(shù)據(jù)。上報采集數(shù)據(jù)主要為實時監(jiān)測數(shù)據(jù),可采取設備直連或現(xiàn)場服務器轉發(fā)的形式接入;其他系統(tǒng)節(jié)點數(shù)據(jù)指水利業(yè)務范疇內(nèi)已建成的應用系統(tǒng)中的業(yè)務數(shù)據(jù)的定時或不定時接入;其他領域交換數(shù)據(jù)指其他行業(yè)與水利相關的數(shù)據(jù),如國土、氣象等數(shù)據(jù),通過定義好的接口或連接接入。 

(2)數(shù)據(jù)存儲 

本文提出的水利數(shù)據(jù)中心架構將關系型數(shù)據(jù)和分布式文件系統(tǒng)融合,共同支撐水利大數(shù)據(jù)的存儲。實時的、結構化的監(jiān)測及業(yè)務處置數(shù)據(jù)和元數(shù)據(jù)利用關系型數(shù)據(jù)庫存儲,而歷史監(jiān)測數(shù)據(jù)、文檔數(shù)據(jù)、圖像數(shù)據(jù)和視頻數(shù)據(jù)等半結構化和非結構化數(shù)據(jù),可存儲在Hadoop分布式文件系統(tǒng)中。兩種存儲方式并非獨立存在,可采用數(shù)據(jù)抽取轉換及裝載工具(ETL)相互補充。 

在水利數(shù)據(jù)中心,通過元數(shù)據(jù)庫存儲對水利數(shù)據(jù)中心中所有結構化、半結構化和非結構化數(shù)據(jù)的描述和定義,利用元數(shù)據(jù)技術定義并統(tǒng)一管理系統(tǒng)元數(shù)據(jù),為系統(tǒng)提供更高的可用性與易用性。 

(3)數(shù)據(jù)處理分析 

水利大數(shù)據(jù)分析是根據(jù)主題化應用的需求進行數(shù)據(jù)處理分析,需應用并行計算或云計算體系下的數(shù)據(jù)挖掘、機器學習、統(tǒng)計分析等技術。存儲于Hadoop中的海量水利數(shù)據(jù),可以通過MapReduce實現(xiàn)數(shù)據(jù)分析計算。MapReduce將一個大數(shù)據(jù)集分解成多個獨立的小數(shù)據(jù)段,分發(fā)到多個節(jié)點上進行快速、高效的并行計算,可有效解決單機處理中計算性能不足的難題。Hadoop的開源工具Hive基于MapReduce,提供了一套類似于數(shù)據(jù)庫的數(shù)據(jù)存儲和處理機制,將海量半結構化數(shù)據(jù)映射為表,并自動化產(chǎn)生MapReduce任務,對存儲的數(shù)據(jù)進行處理。通過Hive提供的接口,可以有效的降低應用系統(tǒng)功能開發(fā)難度和對MapReduce作業(yè)的使用難度。 

對于水利數(shù)據(jù),還存在需要實時計算處理顯示的實時監(jiān)測數(shù)據(jù)。通過實時計算工具Storm處理消息和更新數(shù)據(jù)庫,快速實時計算大量的監(jiān)測數(shù)據(jù),實現(xiàn)監(jiān)測數(shù)據(jù)的實時展示、預警以及水庫調度方案的實時生成和實時視頻流的處理。 

(4)數(shù)據(jù)應用 

針對廣泛的水利大數(shù)據(jù)應用,可構建大量高效的通用性或定制性服務,例如:水利工程安全監(jiān)測、評估評價、運行維護等水利工程安全管理應用,面向防洪、發(fā)電、航運、農(nóng)業(yè)、生態(tài)的水資源多目標優(yōu)化調度等。通過對用戶和業(yè)務數(shù)據(jù)的分析挖掘,智能地獲取用戶最感興趣的數(shù)據(jù)指標。同時,利用水利一張圖和統(tǒng)一門戶,可通過統(tǒng)一簡潔的界面,直觀的向用戶展示各種實時和歷史信息以及分析預報的結果,以幫助用戶正確理解和應用分析成果。 

大數(shù)據(jù)技術推動著水利數(shù)據(jù)采集、管理及應用的迅速發(fā)展。本文提出了一種基于大數(shù)據(jù)技術的水利數(shù)據(jù)中心架構,以促進水利大數(shù)據(jù)在獲取、管理、應用方面的能效提升。分布式文件系統(tǒng)、實時數(shù)據(jù)處理組件的引入,可滿足多源、多結構水利數(shù)據(jù)統(tǒng)一存儲和處理的需求。而以MapReduce為代表的大數(shù)據(jù)處理技術,可突破傳統(tǒng)數(shù)據(jù)分析的視角,以截然不同的方式分析海量水利數(shù)據(jù),其成果展示方式也將隨之改變。隨著大數(shù)據(jù)技術在水利行業(yè)不斷地深入應用,行業(yè)用戶的思維方式將迅速轉變,越來越多的應用需求也將隨之涌現(xiàn),基于大數(shù)據(jù)技術的水利數(shù)據(jù)中心的研究范圍和深度也將得到極大的提升和拓展。 

查天氣
關注“中國天氣網(wǎng)”微信公眾號
編輯:楊興