數(shù)據(jù)倉庫建設方案.doc
《數(shù)據(jù)倉庫建設方案.doc》由會員分享,可在線閱讀,更多相關(guān)《數(shù)據(jù)倉庫建設方案.doc(32頁珍藏版)》請在裝配圖網(wǎng)上搜索。
第 16/2016/DAF/SA 號公開招標方案建議書 第1章 數(shù)據(jù)倉庫建設 1.1 數(shù)據(jù)倉庫總體架構(gòu) 專家系統(tǒng)接收增購項目車輛TCMS或其他子系統(tǒng)通過車地通信傳輸?shù)膶崟r或離線數(shù)據(jù),經(jīng)過一系列綜合診斷分析,以各種報表圖形或信息推送的形式向用戶展示分析結(jié)果。針對診斷出的車輛故障將給出專家建議處理措施,為車輛的故障根因修復提供必要的支持。 根據(jù)專家系統(tǒng)數(shù)據(jù)倉庫建設目標,結(jié)合系統(tǒng)數(shù)據(jù)業(yè)務規(guī)范,包括數(shù)據(jù)采集頻率、數(shù)據(jù)采集量等相關(guān)因素,設計專家系統(tǒng)數(shù)據(jù)倉庫架構(gòu)如下: 數(shù)據(jù)倉庫架構(gòu)從層次結(jié)構(gòu)上分為數(shù)據(jù)采集、數(shù)據(jù)存、數(shù)據(jù)分析、數(shù)據(jù)服務等幾個方面的內(nèi)容: 數(shù)據(jù)采集:負責從各業(yè)務自系統(tǒng)中匯集信息數(shù)據(jù),系統(tǒng)支撐Kafka、Storm、Flume及傳統(tǒng)的ETL采集工具。 數(shù)據(jù)存儲:本系統(tǒng)提供Hdfs、Hbase及RDBMS相結(jié)合的存儲模式,支持海量數(shù)據(jù)的分布式存儲。 數(shù)據(jù)分析:數(shù)據(jù)倉庫體系支持傳統(tǒng)的OLAP分析及基于Spark常規(guī)機器學習算法。 數(shù)據(jù)服務總線:數(shù)據(jù)系統(tǒng)提供數(shù)據(jù)服務總線服務,實現(xiàn)對數(shù)據(jù)資源的統(tǒng)一管理和調(diào)度,并對外提供數(shù)據(jù)服務。 1.2 數(shù)據(jù)采集 專家系統(tǒng)數(shù)據(jù)倉庫數(shù)據(jù)采集包括兩個部分內(nèi)容:外部數(shù)據(jù)匯集、內(nèi)部各層數(shù)據(jù)的提取與加載。外部數(shù)據(jù)匯集是指從TCMS、車載子系統(tǒng)等外部信息系統(tǒng)匯集數(shù)據(jù)到專家數(shù)據(jù)倉庫的操作型存儲層(ODS);內(nèi)部各層數(shù)據(jù)的提取與加載是指數(shù)據(jù)倉庫各存儲層間的數(shù)據(jù)提取、轉(zhuǎn)換與加載。 1.2.1 外部數(shù)據(jù)匯集 專家數(shù)據(jù)倉庫數(shù)據(jù)源包括列車監(jiān)控與檢測系統(tǒng)(TCMS)、車載子系統(tǒng)等相關(guān)子系統(tǒng),數(shù)據(jù)采集的內(nèi)容分為實時數(shù)據(jù)采集和定時數(shù)據(jù)采集兩大類,實時數(shù)據(jù)采集主要對于各項檢測指標數(shù)據(jù);非實時采集包括日檢修數(shù)據(jù)等。 根據(jù)項目信息匯集要求,列車指標信息采集具有采集數(shù)據(jù)量大,采集頻率高的特點,考慮到系統(tǒng)后期的擴展,因此在數(shù)據(jù)數(shù)據(jù)采集方面,要求采集體系支持高吞吐量、高頻率、海量數(shù)據(jù)采集,同時系統(tǒng)應該靈活可配置,可根據(jù)業(yè)務的需要進行靈活配置橫向擴展。 本方案在數(shù)據(jù)采集架構(gòu)采用Flume+Kafka+Storm的組合架構(gòu),采用Flume和ETL工具作為Kafka的Producer,采用Storm作為Kafka的Consumer,Storm可實現(xiàn)對海量數(shù)據(jù)的實時處理,及時對問題指標進行預警。具體采集系統(tǒng)技術(shù)結(jié)構(gòu)圖如下: 1.2.1.1 數(shù)據(jù)匯集架構(gòu)功能 Flume提供了從console(控制臺)、RPC(Thrift-RPC)、text(文件)、tail(UNIX tail)、syslog(syslog日志系統(tǒng),支持TCP和UDP等2種模式),exec(命令執(zhí)行)等數(shù)據(jù)源上收集數(shù)據(jù)的能力。Flume的數(shù)據(jù)接受方,可以是console(控制臺)、text(文件)、dfs(HDFS文件)、RPC(Thrift-RPC)和syslogTCP(TCP syslog日志系統(tǒng))等。在我們系統(tǒng)中由kafka來接收。 Kafka分布式消息隊列,支撐系統(tǒng)性能橫向擴展,通過增加broker來提高系統(tǒng)的性能。 Storm流處理技術(shù),支撐Supervisor橫向擴展以提高系統(tǒng)的擴展性和數(shù)據(jù)處理的實時性。 1.2.1.2 采集架構(gòu)優(yōu)勢 (一) 解耦 在項目中要平衡數(shù)據(jù)的匯集與數(shù)據(jù)的處理性能平衡,是極其困難的。消息隊列在處理過程中間插入了一個隱含的、基于數(shù)據(jù)的接口層,兩邊的處理過程都要實現(xiàn)這一接口。這允許你獨立的擴展或修改兩邊的處理過程,只要確保它們遵守同樣的接口約束。 冗余 有些情況下,處理數(shù)據(jù)的過程會失敗。除非數(shù)據(jù)被持久化,否則將造成丟失。消息隊列把數(shù)據(jù)進行持久化直到它們已經(jīng)被完全處理,通過這一方式規(guī)避了數(shù)據(jù)丟失風險。在被許多消息隊列所采用的“插入-獲取-刪除”范式中,在把一個消息從隊列中刪除之前,需要你的處理過程明確的指出該消息已經(jīng)被處理完畢,確保你的數(shù)據(jù)被安全的保存直到你使用完畢。 擴展性 因為消息隊列解耦了你的處理過程,所以增大消息入隊和處理的頻率是很容易的;只要另外增加處理過程即可。不需要改變代碼、不需要調(diào)節(jié)參數(shù)。擴展就像調(diào)大電力按鈕一樣簡單。 靈活性 & 峰值處理能力 在訪問量劇增的情況下,應用仍然需要繼續(xù)發(fā)揮作用,但是這樣的突發(fā)流量并不常見;如果為以能處理這類峰值訪問為標準來投入資源隨時待命無疑是巨大的浪費。使用消息隊列能夠使關(guān)鍵組件頂住突發(fā)的訪問壓力,而不會因為突發(fā)的超負荷的請求而完全崩潰。 可恢復性 當體系的一部分組件失效,不會影響到整個系統(tǒng)。消息隊列降低了進程間的耦合度,所以即使一個處理消息的進程掛掉,加入隊列中的消息仍然可以在系統(tǒng)恢復后被處理。而這種允許重試或者延后處理請求的能力通常是造就一個略感不便的用戶和一個沮喪透頂?shù)挠脩糁g的區(qū)別。 送達保證 消息隊列提供的冗余機制保證了消息能被實際的處理,只要一個進程讀取了該隊列即可。在此基礎(chǔ)上,IronMQ提供了一個”只送達一次”保證。無論有多少進程在從隊列中領(lǐng)取數(shù)據(jù),每一個消息只能被處理一次。這之所以成為可能,是因為獲取一個消息只是”預定”了這個消息,暫時把它移出了隊列。除非客戶端明確的表示已經(jīng)處理完了這個消息,否則這個消息會被放回隊列中去,在一段可配置的時間之后可再次被處理。 緩沖 在任何重要的系統(tǒng)中,都會有需要不同的處理時間的元素。例如,加載一張圖片比應用過濾器花費更少的時間。消息隊列通過一個緩沖層來幫助任務最高效率的執(zhí)行—寫入隊列的處理會盡可能的快速,而不受從隊列讀的預備處理的約束。該緩沖有助于控制和優(yōu)化數(shù)據(jù)流經(jīng)過系統(tǒng)的速度。 異步通信 很多時候,你不想也不需要立即處理消息。消息隊列提供了異步處理機制,允許你把一個消息放入隊列,但并不立即處理它。你想向隊列中放入多少消息就放多少,然后在你樂意的時候再去處理它們。 1.2.2 內(nèi)部各層數(shù)據(jù)提取與加載 數(shù)據(jù)匯集將數(shù)據(jù)儲存于操作型數(shù)據(jù)存儲層(ODS),在數(shù)據(jù)倉庫各層次間數(shù)據(jù)轉(zhuǎn)換提取加載,采用傳統(tǒng)的ETL工具進行采集,數(shù)據(jù)倉庫間的各層次的數(shù)據(jù)采集的實效性根據(jù)具體的數(shù)據(jù)需求而定,具體ETL建模界面如圖: 1.3 數(shù)據(jù)加工與處理 對于數(shù)據(jù)倉庫平臺,應該建立一套標準化、規(guī)范化的數(shù)據(jù)處理流程,例如:如何采集內(nèi)部和外部數(shù)據(jù)、結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù);如何清洗采集來的臟數(shù)據(jù)和無效數(shù)據(jù);如何對不同來源的數(shù)據(jù)進行打通;如何對非結(jié)構(gòu)化的數(shù)據(jù)進行結(jié)構(gòu)化加工;如何在結(jié)構(gòu)化數(shù)據(jù)的基礎(chǔ)上進行商業(yè)建模和數(shù)據(jù)挖掘等等。 大數(shù)據(jù)管理層在一條數(shù)據(jù)總線上構(gòu)建了一條完整的大數(shù)據(jù)處理流水線。這條流水線從數(shù)據(jù)的采集、清洗到加工處理,把原始雜亂無章的數(shù)據(jù)加工成結(jié)構(gòu)化的數(shù)據(jù)組件,供上層的大數(shù)據(jù)應用來拼裝調(diào)用,讓企業(yè)擁有創(chuàng)造數(shù)據(jù)資產(chǎn)的能力。 1.4 存儲設計 1.4.1 數(shù)據(jù)量估算 按每列列車平均500毫秒通過車地通信采集監(jiān)測數(shù)據(jù)100條,每天運營時間18小時,按每條記錄160字節(jié)計算(監(jiān)測數(shù)據(jù)的數(shù)據(jù)項相對簡單),初步按照67列列車計算。 單列列車日監(jiān)測數(shù)據(jù)=3600*2*160*100*18/1024/1024/1024≈2G 67列列車年數(shù)據(jù)量=2*67*365/1024 ≈ 48T 10年總數(shù)據(jù)量(乘上增長系數(shù)10%)≈530T (含操作系統(tǒng)) 數(shù)據(jù)規(guī)劃10年,加上系統(tǒng)用戶信息、系統(tǒng)日志信息、專家信息、業(yè)務數(shù)據(jù)及其它不可預測類數(shù)據(jù),數(shù)據(jù)總量預估530T。 1.4.2 數(shù)據(jù)存儲 專家系統(tǒng)數(shù)據(jù)采用混合存儲模式進行存儲,RDBMS存儲專家系統(tǒng)業(yè)務基本數(shù)據(jù)及最近1年的監(jiān)測數(shù)據(jù),10年內(nèi)歷史監(jiān)測數(shù)據(jù)采用NoSQL HBase數(shù)據(jù)庫進行存儲,以方便查詢,HBase基于Hdfs分布式文件系統(tǒng)搭建,具體存儲模式如下圖。 1. RDBMS數(shù)據(jù)庫,支持專家?guī)斓暮诵臉I(yè)務,存儲列車最近1年的監(jiān)測數(shù)據(jù)為保證專家系統(tǒng)安全、穩(wěn)定運行,在數(shù)據(jù)庫系統(tǒng)上支撐各種統(tǒng)計分析及傳統(tǒng)的BI業(yè)務??紤]到操作系統(tǒng)存儲、緩存存儲、數(shù)據(jù)庫系統(tǒng)存儲、日志存儲等因素, RDBMS數(shù)據(jù)庫服務器預計每臺60T存儲,考慮數(shù)據(jù)安全及系統(tǒng)穩(wěn)定因素RDBMS采用雙機熱備技術(shù)互備。 2. 大數(shù)據(jù)平臺規(guī)劃存儲最近10年監(jiān)測數(shù)據(jù),日志文件備份及歷史數(shù)據(jù)采用大數(shù)據(jù)Hadoop和HBase存儲,大數(shù)據(jù)平臺數(shù)據(jù)采用節(jié)點間冗余備份,預設數(shù)據(jù)2倍冗余存儲, (考慮平臺提供的壓縮技術(shù),壓縮存儲可以節(jié)省30-55%的空間)。 10年數(shù)據(jù)量=530T*1.5≈ 800T (2倍冗余存儲) 1.4.3 分層存儲 專家數(shù)據(jù)分三個層次進行匯集與存儲,分別為ODS層、數(shù)據(jù)倉庫層、主題數(shù)據(jù)層,各層次數(shù)據(jù)存儲內(nèi)容如下 ODS層:數(shù)據(jù)來源于各生產(chǎn)系統(tǒng),通過ETL工具對接口文件數(shù)據(jù)進行編碼替換和數(shù)據(jù)清洗轉(zhuǎn)換,不做關(guān)聯(lián)操作。未來也可用于準實時數(shù)據(jù)查詢。 數(shù)據(jù)倉庫層:數(shù)據(jù)深度匯集層,根據(jù)業(yè)務有選擇的對ODS層的數(shù)據(jù)進行提取,通過對數(shù)據(jù)的加工處理,將單一的數(shù)據(jù)信息轉(zhuǎn)換成體系信息,將點信息數(shù)據(jù)變成面信息數(shù)據(jù)。 主題數(shù)據(jù)層:將數(shù)據(jù)信息體系根據(jù)各主題進行提取與轉(zhuǎn)換,主題域內(nèi)部進行拆分、關(guān)聯(lián)。是對ODS操作型數(shù)據(jù)按照主題域劃分規(guī)則進行的拆分及合并。 1.5 數(shù)據(jù)分析建模 伴隨著大數(shù)據(jù)時代的悄然來臨,數(shù)據(jù)的價值得到人們的廣泛認同,對數(shù)據(jù)的重視提到了前所未有的高度。數(shù)據(jù)已經(jīng)作為企業(yè)、事業(yè)單位的重要資產(chǎn)被廣泛應用于盈利分析與預測、客戶關(guān)系管理、合規(guī)性監(jiān)管、運營風險管理等業(yè)務當中。如何建立大數(shù)據(jù)分析模型,以提供決策依據(jù)是很多用戶所迫切解決的問題。 專家數(shù)據(jù)倉庫建立在Hadoop分布式系統(tǒng)之上,提供了多種豐富的算法模型,不同的應用通過借助不同的接口實現(xiàn)數(shù)據(jù)的多維呈現(xiàn)和結(jié)果展示,為用戶提供科學的決策支持。 圖 10-7 hadoop算法模型圖 大數(shù)據(jù)平臺提供數(shù)據(jù)挖掘模型、分布式計算引擎、高性能機器學習算法庫(包含分類 、聚類 、預測、推薦等機器學習算法)、即席查詢功能,可以幫助決策者快速建立數(shù)據(jù)分析模型立方體,便于決策者進行OLAP分析。 常用算法模型: 分類算法: 分類是找出數(shù)據(jù)庫中的一組數(shù)據(jù)對象的共同特點并按照分類模式將其劃分為不同的類,其目的是通過分類模型,將數(shù)據(jù)庫中的數(shù)據(jù)項映射到某個給定的類別中。如政務網(wǎng)中將用戶在一段時間內(nèi)的網(wǎng)上辦理所遇到的問題劃分成不同的類,根據(jù)情況向用戶推薦關(guān)聯(lián)類的問題解決方案,從而方便用戶快速解決網(wǎng)上辦事審批中遇到的各類問題。 回歸算法 回歸分析反映了數(shù)據(jù)庫中數(shù)據(jù)的屬性值的特性,通過函數(shù)表達數(shù)據(jù)映射的關(guān)系來發(fā)現(xiàn)屬性值之間的依賴關(guān)系。在回歸算法中通常將數(shù)值結(jié)果轉(zhuǎn)化為了0到1之間的概率,數(shù)值越大,函數(shù)越逼近1,數(shù)值越小,函數(shù)越逼近0,它可以應用到對數(shù)據(jù)序列的預測及相關(guān)關(guān)系的研究中去。如我們根據(jù)這個概率可以做垃圾郵件預測,例如概率大于0.5,則這封郵件就是垃圾郵件。 聚類算法 聚類類似于分類,但與分類的目的不同,是針對數(shù)據(jù)的相似性和差異性將一組數(shù)據(jù)分為幾個類別。屬于同一類別的數(shù)據(jù)間的相似性很大,但不同類別之間數(shù)據(jù)的相似性很小,跨類的數(shù)據(jù)關(guān)聯(lián)性很低。分類算法中的一個顯著特征就是訓練數(shù)據(jù)中包含了標簽,訓練出的模型可以對其他未知數(shù)據(jù)預測標簽。在聚類的算法中,訓練數(shù)據(jù)都是不含標簽的,而算法的目的則是通過訓練,推測出這些數(shù)據(jù)的標簽。以二維的數(shù)據(jù)來說,一個數(shù)據(jù)就包含兩個特征,可通過聚類算法,給他們中不同的種類打上標簽,通過聚類算法計算出種群中的距離,根據(jù)距離的遠近將數(shù)據(jù)劃分為多個族群。 關(guān)聯(lián)算法 關(guān)聯(lián)規(guī)則是隱藏在數(shù)據(jù)項之間的關(guān)聯(lián)或相互關(guān)系,即可以根據(jù)一個數(shù)據(jù)項的出現(xiàn)推導出其他數(shù)據(jù)項的出現(xiàn)。關(guān)聯(lián)規(guī)則的挖掘過程主要包括兩個階段:第一階段為從海量原始數(shù)據(jù)中找出所有的高頻項目組;第二極端為從這些高頻項目組產(chǎn)生關(guān)聯(lián)規(guī)則。 推薦算法 推薦算法是目前業(yè)界非?;鸬囊环N算法,在電商界,如亞馬遜,天貓,京東等得到了廣泛的運用。推薦算法的主要特征就是可以自動向用戶推薦他們最感興趣的東西,從而增加購買率,提升效益。 神經(jīng)網(wǎng)絡模型 神經(jīng)網(wǎng)絡模型,因其自身自行處理、分布存儲和高度容錯等特性非常適合處理非線性的以及那些以模糊、不完整、不嚴密的知識或數(shù)據(jù)為特征的處理問題,它的這一特點十分適合解決數(shù)據(jù)挖掘的問題。典型的神經(jīng)網(wǎng)絡模型主要分為三大類:第一類是以用于分類預測和模式識別的前饋式神經(jīng)網(wǎng)絡模型;第二類是用于聯(lián)想記憶和優(yōu)化算法的反饋式神經(jīng)網(wǎng)絡模型。第三類是用于聚類的自組織映射方法。 Adaboost算法 其核心思想是針對同一個訓練集,訓練不同的分類器(弱分類器),然后把這些弱分類器集合起來,構(gòu)成一個更強的最終分類器 (強分類器)。其算法本身是通過改變數(shù)據(jù)分布來實現(xiàn)的,它根據(jù)每次訓練集之中每個樣本的分類是否正確,以及上次的總體分類的準確率,來確定每個樣本的權(quán)值。將修改過權(quán)值的新數(shù)據(jù)集送給下層分類器進行訓練,最后將每次訓練得到的分類器最后融合起來,作為最后的決策分類器。 深度學習 深度學習算法是對人工神經(jīng)網(wǎng)絡的發(fā)展。在計算能力變得日益廉價的今天,深度學習試圖建立大得多也復雜得多的神經(jīng)網(wǎng)絡,用來處理存在少量未標識數(shù)據(jù)的大數(shù)據(jù)集。 1.6 數(shù)據(jù)資源管理 專家系統(tǒng)數(shù)據(jù)具有數(shù)據(jù)量大、數(shù)據(jù)類別多、數(shù)據(jù)關(guān)聯(lián)關(guān)系緊密等特點,隨著數(shù)據(jù)的積累,數(shù)據(jù)資源的利用價值逐步體現(xiàn),提高數(shù)據(jù)的管理,是對數(shù)據(jù)資源充分利用的前提條件。數(shù)據(jù)資源管了包括如下幾部分內(nèi)容:數(shù)據(jù)標準化管理、數(shù)據(jù)監(jiān)測管理及元數(shù)據(jù)管理等。 1.6.1 數(shù)據(jù)標準管理 匯集整理數(shù)據(jù)資源管理所需的標準規(guī)范信息,建立數(shù)據(jù)標準數(shù)據(jù)庫。利用專家系統(tǒng)數(shù)據(jù)標準管理系統(tǒng)的接口同步更新標準信息。包括數(shù)據(jù)元標準以及信息代碼標準。 1. 建設數(shù)據(jù)資源庫,實現(xiàn)專家系統(tǒng)發(fā)布標準數(shù)據(jù)元與本地擴展數(shù)據(jù)元標準的匯集。實現(xiàn)與車輛檢修等數(shù)據(jù)源管理系統(tǒng)接口對接。 2. 建設信息代碼資源庫,梳理國標、部標和本省定義的標準代碼以及各業(yè)務信息系統(tǒng)需要使用的其它代碼,建立字典代碼實體數(shù)據(jù)庫。應具備字典代碼定期同步功能。并建設信息代碼在線映射維護功能,以便對數(shù)據(jù)標準化轉(zhuǎn)換提供支持。 1.6.2 數(shù)據(jù)監(jiān)控管理 大數(shù)據(jù)運行監(jiān)控通過對大數(shù)據(jù)資源庫相關(guān)服務器、Oracle數(shù)據(jù)庫、分布式存儲系統(tǒng)、Hadoop平臺等的運行狀態(tài)、性能指標以及數(shù)據(jù)更新情況進行持續(xù)監(jiān)控,及時發(fā)現(xiàn)存在的問題及隱患,輔助系統(tǒng)管理員及時采取措施,提高大數(shù)據(jù)資源庫的運行可靠性,保障大數(shù)據(jù)資源庫穩(wěn)定高效運行。發(fā)現(xiàn)異常問題時通過短信、郵件等方式通知系統(tǒng)管理員及時處理,實現(xiàn)通過自動、智能、持續(xù)的自動監(jiān)控預警代替人工巡檢,降低運維工作量,提高運維效率。通過可視化圖表對監(jiān)控結(jié)果進行統(tǒng)計分析直觀展現(xiàn)平臺運行各類運行指標,輔助管理員從宏觀角度掌握平臺運行情況。 性能指標監(jiān)控 可以對服務器CPU負載、Oracle數(shù)據(jù)庫連接數(shù)、分布式存儲IO負載、Hadoop負載等各類性能相關(guān)指標進行監(jiān)控,以便掌握平臺負載情況,及時發(fā)現(xiàn)性能問題,輔助平臺優(yōu)化。 大數(shù)據(jù)庫日志監(jiān)控 自動采集大數(shù)據(jù)相關(guān)組件運行日志,并根據(jù)既定規(guī)則進行分析,發(fā)現(xiàn)異常及時告警。提供日志查詢檢索功能,可以按組件類型、時間、關(guān)鍵字等進行過濾。 數(shù)據(jù)量監(jiān)控 數(shù)據(jù)量監(jiān)控通過對數(shù)據(jù)總量以及增量進行定期監(jiān)控,可以掌握數(shù)據(jù)量變化情況,也可以從數(shù)據(jù)增量角度發(fā)現(xiàn)數(shù)據(jù)入庫異常。數(shù)據(jù)量監(jiān)測結(jié)果可同步到數(shù)據(jù)臺帳,以便數(shù)據(jù)臺帳統(tǒng)計數(shù)據(jù)總量情況。 1.6.3 元數(shù)據(jù)管理 元數(shù)據(jù)是數(shù)據(jù)倉庫中存儲的基本單元,實現(xiàn)對元數(shù)據(jù)的管理,數(shù)據(jù)倉庫的最基本功能之一。元數(shù)據(jù)管理包括元數(shù)據(jù)注冊登記、元數(shù)據(jù)存儲、元數(shù)據(jù)建模等多方面功能。 1.7 數(shù)據(jù)服務 大數(shù)據(jù)平臺開放存儲訪問接口,提供基于 Hadoop 技術(shù)體系的 HDFS、HBase訪問接口,以 OpenAPI 的方式,為應用提供大數(shù)據(jù)存儲服務。 數(shù)據(jù)服務層主要由數(shù)據(jù)服務總線來建設,主要負責將大數(shù)據(jù)平臺的能力接口注冊進去,再以標準化接口開放給應用系統(tǒng)使用,支持多種協(xié)議轉(zhuǎn)換、服務質(zhì)量 控制、訪問控制、規(guī)則引擎等。數(shù)據(jù)服務層將大數(shù)據(jù)平臺的數(shù)據(jù)服務能力開放出去,供第三方平臺使用。 如上圖:應用服務系統(tǒng)使用服務接口,來接入數(shù)據(jù)服務總線,經(jīng)過數(shù)據(jù)服務 總線的接入端點,進行過濾。同時根據(jù)訪問控制、服務質(zhì)量、協(xié)議轉(zhuǎn)換、策略調(diào) 度、規(guī)則引擎的處理,接出到大數(shù)據(jù)平臺的能力接口。 第2章 大數(shù)據(jù)平臺 2.1 大數(shù)據(jù)平臺基礎(chǔ)架構(gòu) 大數(shù)據(jù)基礎(chǔ)平臺基于烽火自主知識產(chǎn)權(quán)FitData產(chǎn)品,F(xiàn)itData主要集成了基礎(chǔ)計算資源、網(wǎng)絡資源、存儲資源,在統(tǒng)一的安全體管理體系下,將這些資源再進行深度加工、處理、關(guān)聯(lián),形成多種類型的基礎(chǔ)服務能力,構(gòu)建基礎(chǔ)資源層,向應用提供基礎(chǔ)資源的服務能力。數(shù)據(jù)服務總線通過服務治理來維護基礎(chǔ)資源服務能力,并通過訪 問控制、服務質(zhì)量、協(xié)議轉(zhuǎn)換等,對應用提供多協(xié)議支持。平臺支撐體系的運維體系提供整體運維能力,保障平臺的正常運行;安全體系提供整體安全能力,保障平臺的數(shù)據(jù)安全和使用安全;平臺采用分布式架構(gòu),支持巨量數(shù)據(jù)存儲與分析, 保障專家管理系統(tǒng)的高性能、高可用性和易擴展性。FitData大數(shù)據(jù)基礎(chǔ)平臺結(jié)構(gòu)如下圖紅線標出部分。 n 數(shù)據(jù)計算與存儲:是FitData 大數(shù)據(jù)平臺的核心內(nèi)容,提供分布式存儲能力和分布式計算能力。提供的存儲框架能力,包括基于結(jié)構(gòu)化數(shù)據(jù)存儲、非結(jié)構(gòu)化數(shù)據(jù)存儲和半結(jié)構(gòu)化數(shù)據(jù)存儲,其計算框架與存儲框架均是分布式集群方式部署,可以平滑的進行彈性擴容。 n 數(shù)據(jù)服務層:數(shù)據(jù)服務層主要由數(shù)據(jù)服務接口來實現(xiàn),對應用提供數(shù)據(jù)支撐。通過數(shù)據(jù)服務接口將平臺的數(shù)據(jù)資源以標準 API 接口的方式開放出來,供不同的應用系統(tǒng)使用。數(shù)據(jù)應用層主要提供基于該平臺來構(gòu)建的專家系統(tǒng)應用。采用平臺的標準API,數(shù)據(jù)資源層獲取數(shù)據(jù)服務,目前API 接口包括資源目錄瀏覽、數(shù)據(jù)查詢搜索等。 n 數(shù)據(jù)匯聚層:提供各層之間數(shù)據(jù)交換能力,由ETL數(shù)據(jù)集成工具來實現(xiàn)。平臺支持多中異構(gòu)數(shù)據(jù)源,針對不同數(shù)據(jù)源的不同數(shù)據(jù),也提供多種數(shù)據(jù)抽取方式,例如數(shù)據(jù)庫直 連抽取、Sqoop 抽取等。提供計算框架能力,主要集成了批處理計算框 架、流式計算框架、內(nèi)存計算框架等能力,還提供了像 Hive、Mahout、 Spark 等二次計算能力框架。平臺可將這些計算能力開放,供數(shù)據(jù)模型、數(shù)據(jù)挖掘、應用系統(tǒng)來使用。 n 運維體系:運維體系提供面向?qū)<蚁到y(tǒng)完整運維方案, 涵蓋了運行監(jiān)控到使用操作。安全體系提供面向?qū)<蚁到y(tǒng)大數(shù)據(jù)平臺的用戶權(quán)限管理、終 端訪問控制、日志安全審計等能力。 數(shù)據(jù)存與計算是 FitData 大數(shù)據(jù)平臺核心能力,將目前專家系統(tǒng)內(nèi)部業(yè)務數(shù)據(jù)源進行有效整合,集成以數(shù)據(jù)為核心的查詢、 分析和管理能力。采用分層整合,靈活配置,橫向擴展,縱向貫穿的大數(shù)據(jù)平臺服務能力,其計算框架、存儲框架都以容器的方式,可輕松靈活的在線進行裝卸,以平滑擴充大數(shù)據(jù)平臺的集成能力。除此還集成了二級計算框架、通用的數(shù)據(jù)處理算法庫和數(shù)據(jù)倉庫,將大數(shù)據(jù)平臺的數(shù)據(jù)進行清洗、加工和分析挖掘,處理后的數(shù)據(jù)可訂閱,充分體現(xiàn)數(shù)據(jù)即服務的大數(shù)據(jù)思想。 ? 分布式存儲框架:主要負責針對巨量數(shù)據(jù)的存儲,以分布式存儲技術(shù), 支持快速、巨量、多種類型的數(shù)據(jù)存取。支持從數(shù)據(jù)源抽取數(shù)據(jù)到大數(shù) 據(jù)平臺存儲,集成多種存儲方式,有針對結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和 半結(jié)構(gòu)化數(shù)據(jù)的存儲。 ? 計算框架:主要提供批處理計算、內(nèi)存計算、流式計算框架,由數(shù)據(jù)處 理管理驅(qū)動來分配和調(diào)度計算框架,加載數(shù)據(jù)處理算法,完成數(shù)據(jù)處理。 ? 數(shù)據(jù)倉庫:主要對計算框架完成后的結(jié)果進行存儲,支持 Hbase、MS SQL Server 等存儲,同時將數(shù)據(jù)以接口的形式開放出去。 ? 數(shù)據(jù)處理算法庫:集成通用的數(shù)據(jù)分析算法、能夠插入用戶自定義的數(shù) 據(jù)模型算法,配合以資源管理系統(tǒng)為主的計算存儲框架,進行數(shù)據(jù)處理。 ? 資源管理系統(tǒng),以容器的方式,來為計算框架和存儲框架分配資源,并 支持資源調(diào)度,彈性伸縮。 ? 數(shù)據(jù)服務總線:主要將基礎(chǔ)平臺的能力和數(shù)據(jù)服務接口,以 API 的方式開放出去,形成一個共享的、供應用使用的服務總線。 2.2 FitData特點 l 廣泛適應性:支持結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù);支持實時數(shù)據(jù)。 l 巨量數(shù)據(jù):數(shù)據(jù)處理能力在PB級以上。 l 線性擴展:存儲、計算均可增加節(jié)點進行線性擴展。 l 統(tǒng)一運維管理:降低安裝部署、運營、維護成本。 l 經(jīng)濟性:可運行在普通X86服務器上,硬件成本低。 l 高可靠性:支持容災容錯、備份恢復機制,支持自動告警。支持節(jié)點可靠性、數(shù)據(jù)可靠性。 l 高性能:高效數(shù)據(jù)處理性能,支持Spark、Storm、R。 l 認證安全:支持Kerberos安全認證、LDAP賬戶管理控制。 l 數(shù)據(jù)安全:支持數(shù)據(jù)加密。 l 負載均衡:支持節(jié)點間存儲、技術(shù)負載均衡。 l 開放性:支持符合Hadoop規(guī)范的第三方組件或工具。 2.3 FitData主要功能 FitData是基于開源Hadoop開發(fā)的企業(yè)級大數(shù)據(jù)產(chǎn)品,提供PB級數(shù)據(jù)的采集、存儲和處理能力,支持數(shù)據(jù)加載、查詢、分析、挖掘等功能。 2.3.1 節(jié)點批量自動部署 通過以Web管理,以圖形界面的方式實現(xiàn)大數(shù)據(jù)平臺節(jié)點批量自動部署,只需添加主機名(或者IP地址)即可實現(xiàn)將節(jié)點服務器添加到集群中,截圖如下: 圖 向集群中添加節(jié)點 2.3.2 節(jié)點動態(tài)管理 通過web管理實現(xiàn)節(jié)點的動態(tài)添加、刪除,當存儲空間或者計算資源不足時,支持向集群中添加同等配置的服務器,實現(xiàn)大數(shù)據(jù)平臺在線動態(tài)擴容,而不需要停機處理,不影響平臺正常運行。 大數(shù)據(jù)平臺以Web圖形界面實現(xiàn)Hadoop集群監(jiān)控,包括大數(shù)據(jù)平臺的硬件資源、軟件資源、數(shù)據(jù)資源的監(jiān)控,以及整個Hadoop集群的工作負載。主要包括以下幾個方面: 2.3.3 服務組件狀態(tài)監(jiān)控 通過管理平臺可以看到所有目前已安裝的服務組件的健康狀況。 圖 服務組件運行狀況 2.3.4 計算資源負載監(jiān)控 通過管理平臺可以實時看到整個平臺的資源負載情況,包括集群的CPU、集群磁盤IO、集群網(wǎng)絡IO、HDFS IO,如下圖所示: 圖 計算資源監(jiān)控 2.3.5 多任務實時監(jiān)控 通過對集群運行任務的實時監(jiān)測,并根據(jù)任務優(yōu)先級和耗時不同對任務進行動態(tài)調(diào)度,減少出現(xiàn)大量任務等待和重要任務無法及時完成的可能,可以使Hadoop集群的運行變得更加高效合理。 (1)、系統(tǒng)根據(jù)各隊列資源的最小值分配集群資源,這樣可以按照需求對各任務隊列獲取的集群資源進行分配,而且不會出現(xiàn)集群資源的閑置浪費。 (2)、可以實現(xiàn)對各任務隊列獲取的集群資源大小實時動態(tài)調(diào)整,及時保證高優(yōu)先級任務所在隊列獲得更多的集群資源。 (3)、可以實現(xiàn)在某個任務隊列出現(xiàn)空閑時,將該任務隊列獲取的集群資源自動分配給其他繁忙的任務隊列,以使得集群資源利用最大化。 2.3.6 磁盤性能監(jiān)控 對集群機器的硬盤進行監(jiān)控,如下圖所示,詳細的展示出磁盤IO的利用率,讀寫速度,磁盤的等待時間。 圖:磁盤性能監(jiān)控 2.3.7 故障快速定位 大數(shù)據(jù)平臺具備完整的告警監(jiān)控和故障快速定位能力。能夠?qū)⒂嬎憧蚣艿拿總€作業(yè)進度、狀態(tài)、資源利用情況進行監(jiān)控,并通過可視化圖形界面進行展示。 當大數(shù)據(jù)平臺出現(xiàn)異常情況時,平臺能夠通過監(jiān)控系統(tǒng),對服務器節(jié)點宕機、集群異常、安全異常等異常事件進行預警、報警,并通過郵件、短信報警手段進行告警通知。提供預制的恢復規(guī)則和安全規(guī)則,對集群異常進行自動修復、自動限制非安全行為的操作。 大數(shù)據(jù)平臺能夠通過對告警信息的分析,快速定位平臺內(nèi)部出現(xiàn)故障的節(jié)點,對于因故障無法繼續(xù)提供服務器的節(jié)點進行標記,將平臺的作業(yè)任務自動分配到其他的節(jié)點上運行,同時,大數(shù)據(jù)平臺采用分布式體系結(jié)構(gòu)及無單點故障設計,平臺內(nèi)任何節(jié)點的宕機都不會影響平臺的穩(wěn)定運行和業(yè)務的正常使用。待故障節(jié)點恢復正常后,再將該節(jié)點納入平臺的資源中,將作業(yè)任務分配到恢復后的節(jié)點上運行。 2.3.8 日常運維監(jiān)控 大數(shù)據(jù)綜合平臺提供完整的日常運維監(jiān)控的服務能力,針對從上層應用平臺到底層基礎(chǔ)平臺的各個功能模塊和組件均提供有監(jiān)控能力,能夠分析系統(tǒng)的運行日志和用戶日志,并且能夠?qū)⒈O(jiān)控數(shù)據(jù)通過文件接口或webservice接口的方式匯總到平臺管理運維模塊的監(jiān)控管理界面中進行統(tǒng)一呈現(xiàn)和管理使用。系統(tǒng)能夠根據(jù)監(jiān)控到的數(shù)據(jù)進行分析判斷,對異常的數(shù)據(jù)觸發(fā)告警,在前臺界面提醒,直至出發(fā)通知和處理等進一步動作。 平臺的監(jiān)控范圍涵蓋有: l 平臺管理資源的使用與分配 o 服務器視圖:提供針對各服務器和存儲等設備的資源使用情況的實時查看,包括當前設備的CPU負荷,內(nèi)存占用情況,存儲空間使用情況,網(wǎng)絡帶寬占用情況、設備運行狀態(tài)等。管理員能夠根據(jù)監(jiān)控信息在管理平臺上有效調(diào)度分配系統(tǒng)資源。其中集群的監(jiān)控如下圖所示: 針對服務器的監(jiān)控如下圖所示: o 服務視圖:提供系統(tǒng)中各服務資源使用情況的實時查看,包括連接數(shù)、當前作業(yè)數(shù),I/O情況,運行狀態(tài)等。 l 監(jiān)控系統(tǒng)的運行情況 o 接口服務運行監(jiān)控:提供針對數(shù)據(jù)源和應用層的監(jiān)控服務,包括運行狀態(tài)和流量等信息; o 數(shù)據(jù)存取過程監(jiān)控:提供針對數(shù)據(jù)存儲過程的監(jiān)控服務,包括系統(tǒng)平臺的I/O情況(整體I/O和具體各節(jié)點I/O以及具體的各作業(yè)的I/O情況)和數(shù)據(jù)存取過程的任務列表; o 數(shù)據(jù)匯聚過程監(jiān)控:監(jiān)控系統(tǒng)的數(shù)據(jù)匯聚過程,包括使用資源信息,使用的數(shù)據(jù)源信息,作業(yè)進程運行狀況信息,使用時間/計劃完成時間等信息; o 數(shù)據(jù)處理過程監(jiān)控(作業(yè)監(jiān)控):監(jiān)控系統(tǒng)的數(shù)據(jù)處理(作業(yè))過程,包括使用資源信息,使用的數(shù)據(jù)源信息,作業(yè)進程運行狀況信息,使用時間/計劃完成時間等信息; o 應用監(jiān)控:針對運行在平臺上的應用進行監(jiān)控,包括各應用當前的運行狀態(tài)、應用對數(shù)據(jù)的使用狀況,應用為用戶提供的查詢數(shù)量等; l 系統(tǒng)異常告警與處理 o 用戶告警:對用戶操作使用過程中的異常行為進行告警,例如某用戶訪問了超過其正常權(quán)限的數(shù)據(jù)等。 o 系統(tǒng)告警:對系統(tǒng)中存在的服務節(jié)點宕機,系統(tǒng)接口異常,數(shù)據(jù)存儲報錯,系統(tǒng)資源緊張等系統(tǒng)運行異常情況進行告警觸發(fā),并提醒用戶進行操作處理。 2.4 FitData優(yōu)勢 烽火大數(shù)據(jù)平臺FitData借助先進開源的大數(shù)據(jù)存儲及處理技術(shù),成功實施了公安大數(shù)據(jù)平臺、楚天云政務大數(shù)據(jù)平臺,通過大數(shù)據(jù)項目的實施,逐步沉淀了大量的算法模型及分析與展示工具,在平臺性能及穩(wěn)定性上經(jīng)歷了實戰(zhàn)的考驗,逐步總結(jié)出一套FitData自己的系統(tǒng)優(yōu)化策略及系統(tǒng)運維策略,平臺經(jīng)受住了單節(jié)點超過1000臺集群的實戰(zhàn)考驗,并支持HA高可用性運行策略,經(jīng)過四年時間及高強度項目的錘煉,F(xiàn)itData大數(shù)據(jù)平臺已經(jīng)走出了自己的路。在數(shù)據(jù)處理上支持PB及超大量數(shù)據(jù)的秒級查詢及匯集。 SmartAS是企業(yè)級基礎(chǔ)開發(fā)平臺,它基于FitData平臺之上,采用微服務架構(gòu),支持分布式部署,是成熟可靠的多終端應用開發(fā)框架。它集成業(yè)界流行和成熟的技術(shù)框架,通過應用系統(tǒng)使用,反饋的情況不斷完善應用框架的通用功能,滿足業(yè)務系統(tǒng)快熟構(gòu)建的目標,具備良好用戶體驗 第3章 硬件部署 按照專家系統(tǒng)安裝接口規(guī)范要求,結(jié)合專家管理系統(tǒng)數(shù)據(jù)量估算值和數(shù)據(jù)存儲特點,本著數(shù)據(jù)安全、系統(tǒng)穩(wěn)定可靠的核心設計思路,設計專家系統(tǒng)大數(shù)據(jù)平臺數(shù)據(jù)節(jié)點服務器22臺,其中管理節(jié)點服務器2臺,數(shù)據(jù)節(jié)點服務器19臺,監(jiān)控節(jié)點一臺,系統(tǒng)RDBMS數(shù)據(jù)庫服務器臺,應用服務器6臺,繪制專家系統(tǒng)部署邏輯結(jié)構(gòu)圖如下: 第4章 硬件清單 根據(jù)系統(tǒng)規(guī)劃及安裝接口規(guī)范要求,初步規(guī)劃服務器如下:系統(tǒng)應用服務器需求6臺;大數(shù)據(jù)平臺設計節(jié)點22個,其中管理節(jié)點2個,數(shù)據(jù)節(jié)點19個,監(jiān)控節(jié)點服務器1臺,RDBMS數(shù)據(jù)庫服務器兩臺雙機熱備。具體各服務器硬件需求如下表: 編號 服務器名 配置 數(shù)量 說明 1 RDBMS數(shù)據(jù)庫服務器 4*Intel Xeon E7-4800/8800 v3 最大可擴展至4 CPU,72 核 支持8GB/16GB/32GB/64GB DDR4 高速內(nèi)存 配置128GB DDR4 內(nèi)存 配置9 塊900GB 15K SAS,14*4T NL SAS 硬盤。 2 雙機備份 2 大數(shù)據(jù)平臺管理節(jié)點 2*Intel Xeon E7-4800/8800 v3 最大可擴展至4 CPU,72 核 支持8GB/16GB/32GB/64GB DDR4 高速內(nèi)存 配置128GB DDR4 內(nèi)存 配置6 塊600GB 15K SAS,3*4T NL SAS 硬盤。 1 Active 3 大數(shù)據(jù)平臺管理節(jié)點 2*Intel Xeon E7-4800/8800 v3 最大可擴展至4 CPU,72 核 支持8GB/16GB/32GB/64GB DDR4 高速內(nèi)存 配置128GB DDR4 內(nèi)存 配置6 塊600GB 15K SAS,3*4T NL SAS 硬盤。 1 Standby 4 大數(shù)據(jù)平臺數(shù)據(jù)節(jié)點 2*Intel Xeon E7-4800/8800 v3 最大可擴展至4 CPU,72 核 支持8GB/16GB/32GB/64GB DDR4 高速內(nèi)存 配置128GB DDR4 內(nèi)存 配置6 塊600GB 15K SAS,12*4T NL SAS 硬盤。 19 數(shù)據(jù)節(jié)點 5 大數(shù)據(jù)集群性能檢測服務器 2*Intel Xeon E7-4800/8800 v3 最大可擴展至4 CPU,72 核 支持8GB/16GB/32GB/64GB DDR4 高速內(nèi)存 配置128GB DDR4 內(nèi)存 配置6 塊600GB 15K SAS,3*4T NL SAS 硬盤。 1 監(jiān)控節(jié)點 6 應用服務器 CPU:2 顆E5-2630 v3 ≥24 個內(nèi)存插槽,最大支持1.5TB 內(nèi)存,支持2133 MHz 內(nèi)存。當前配置64GB 內(nèi)存。 支持SAS、SSD 和PCIe SSD 硬盤,支持2.5 寸和3.5 寸硬盤混插。 支持24+2 個2.5 寸 SAS/SATA 或者 14 個3.5 寸 SAS/SATA + 2 個2.5 寸SAS/SATA +16 個 1.8" SSD。 硬盤:配置6 塊600GB 15K SAS 硬盤 2 應用服務器 7 交換機 48 10/100/1000Base-TX, 4 100/1000Base-X SFP 2 網(wǎng)絡設備 8 防火墻 多功能防火墻,4口以上 2 安防設備 9 工作站 Intel(R)Xeon CPU E5,配置1T SATA 硬盤。內(nèi)存:8GB 2 說明:硬件部分交換機、防火強及工作站,請根據(jù)標書確認!大數(shù)據(jù)服務器、RDBMS數(shù)據(jù)庫服務器及應用服務器的具體配置參數(shù)請硬件朋友和標書上進行重新確認,這邊只對內(nèi)存量、CPU顆數(shù)及存儲空間大小做了要求。 第5章 個人介紹 吳宏勛:“烽火集成”高級大數(shù)據(jù)架構(gòu)師,曾擔任醫(yī)療大數(shù)據(jù)、公安大數(shù)據(jù)、財稅大數(shù)據(jù)項目大數(shù)據(jù)架構(gòu)師,具有豐富的大數(shù)據(jù)項目實施經(jīng)驗,對高吞吐、高并發(fā)、海量數(shù)據(jù)實時匯集,TB、PB級海量數(shù)據(jù)即席查詢與實時處理具有針對性方案和經(jīng)驗,研讀過部分Hadoop、HBase、Spark源碼,對Hadoop、HBase、Spark的原理有很深的理解,曾從事多個項目大數(shù)據(jù)平臺的調(diào)優(yōu)工作! 第6章 專家系統(tǒng)架構(gòu)設計 本系統(tǒng)總共分為四個層次,從下到上依次為數(shù)據(jù)采集層、基礎(chǔ)平臺層、應用支撐層、應用及展示層,各層在專家系統(tǒng)統(tǒng)一業(yè)務規(guī)范、技術(shù)規(guī)范、安全規(guī)范下進行數(shù)據(jù)通信及集成。 1. 數(shù)據(jù)采集層:負責專家系統(tǒng)信息數(shù)據(jù)的匯集、轉(zhuǎn)換與加載,數(shù)據(jù)采集層提供多種數(shù)據(jù)采集方法:ETL、Flume、Kafka等,系統(tǒng)支持Flume+Kafka+Storm混合架構(gòu)的數(shù)據(jù)采集模式,以提高數(shù)據(jù)采集系統(tǒng)的吞吐量和并發(fā)量。 2. 基礎(chǔ)平臺層:基礎(chǔ)平臺層為專家數(shù)據(jù)倉庫提供大數(shù)據(jù)基礎(chǔ)平臺支撐,包括分布式存儲系統(tǒng)、Hbase數(shù)據(jù)庫系統(tǒng)、Yarn并行計算資源管理與監(jiān)控等,同時支持Spark 機器學習算法庫,支持R等行業(yè)分析庫。 3. 應用支撐層:應用支撐層為系統(tǒng)各類應用提供支撐,是系統(tǒng)數(shù)據(jù)層和應用層的連接紐帶。應用支撐層包括基礎(chǔ)平臺和常規(guī)算法兩個部分,基礎(chǔ)平臺負責數(shù)據(jù)的存儲與并行計算,數(shù)據(jù)存儲支持分布式存儲、RDBMS存儲等存儲方式,常規(guī)算法負責數(shù)據(jù)分析與業(yè)務建模。 4. 應用及展示層:應用層是系統(tǒng)各項業(yè)務功能的集合,主要包括資車輛故障診斷、車輛健康評估、車輛部件檢修、車輛故障處理及車輛對比分析等。展示層是用戶同系統(tǒng)交互的窗口,是應用層對外提供服務的主要手段。支持多種圖表展示如餅圖、柱狀圖、曲線圖、熱力圖、氣泡圖和散點圖等可視化展示。 第7章 平臺運維管理 7.1 Hadoop集群監(jiān)控 大數(shù)據(jù)平臺以Web圖形界面實現(xiàn)Hadoop集群監(jiān)控,包括大數(shù)據(jù)平臺的硬件資源、軟件資源、數(shù)據(jù)資源的監(jiān)控,以及整個Hadoop集群的工作負載。主要包括以下幾個方面: 7.1.1 服務組件狀態(tài)監(jiān)控 通過管理平臺可以看到所有目前已安裝的服務組件的健康狀況,綠色圈表示運行狀態(tài)健康。 圖:服務組件運行狀況 7.1.2 存儲與內(nèi)存資源監(jiān)控 包括獲取存儲量、剩余存儲量以及存儲系統(tǒng)整體情況信息。如果集群中的某臺機器的磁盤或者內(nèi)存的使用率達到指定的閥值,系統(tǒng)可以通過郵件或者短信的方式進行預警。 圖:存儲和內(nèi)存資源監(jiān)控 7.2 系統(tǒng)負載管理 I 通過管理平臺可以實時看到整個平臺的資源負載情況,包括集群的CPU、集群磁盤IO、集群網(wǎng)絡IO、HDFS IO,如下圖所示: 通過對集群運行任務的實時監(jiān)測,并根據(jù)任務優(yōu)先級和耗時不同對任務進行動態(tài)調(diào)度,減少出現(xiàn)大量任務等待和重要任務無法及時完成的可能,可以使Hadoop集群的運行變得更加高效合理。 (1)、系統(tǒng)根據(jù)各隊列資源的最小值分配集群資源,這樣可以按照需求對各任務隊列獲取的集群資源進行分配,而且不會出現(xiàn)集群資源的閑置浪費。 (2)、可以實現(xiàn)對各任務隊列獲取的集群資源大小實時動態(tài)調(diào)整,及時保證高優(yōu)先級任務所在隊列獲得更多的集群資源。 (3)、可以實現(xiàn)在某個任務隊列出現(xiàn)空閑時,將該任務隊列獲取的集群資源自動分配給其他繁忙的任務隊列,以使得集群資源利用最大化。 7.3 操作系統(tǒng)管理 7.3.1 磁盤性能監(jiān)控 對集群機器的硬盤進行監(jiān)控,如下圖所示,詳細的展示出磁盤IO的利用率,讀寫速度,磁盤的等待時間。 圖:磁盤性能監(jiān)控 7.3.2 故障快速定位 大數(shù)據(jù)平臺具備完整的告警監(jiān)控和故障快速定位能力。能夠?qū)⒂嬎憧蚣艿拿總€作業(yè)進度、狀態(tài)、資源利用情況進行監(jiān)控,并通過可視化圖形界面進行展示。 當大數(shù)據(jù)平臺出現(xiàn)異常情況時,平臺能夠通過監(jiān)控系統(tǒng),對服務器節(jié)點宕機等集群異常、安全異常等異常事件進行預警、報警,并通過郵件、短信等報警手段進行告警通知。提供預制的恢復規(guī)則和安全規(guī)則,對集群異常進行自動修復、自動限制非安全行為的操作。 大數(shù)據(jù)平臺能夠通過對告警信息的分析,快速定位平臺內(nèi)部出現(xiàn)故障的節(jié)點,對于因故障無法繼續(xù)提供服務器的節(jié)點進行標記,將平臺的作業(yè)任務自動分配到其他的節(jié)點上運行,同時,大數(shù)據(jù)平臺采用分布式體系結(jié)構(gòu)及無單點故障設計,平臺內(nèi)任何節(jié)點的宕機都不會影響平臺的穩(wěn)定運行和業(yè)務的正常使用。待故障節(jié)點恢復正常后,再將該節(jié)點納入平臺的資源中,將作業(yè)任務分配到恢復后的節(jié)點上運行。 7.3.3 運行日志監(jiān)控 針對每個服務組件運行的實時日志信息可以從平臺中查看,便于在服務組件運行中斷時查找和追蹤原因。例如,我們想要查看HBase服務組件中Mater角色的日志信息,如下圖所示: 7.4 平臺安全管理 在Hadoop 2.x中加入了Kerberos認證機制。Kerberos可以將認證的密鑰在集群部署時事先放到可靠的節(jié)點上。集群運行時,集群內(nèi)的節(jié)點使用密鑰得到認證。只有被認證過節(jié)點才能正常使用,防止惡意的使用或篡改Hadoop集群的問題,確保Hadoop集群的可靠安全。 7.5 數(shù)據(jù)質(zhì)量管理 7.5.1 數(shù)據(jù)標準化 數(shù)據(jù)標準化包括數(shù)據(jù)標準制定及數(shù)據(jù)標準化處理兩個部分,數(shù)據(jù)標準制定是在專家系統(tǒng)業(yè)務統(tǒng)一規(guī)范前提下,指導專家系統(tǒng)大數(shù)據(jù)標準,包括數(shù)據(jù)格式標準、數(shù)據(jù)交換標準、數(shù)據(jù)共享標準等;數(shù)據(jù)標準規(guī)范化是指按照統(tǒng)一專家系統(tǒng)數(shù)據(jù)標準格式。將專家信息數(shù)據(jù)進行標準化處理,生成符合專家系統(tǒng)數(shù)據(jù)標準要求的信息數(shù)據(jù)。 7.5.2 數(shù)據(jù)質(zhì)量檢測 根據(jù)數(shù)據(jù)質(zhì)量監(jiān)測規(guī)則,通過數(shù)據(jù)質(zhì)量檢測引擎,對數(shù)據(jù)表中的增量數(shù)據(jù)進行掃描,調(diào)用規(guī)則算法或擴展程序進行數(shù)據(jù)質(zhì)量檢測,并提供問題數(shù)據(jù)庫的建立、數(shù)據(jù)質(zhì)量報告的生成、問題數(shù)據(jù)的處理、以及對問題數(shù)據(jù)的通報和反饋來保證數(shù)據(jù)的質(zhì)量和實效性等功能。 7.5.3 數(shù)據(jù)關(guān)聯(lián) 對采集的數(shù)據(jù)庫根據(jù)數(shù)據(jù)間的業(yè)務關(guān)聯(lián)關(guān)系實現(xiàn)數(shù)據(jù)的關(guān)聯(lián),通過數(shù)據(jù)的關(guān)聯(lián),增加實體數(shù)據(jù)的維度,將單個的數(shù)據(jù)擴展成行業(yè)信息資源,提高數(shù)據(jù)的價值。- 1.請仔細閱讀文檔,確保文檔完整性,對于不預覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請點此認領(lǐng)!既往收益都歸您。
下載文檔到電腦,查找使用更方便
9.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標,表示該PPT已包含配套word講稿。雙擊word圖標可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設計者僅對作品中獨創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 數(shù)據(jù)倉庫 建設 方案
鏈接地址:http://m.kudomayuko.com/p-6596417.html