IBM數(shù)據倉庫解決方案(簡).doc
《IBM數(shù)據倉庫解決方案(簡).doc》由會員分享,可在線閱讀,更多相關《IBM數(shù)據倉庫解決方案(簡).doc(24頁珍藏版)》請在裝配圖網上搜索。
1.1 技術架構設計 成功地實施一個倉庫項目,通常需要很長的時間。如果僅僅著眼于短期成果,缺乏整體考慮,采用一種不健全的體系結構,不僅會增加系統(tǒng)開發(fā)和維護成本,而且必將對發(fā)揮數(shù)據倉庫的作用造成不利的影響。因此一個綜合,清晰的遠景規(guī)劃及技術實施藍圖將在整個項目的實施過程中起到重要作用。 技術架構必須具有高度先進性和可擴展性,以滿足業(yè)務需求的不斷變化。一個完整的數(shù)據倉庫系統(tǒng)包括數(shù)據源、數(shù)據轉換區(qū)、數(shù)據倉庫、數(shù)據集市、和數(shù)據展現(xiàn)層,通過數(shù)據倉庫不同層次之間的加工過程,實現(xiàn)財政從數(shù)據資產向信息資產的轉化過程。在不同層次之間的數(shù)據加工過程需要通過ETL技術實現(xiàn),并對整個過程進行有效的元數(shù)據管理。 基于對需求的理解,基于財政部的信息系統(tǒng)框架模型基礎之上的財政決策支持系統(tǒng)技術架構如下圖所示: 如上圖所示意,通過搭建靈活的、可擴展技術架構,在保持數(shù)據集市穩(wěn)定性的同時,可以不斷增加數(shù)據源,增加應用數(shù)據層、增加應用層,滿足不斷增加的業(yè)務分析應用需求。 采用DW+ODS的數(shù)據倉庫體系結構,使用全新的ETL模式對ODS進程每日數(shù)據更新,按周或月周期對數(shù)據倉庫執(zhí)行ETL過程。使用COGNOS BI做為前端的查詢分析和數(shù)據挖掘工具,可滿足各種日常數(shù)據處理操作,從即時簡單報表查詢到多維多級數(shù)據分析和挖掘,都能夠在統(tǒng)一COGNOS BI平臺上完成。 1.1.1 數(shù)據源和數(shù)據接口 數(shù)據源指存儲于財政各個業(yè)務系統(tǒng)的業(yè)務數(shù)據,以及未來的財政監(jiān)管和外部數(shù)據。數(shù)據倉庫系統(tǒng)將整合來自于這些系統(tǒng)的數(shù)據,形成財政統(tǒng)一的、一致的基礎數(shù)據集,并提供給不同的應用主題形成數(shù)據集市。各個系統(tǒng)在體系架構、開發(fā)平臺、數(shù)據定義、接口標準都會存在不同程度的差異;另外由于業(yè)務的不斷變化,歷史數(shù)據與當前數(shù)據之間的含義也可能存在不同,因此數(shù)據整合必須充分考慮源系統(tǒng)在技術和數(shù)據方面存在的差異。 數(shù)據倉庫系統(tǒng)將采用文本文件的方式從源系統(tǒng)獲取數(shù)據。每個源系統(tǒng)會就與數(shù)據倉庫之間就傳輸數(shù)據接口文件(IFF)的格式和方法制定標準,稱之為接口規(guī)范。 每個數(shù)據源會首先通過各自的數(shù)據導出程序(Extractor)生成接口文件存儲在各自的文件緩沖區(qū)內。這個Extractor負責各自范圍內導出數(shù)據的完備性和一致性,包括: 1) 依照各自的業(yè)務規(guī)則確定增量數(shù)據的導出方法 2) 保證導出文件的格式符合接口規(guī)范的要求 3) 保證導出文件的傳輸時間的及時性 4) 保證接口文件的數(shù)據質量,不錯數(shù)、不丟數(shù)、不多數(shù) 1.1.2 財政數(shù)據倉庫 財政數(shù)據倉庫(EDW),存儲和管理來自源數(shù)據系統(tǒng)的數(shù)據,按照數(shù)據模型分主題進行組織和存放,包括當期的和較長時間的歷史數(shù)據。數(shù)據倉庫的核心是企業(yè)級數(shù)據模型的規(guī)劃和設計,是所有應用的基礎。接下來我們分別對EDW每個數(shù)據區(qū)域做詳細介紹。 1) 接口文件區(qū) 接口文件區(qū)是存儲和處理接口文件的區(qū)域,如前面章節(jié)所述,接口文件區(qū)在系統(tǒng)下按照特定的目錄結構組織起來。用一些系統(tǒng)命令和工具來管理。對每個目錄按照其特定的用途設定對不同用戶的訪問權限,比如誰能讀,誰能寫,誰能改等。 2) 細節(jié)數(shù)據暫存區(qū)SSA(SOR Staging Area) SSA的主要目的是支持把接口文件的裝載到數(shù)據庫,對其進行驗證和處理,然后把數(shù)據整合到SOR內。驗證的方法主要是將新轉載的數(shù)據與SOR內已有的數(shù)據進行查找和比較。SSA內數(shù)據結構的設計原則是最大限度的利用接口文件的數(shù)據結構,盡量降低實體的個數(shù),同時很好的支持后續(xù)的ETL過程。 3) 細節(jié)數(shù)據SOR(System Of Record) SOR是基于模型開發(fā)的一套符合3NF范式規(guī)范的表結構。SOR存儲了數(shù)據倉庫內最細節(jié)層次的數(shù)據,按照不同的主題域進一步分分類組織。此模型是整個數(shù)據倉庫數(shù)據模型的核心,其設計為具有足夠的靈活性,以能夠應對添加更多的數(shù)據源,支持更多分析需求,同時也能夠支持進一步升級和更新。 為了能夠在數(shù)據倉庫內記錄數(shù)據的變化以支持歷史趨勢和變化分析,SOR在一些 關鍵的屬性值上會跟蹤變化(比如客戶的信用度、狀態(tài)等)。跟蹤變化的常見方法就是利用漸變維的Type 2方法來處理記錄,在表內增加一條記錄變化數(shù)據的新記錄。同時為了降低不必要的存儲空間的浪費(相同數(shù)據的重復存儲),我們可以把實體中動態(tài)變化的屬性與靜態(tài)不變或只需覆蓋不需跟蹤變化的屬性分開。比如對用戶,我們可以用一張表存放不變化的用戶靜態(tài)屬性,用另一張表存放經常變化的用戶行為屬性,當跟蹤用戶行為的變化時我們只需在用戶行為表內添加記錄就行了,沒必要把沒有發(fā)生變化的用戶靜態(tài)表內的數(shù)據也復制一份。 4) 匯總數(shù)據區(qū)Summary 匯總數(shù)據區(qū)是為了方便查詢和后續(xù)多維數(shù)據的更新,創(chuàng)建一些常用的中間匯總表,以提高性能和降低后續(xù)ETL工作的復雜性。 由于SOR是高度規(guī)范化的數(shù)據,因此要完成一個查詢需要大量的關聯(lián)操作;同時數(shù)據集市中的數(shù)據粒度往往要比SOR高很多,對要成生數(shù)據集市所需數(shù)據也需要大量的匯總計算,因此如果我們把常用的數(shù)據預先關聯(lián)和匯總好,并讓其盡量多在多個數(shù)據集市的計算中共享,就能大幅度的提高整個ETL工作和數(shù)據倉庫查詢的性能。 5) 反饋數(shù)據區(qū)(Feedback Area) 反饋數(shù)據區(qū)主要記錄的是數(shù)據倉庫自身生成的結果。比如用戶對營銷活動的反饋等。數(shù)據倉庫的特性決定了用戶在原則上不能直接修改數(shù)據倉庫中的數(shù)據,因此用戶的修改數(shù)據和其它生成數(shù)據必須單獨記錄,以便于追蹤歷史和進行比較。 6) 元數(shù)據存儲MDR(Meta Data Repository) 元數(shù)據存儲用來保存關于數(shù)據倉庫中的過程、數(shù)據的信息(日志、數(shù)據詞典、配置信息等)。由于各個工具和系統(tǒng)都會生成自己的元數(shù)據,同時我們還利用元數(shù)據管理工具把這些元數(shù)據盡可能的集中存儲到數(shù)據倉庫中的MDR內,因此MDR總的來說只是一個共享元數(shù)據供用戶集中訪問的地方,真正元數(shù)據的維護地還是在生成這些元數(shù)據的系統(tǒng)或工具內。 1.1.3 數(shù)據集市 數(shù)據集市設計用途是要滿足特定的目的,同時具有查詢、多維分析、報表和數(shù)據挖掘功能。這與企業(yè)數(shù)據倉庫截然不同,設計時企業(yè)數(shù)據倉庫在信息內容與結構方面盡可能擁有開放性與靈活性。 數(shù)據集市有以下特征: n 為特定用途而設計——數(shù)據集市設計的目的,是支持特定用戶對數(shù)據子集的特定范圍的查詢。它以用戶所要求的方式提供企業(yè)數(shù)據倉庫的細節(jié)匯總。 n 優(yōu)化——數(shù)據集市為了支持特定工具的訪問而優(yōu)化。根據工具、根據企業(yè)數(shù)據倉庫提供的信息子集來設計數(shù)據集市,而不是讓用戶直接訪問企業(yè)數(shù)據倉庫中的大型數(shù)據庫,這可以改善數(shù)據集市的性能。 n 虛擬或物理數(shù)據集市——數(shù)據集市可以是物理的實現(xiàn),也可以是企業(yè)數(shù)據倉庫表的各種視圖。使用視圖(虛擬數(shù)據集市)可以避免存儲數(shù)據的多個副本,簡化了數(shù)據管理。 數(shù)據集市,即Data Mart,指面向專項應用領域的分析主題。Data Mart即是通過OLAP技術或者數(shù)據挖掘技術,利用數(shù)據倉庫的數(shù)據根據用戶需求建立的數(shù)據集市模型,大大提高了前端查詢訪問的效率,用戶能方便地實現(xiàn)靈活、動態(tài)、快速、多角度、多層次地分析企業(yè)數(shù)據。同時,也可以通過定制靈活的OLTP查詢來了解明細數(shù)據。 1.1.4 數(shù)據的抽取、轉換、加載(ETL) 數(shù)據倉庫的數(shù)據來源于業(yè)務處理系統(tǒng),但是數(shù)據倉庫的數(shù)據并不是對源系統(tǒng)數(shù)據的簡單疊加,它需要按照數(shù)據倉庫的邏輯模型和物理模型,在源系統(tǒng)數(shù)據分析的基礎上,按照源系統(tǒng)數(shù)據和數(shù)據倉庫數(shù)據之間的映射關系,經過數(shù)據的抽取(Extraction)、轉換 (Transformation)和加載(Loading)等環(huán)節(jié)方可進入數(shù)據倉庫,這個過程簡稱為ETL處理。 數(shù)據經過數(shù)據抽取、轉換和加載處理進入數(shù)據倉庫的整個過程可以簡稱為ETL過程。ETL是搭建數(shù)據倉庫數(shù)據平臺的基礎,也是保證數(shù)據倉庫的數(shù)據質量的具體實現(xiàn)。根據基于數(shù)據倉庫項目開發(fā)的經驗,在大多數(shù)據倉庫的實施過程當中,ETL都是一個非常復雜、耗時的過程,其工作量約占整個數(shù)據倉庫項目的40-50%,占數(shù)據倉庫設計階段工作量的70-80%,有許多原因影響這一階段的時間和進度。比如對原有業(yè)務系統(tǒng)和舊的操作環(huán)境的了解有限,原系統(tǒng)文檔不全等。因為這些原因,使ETL任務花了許多時間在了解舊的業(yè)務應用以及如何抽取數(shù)據上。ETL實施困難另一個原因是原有的系統(tǒng)平臺沒有足夠的容量/系統(tǒng)資源來支持數(shù)據抽取處理,系統(tǒng)資源不足可能表現(xiàn)為:CPU、磁盤空間、I/O帶寬或沒有一個有效的窗口去運行抽取、轉換程序。 ETL過程不僅工作量大,而且還受到很多時間窗口的限制,它不僅需要在不同的特定(非確定)的時間抽取數(shù)據,而且還必須要在特定的時間范圍內把數(shù)據加載到數(shù)據倉庫。由于ETL過程是數(shù)據倉庫應用系統(tǒng)每天都要進行的工作, ETL設計的科學性和效率性是非常重要的,關系到數(shù)據倉庫項目的成敗。 ETL遵循如下設計原則: n 靈活性:不同的時間段中能夠進行數(shù)據獲取、轉換、裝載。 n 可重復性:支持失敗的ETL任務行數(shù)據重新裝載。 n 模塊化:ETL過程分步實施,每個過程通過不同的模塊組件來完成。并盡可能復用這些組件;從而提高ETL實施效率,增加數(shù)據倉庫的可維護性。 n 迭代方法:滿足當前的業(yè)務需求,盡可能搭建滿足未來的業(yè)務需求的平臺上不斷開發(fā)實施。 n ETL邏輯順序:依賴業(yè)務系統(tǒng)數(shù)據處理方式,來定義ETL處理流程控制。例如:在銀行的ETL過程中,交易記錄信息的數(shù)據裝載應該在賬戶信息進入數(shù)據倉庫之后進行。 1.1.4.1 第一步:數(shù)據抽取 在源系統(tǒng)上啟動數(shù)據抽取控制程序,完成以下工作: 1、數(shù)據采集 考慮到數(shù)據來源的多樣性和復雜性,數(shù)據采集主要包括: l 對業(yè)務系統(tǒng)的數(shù)據采集:在日終結后,當日數(shù)據自動、增量地轉儲到數(shù)據備份機上,作為數(shù)據倉庫的數(shù)據源并成為數(shù)據備份策略的一部分。 l 對于稅收計劃、外部數(shù)據、納稅人財務報表的數(shù)據采集。可根據實際需要,采用多種途徑。 2、數(shù)據發(fā)送 在數(shù)據采集完成后,各系統(tǒng)上的抽取控制程序將數(shù)據文件和校驗文件通過局域網發(fā)送到數(shù)據轉換區(qū)。 1.1.4.2 第二步:數(shù)據裝入轉換區(qū) 1. 檢查數(shù)據是否到位 根據校驗文件,檢查源系統(tǒng)數(shù)據是否到位、是否存在傳輸錯誤等異常情況。如果數(shù)據不全或傳輸出現(xiàn)錯誤,如果出錯,將出錯結果寫入錯誤日志,重新執(zhí)行第一步。 2. 將外部數(shù)據文件裝入數(shù)據庫 把來自外部源數(shù)據源的格式化數(shù)據轉化成數(shù)據庫、表結構。 3. 修改系統(tǒng)狀態(tài): 待該步驟工作完成后,將系統(tǒng)狀態(tài)改為抽取工作完成。 注:若直接從業(yè)務系統(tǒng)數(shù)據庫中抽取數(shù)據,則無須數(shù)據轉換區(qū)步驟。 1.1.4.3 第三步:數(shù)據質量檢查和出錯處理 1. 狀態(tài)檢查: 查詢參數(shù)表,如果數(shù)據抽取工作已經完成,開始執(zhí)行該步驟工作。 2. 數(shù)據質量檢查: 根據檢查規(guī)則,數(shù)據質量檢查程序掃描源數(shù)據數(shù)據表,根據規(guī)則檢查數(shù)據是否合法,給出檢查報告和最終的數(shù)據質量報告并寫入數(shù)據庫,數(shù)據質量檢查結果寫入質量檢查報告。 3. 出錯處理: 如果出現(xiàn)嚴重出錯,停止ETL工作,需要系統(tǒng)維護人員現(xiàn)場做出相應的處理,修改正確后,重新執(zhí)行該步驟工作;對于警告級出錯,繼續(xù)進行下述步驟。 4. 修改系統(tǒng)狀態(tài): 待該步驟工作完成后,將系統(tǒng)狀態(tài)改為數(shù)據質量檢查工作完成。 1.1.4.4 第四步:數(shù)據轉換 1、狀態(tài)檢查 查詢參數(shù)表,如果數(shù)據質量檢查工作已經完成,開始執(zhí)行該步工作。 2、數(shù)據轉換 根據數(shù)據倉庫要求的數(shù)據源格式在Staging Area中進行并行轉換處 理,并將轉換的結果數(shù)據存放在待裝載數(shù)據存放區(qū)。 3、生成轉換報告 記錄數(shù)據轉換情況,并寫入數(shù)據庫轉換日志中。 4、修改系統(tǒng)狀態(tài): 待該步驟工作完成后,將系統(tǒng)狀態(tài)改為數(shù)據轉換工作完成。 1.1.4.5 第五步:數(shù)據加載 1、狀態(tài)檢查 查詢參數(shù)表,如果數(shù)據質量檢查工作已經完成,開始執(zhí)行該步驟工作。 2、數(shù)據裝入數(shù)據倉庫 采用非依賴數(shù)據并行加載的策略,將待裝載數(shù)據區(qū)的數(shù)據裝入中心數(shù)據倉庫,如果標準代碼表發(fā)生變化,數(shù)據裝載程序將標準代碼的變化情況增量加載到數(shù)據倉庫代碼表中。 3、數(shù)據加載情況報告 記錄數(shù)據加載情況,并寫入數(shù)據倉庫數(shù)據庫的參數(shù)表中。 4、修改系統(tǒng)狀態(tài): 待該步驟工作完成后,將系統(tǒng)狀態(tài)改為數(shù)據轉換工作完成。 1.1.4.6 第六步:加載時間維 1. 狀態(tài)檢查 查詢參數(shù)表,如果數(shù)據加載工作已經完成,開始執(zhí)行該步驟工作。 2. 加載時間維 根據當前的時間,依據數(shù)據集市多維模型,完成時間維的加載工作。 3. 修改系統(tǒng)狀態(tài): 待該步驟工作完成后,將系統(tǒng)狀態(tài)改為時間維加載工作完成。 1.1.4.7 第七步:加載事實表 1. 狀態(tài)檢查 查詢參數(shù)表,如果時間維加載工作已經完成,開始執(zhí)行該步驟工作。 2. 加載事實表 以數(shù)據倉庫數(shù)據為數(shù)據源,依據數(shù)據集市多維模型,完成事實表的加載工作。 3. 修改系統(tǒng)狀態(tài): 待該步驟工作完成后,將系統(tǒng)狀態(tài)改為事實表加載工作完成。 1.1.4.8 第八步:加載聚合表 1. 狀態(tài)檢查 查詢參數(shù)表,如果事實表加載工作已經完成,開始執(zhí)行該步驟工作。 2. 加載聚合表 以事實表為數(shù)據源,依據數(shù)據集市多維模型,完成聚合表的加載工作。 3. 修改系統(tǒng)狀態(tài): 待該步驟工作完成后,將系統(tǒng)狀態(tài)改為ETL工作結束。 1.1.5 數(shù)據展現(xiàn) 數(shù)據訪問及展現(xiàn)是通過信息門戶,將各類數(shù)據集市應用通過統(tǒng)一的平臺展現(xiàn)給財政各類用戶。同時提供數(shù)據分析結果的表達、共享與傳遞的功能,是信息服務的主要界面,主要包括信息展現(xiàn)與人機交互、信息發(fā)布等。 本次的展現(xiàn)選擇**的報表分析平臺,詳細功能見附件一。 1.2 數(shù)據架構設計 數(shù)據倉庫的體系結構包括4 個層次的數(shù)據:數(shù)據源、數(shù)據倉庫層和數(shù)據集市層。 1) 數(shù)據源(業(yè)務系統(tǒng))包含面向操作應用的原始數(shù)據以及外部錄入數(shù)據,主要服務于高性能的事務處理。 2) 數(shù)據倉庫層(包括ODS 和DW)存儲企業(yè)的歷史數(shù)據,其數(shù)據是規(guī)范的、穩(wěn)定的。 i. 數(shù)據倉庫包含當前數(shù)據、綜合數(shù)據、歷史數(shù)據的組織和整理。通過數(shù)據抽取平臺獲取的各業(yè)務數(shù)據,從邏輯上和業(yè)務上是獨立的、分散的,要實現(xiàn)一體化的查詢功能,必須對分散的業(yè)務數(shù)據進行抽取和整合。如將分散的單位基礎信息、預算數(shù)據、支出數(shù)據通過一定的策略,整理形成一套編碼統(tǒng)一、業(yè)務連貫的數(shù)據體系,這是一體化查詢系統(tǒng)成功的關鍵。 3) 數(shù)據集市層(包括Relational Data Mart 和Star-Schema Data Mart 和OLAP)是面向部門的、滿足最終用戶需求的數(shù)據,數(shù)據集市中的數(shù)據是反規(guī)范的、匯總的。 數(shù)據整理平臺基于各業(yè)務數(shù)據,可以根據不同的用戶查詢需求,定制數(shù)據整理策略。根據查詢角度的不同,按決策的主題要求形成當前的基本數(shù)據層,按綜合決策的要求構成綜合數(shù)據層,隨著時問的推移,由時間控制機制將當前基本數(shù)據層轉為歷史數(shù)據層。 4) 數(shù)據展現(xiàn)層(前端展現(xiàn))是面向業(yè)務用戶的需求展現(xiàn),包括使用報表、多維分析、即席查詢等基本功能,提供告警、統(tǒng)計算法等高級功能。 第二章 基于基礎資料系統(tǒng)的數(shù)據模型設計 2.1 基本緯度數(shù)據模型設計 “金財工程”一體化需以系統(tǒng)統(tǒng)一的數(shù)據字典和統(tǒng)一的編碼體系為基礎,以統(tǒng)一的應用支撐平臺作保障,通過本級財政業(yè)務流程的整合,實現(xiàn)對任一筆資金的跟蹤和回溯。 為了實現(xiàn)對數(shù)據的集中使用,就要從需求出發(fā),在充分考慮到數(shù)據的可共享性、系統(tǒng)未來的可擴展性等因素,定義一套標準數(shù)據格式,為系統(tǒng)的建設打下一個良好的基礎。它包括各種涉及的基礎編碼表:如預算科目表、經濟科目表、預算單位編碼表、企業(yè)登記表、稅種表、預算級次表等。 數(shù)據字典是財政業(yè)務系統(tǒng)間需要統(tǒng)一維護管理、支持同步和共享的數(shù)據元、基礎代碼集、基礎配置數(shù)據和相關命名規(guī)范的統(tǒng)稱。其中數(shù)據元又稱數(shù)據類型,包括定義、標識、表示以及允許值等一系列屬性描述的數(shù)據單元。通常所說的業(yè)務要素就是財政業(yè)務系統(tǒng)中構成業(yè)務數(shù)據的比較重要的數(shù)據元,該類數(shù)據元均有相應的基礎代碼集。 數(shù)據字典中主要包括的內容:財政業(yè)務管理涉及到的所有的數(shù)據元及共享的基礎代碼集;共用的用戶列表;相關配置數(shù)據及系統(tǒng)開發(fā)需遵循的命名規(guī)范。 我們將按照省廳建設的基礎數(shù)據資料庫來進行基本緯度模型的建設。 2.2 基礎資料系統(tǒng)維護功能 模塊 功能模塊 功能說明 框架 單點登錄 多系統(tǒng)實現(xiàn)單點登錄 權限控制 統(tǒng)一的功能權限控制機制 日志 統(tǒng)一的系統(tǒng)級、功能級、數(shù)據級操作日志 選擇年度 選擇所需要操作的年度和帳套,設置默認的年度; 修改密碼 修改當前用戶的登錄系統(tǒng)密碼; 注銷 注銷當前用戶,退出系統(tǒng),返回到登錄頁面; 幫助 隱藏 隱藏和顯示頁面上方軟件標題欄和左方菜單欄; 基礎資料 創(chuàng)建新年度 系統(tǒng)設置 應用設置 設置應用的名稱以及一些基礎信息; 選項表設置 設置選項表以及下拉菜單信息; 參數(shù)設置 設置各個應用的所在服務器的IP值以及一些其他的固定的參數(shù); 應用權限設置 設置數(shù)據授權中的用戶和單位對應用中的要素的權限是否公有; 用戶對賬本年度 設置用戶與賬本年度對應關系,也即用戶訪問賬本年度的權限; 緩存管理 刷新緩存的功能; 要素維護 預算單位 設置預算單位名稱以及基本信息; 功能科目 設置功能科目名稱以及基本信息; 會計科目 設置會計科目名稱以及基本信息; 經濟科目 設置經濟科目名稱以及基本信息; 預算項目 設置預算項目名稱以及基本信息; 收費項目 設置收費項目名稱以及基本信息; 資金來源 設置資金來源名稱以及基本信息; 指標類型 設置指標類型名稱以及基本信息; 資金性質 設置資金性質名稱以及基本信息; 財政歸口部門 設置財政歸口部門名稱以及基本信息; 數(shù)據授權 用戶對預算單位 設置用戶與預算單位對應關系; 用戶對會計科目 設置用戶與會計科目對應關系; 用戶對功能科目 設置用戶與功能科目對應關系; 用戶對經濟科目 設置用戶與經濟科目對應關系; 用戶對預算項目 設置用戶與預算項目對應關系; 用戶對收費項目 設置用戶與收費項目對應關系; 用戶對指標類型 設置用戶與指標類型對應關系; 用戶對資金來源 設置用戶與資金來源對應關系; 單位對會計科目 設置預算單位與會計科目對應關系; 單位對功能科目 設置預算單位與功能科目對應關系; 單位對經濟科目 設置預算單位與經濟科目對應關系; 單位對預算項目 設置預算單位與預算項目對應關系; 處室對單位 設置財政歸口部門與預算單位之間的對應關系; 用戶對歸口 設置用戶與財政歸口部門之間的對應關系; 功能授權 用戶 設置用戶的基本信息以及用戶與財政歸口部門和預算單位之間的對應關系; 崗位 設置崗位的基本信息; 功能 設置功能(也即各個應用的菜單和按鈕)的基本信息和鏈接地址等; 功能轉授 把當前用戶的功能轉授給其他用戶的設置; 用戶對崗位 設置用戶與崗位的對應關系; 崗位對功能 設置崗位與功能的對應關系; 權限轉授 用戶對會計科目 把當前用戶會計科目的數(shù)據權限轉授給其他用戶; 用戶對經濟科目 把當前用戶經濟科目的數(shù)據權限轉授給其他用戶; 用戶對指標類型 把當前用戶指標類型的數(shù)據權限轉授給其他用戶; 用戶對收費項目 把當前用戶收費項目的數(shù)據權限轉授給其他用戶; 用戶對預算項目 把當前用戶預算項目的數(shù)據權限轉授給其他用戶; 用戶對資金來源 把當前用戶資金來源的數(shù)據權限轉授給其他用戶; 2.3 數(shù)據邏輯建模 邏輯建模是數(shù)據倉庫實施中的重要一環(huán), 因為它能直接反映出決策者管理者的需求, 同時對系統(tǒng)的物理實施有著重要的指導作用。目前較常用的兩種建模方法是所謂的第三范式(3NF, 即 Third Normal Form)和星型模式 (Star-Schema),3NF 是數(shù)據庫設計的基礎理論,這里不再展開。 星型模式是一種多維的數(shù)據關系,它由一個事實表(Fact Table)和一組維表(Dimension Table)組成。每個維表都有一個維作為主鍵,所有這些維的主鍵組合成事實表的主鍵。事實表的非主鍵屬性稱為事實 (Fact),它們一般都是數(shù)值或其他可以進行計算的數(shù)據; 而維大都是文字、時間等類型的數(shù)據,按這種方式組織好數(shù)據我們就可以按照不同的維(事實表的主鍵的部分或全部)來對這些事實數(shù)據進行求和(summary)、求平均(average)、計數(shù)(count)、百分比(percent)的聚集計算,甚至可以做20-80 分析。這樣就可以從不同的角度數(shù)字來分析業(yè)務主題的情況,下面給出一個直觀的例子。 功能分類維 功能分類標準碼 類 款 項 …… 業(yè)務處室維 業(yè)務處室編碼 業(yè)務處室名稱 …… 時間維 時間代碼 年 季度 月 …… 單位維 單位編碼 一級單位編碼 一級單位名稱 二級單位編碼 …… 預算執(zhí)行情況分析 功能分類標準碼 業(yè)務處室編碼 時間代碼 單位編碼 指標金額 計劃金額 支付金額 …… 圖8-3 預算執(zhí)行情況星型模型 圖三是一個典型的財政預算執(zhí)行情況分析的模型設計,其中加邊框的為主關鍵字(PK, Primary Key),其中預算執(zhí)行情況分析表是一個事實表,其中的指標金額,計劃金額,支付金額是需要從各角度觀察的數(shù)據(事實),而觀察的角度是有功能分類、業(yè)務處室、時間和單位這四個方面組合進行,這些分析角度的有機組合,可以對指標金額、計劃金額和支付金額進行多種組合的數(shù)據統(tǒng)計分析,以此實現(xiàn)對預算執(zhí)行情況的多角度(維)多層次(數(shù)據不同的匯總程度)的分析,預算執(zhí)行情況分析人員既可以宏觀地看到財政業(yè)務的整體情況,又可以微觀地觀察到具體某預算單位某天支出的細節(jié)信息。多維分析的時候,維度選擇越多數(shù)據越細節(jié)(劃分得更細了),維度選擇越少數(shù)據越匯總越宏觀。 這樣一個中間一個大表形成主表,周圍一組小表與主表相關聯(lián)的結構,形態(tài)上呈星星和雪花的形狀,星型模型是數(shù)據倉庫的數(shù)據模型與其他數(shù)據庫應用相區(qū)分的一個重要特征。 星型 雪花 數(shù)據倉庫典型的邏輯模型形狀 第三章 數(shù)據抽取平臺建設 數(shù)據轉換平臺是將分布式物理存儲的源數(shù)據,轉換到統(tǒng)一存儲的數(shù)據倉庫中。從分布式源數(shù)據庫中獲取對財政一體化查詢系統(tǒng)用戶有用的數(shù)據、過濾掉不需要的內容、驗證數(shù)據的質量、數(shù)據清理、數(shù)據融合、到最后數(shù)據裝載入數(shù)據倉庫中。數(shù)據抽取是數(shù)據進入倉庫的入口,財政一體化查詢系統(tǒng)涉及多個分布式數(shù)據源,需要通過抽取過程將數(shù)據從聯(lián)機事務處理系統(tǒng)、外部數(shù)據源、脫機的數(shù)據存儲介質中導入到數(shù)據倉庫。根據源數(shù)據的不同性質,應選用不同的數(shù)據抽取方法。本系統(tǒng)中,對于Oracle、sybase等關系數(shù)據庫中的數(shù)據,我們通過交易日志的方法進行數(shù)據抽取,而對于其它半結構化或非結構化數(shù)據,我們選用靜態(tài)數(shù)據、時間標記、文件比較等方法實現(xiàn)數(shù)據抽取。 3.1 設計原則 l 高數(shù)據質量原則: 保證進入數(shù)據倉庫數(shù)據的質量,將垃圾數(shù)據排除在數(shù)據倉庫之外。 l 自動化原則: ETL過程應盡量自動完成,減少人為干預程度。 l 可追溯原則: ETL的相關工作結果,應留有痕跡,給出相應的報告,以便跟蹤和分析。 l 參數(shù)化設計原則: 采用參數(shù)化的設計思想,減少編程的工作量,增強系統(tǒng)的靈活性和可維護性。 l 效率性原則: 采用并行處理等設計方法,減少ETL時間,提高ETL效率。 l 源系統(tǒng)不修改原則: 盡量不對源系統(tǒng)進行修改,將對源系統(tǒng)的影響降低到最低程度。 l 方便性原則。 ETL設計應充分考慮系統(tǒng)運行后管理和維護的方便性和易用性。 3.2 ETL抽取過程設計 ETL工具采用Cognos產品本身的ETL工具 3.2.1 ETL過程概述 ETL流程是指源系統(tǒng)數(shù)據經過數(shù)據抽取、轉換和加載處理進入數(shù)據倉庫的整個過程。ETL流程主要包括以下主要步驟: 1. 數(shù)據抽取: 數(shù)據抽取就是將數(shù)據倉庫需要的業(yè)務數(shù)據抽取到數(shù)據轉換區(qū)的過程。(這里的數(shù)據轉換區(qū)也可以僅僅是一個邏輯的概念,即數(shù)據的抽取到轉換采取數(shù)據不落地的方式完成) 2. 數(shù)據檢查和出錯處理: 在數(shù)據轉換區(qū)中,對源系統(tǒng)數(shù)據質量進行檢查,形成檢查報告,并進行相應的出錯處理,對于嚴重錯誤,需要系統(tǒng)維護人員現(xiàn)場做出相應的處理。 3. 數(shù)據轉換: 數(shù)據轉換包括對源系統(tǒng)數(shù)據進行整理、剔除、合并、驗證等一系列轉換工作,最后形成數(shù)據倉庫物理數(shù)據結構所需的數(shù)據,存放在轉換區(qū)的數(shù)據表中。 4. 數(shù)據加載: 數(shù)據加載將數(shù)據轉換的結果數(shù)據加載到數(shù)據倉庫,并形成數(shù)據加載情況的報告。 3.2.2 ETL過程詳述 本期項目ETL的過程具體描述如下: 第一步: 數(shù)據抽取 在源系統(tǒng)上啟動數(shù)據抽取控制程序,完成以下工作: 1、 數(shù)據采集 考慮到數(shù)據來源的多樣性和復雜性,數(shù)據采集主要包括: l 對業(yè)務系統(tǒng)的數(shù)據采集:在日終結后,當日數(shù)據自動、增量地轉儲到數(shù)據備份機上,作為數(shù)據倉庫的數(shù)據源并成為數(shù)據備份策略的一部分。 l 對于稅收計劃、外部數(shù)據、納稅人財務報表的數(shù)據采集??筛鶕嶋H需要,采用多種途徑。 2、 數(shù)據發(fā)送 在數(shù)據采集完成后,各系統(tǒng)上的抽取控制程序將數(shù)據文件和校驗文件通過局域網發(fā)送到數(shù)據轉換區(qū)。 第二步:數(shù)據裝入轉換區(qū) 1. 檢查數(shù)據是否到位 根據校驗文件,檢查源系統(tǒng)數(shù)據是否到位、是否存在傳輸錯誤等異常情況。如果數(shù)據不全或傳輸出現(xiàn)錯誤,如果出錯,將出錯結果寫入錯誤日志,重新執(zhí)行第一步。 2. 將外部數(shù)據文件裝入oracle數(shù)據庫 把來自外部源數(shù)據源的格式化數(shù)據轉化成oracle數(shù)據庫、表結構。 3. 修改系統(tǒng)狀態(tài): 待該步驟工作完成后,將系統(tǒng)狀態(tài)改為抽取工作完成。 注:若直接從業(yè)務系統(tǒng)數(shù)據庫中抽取數(shù)據,則無須數(shù)據轉換區(qū)步驟。 第三步:數(shù)據質量檢查和出錯處理 1. 狀態(tài)檢查: 查詢參數(shù)表,如果數(shù)據抽取工作已經完成,開始執(zhí)行該步驟工作。 2. 數(shù)據質量檢查: 根據檢查規(guī)則,數(shù)據質量檢查程序掃描源數(shù)據數(shù)據表,根據規(guī)則檢查數(shù)據是否合法,給出檢查報告和最終的數(shù)據質量報告并寫入數(shù)據庫,數(shù)據質量檢查結果寫入質量檢查報告。 3. 出錯處理: 如果出現(xiàn)嚴重出錯,停止ETL工作,需要系統(tǒng)維護人員現(xiàn)場做出相應的處理,修改正確后,重新執(zhí)行該步驟工作;對于警告級出錯,繼續(xù)進行下述步驟。 4. 修改系統(tǒng)狀態(tài): 待該步驟工作完成后,將系統(tǒng)狀態(tài)改為數(shù)據質量檢查工作完成。 第四步:數(shù)據轉換 1、 狀態(tài)檢查 查詢參數(shù)表,如果數(shù)據質量檢查工作已經完成,開始執(zhí)行該步工作。 2、 數(shù)據轉換 根據數(shù)據倉庫要求的數(shù)據源格式在Staging Area中進行并行轉換處理,并將轉換的結果數(shù)據存放在待裝載數(shù)據存放區(qū)。 3、 生成轉換報告 記錄數(shù)據轉換情況,并寫入數(shù)據庫轉換日志中。 4、 修改系統(tǒng)狀態(tài): 待該步驟工作完成后,將系統(tǒng)狀態(tài)改為數(shù)據轉換工作完成。 第五步:數(shù)據加載 l 狀態(tài)檢查 查詢參數(shù)表,如果數(shù)據質量檢查工作已經完成,開始執(zhí)行該步驟工作。 l 數(shù)據裝入數(shù)據倉庫 采用非依賴數(shù)據并行加載的策略,將待裝載數(shù)據區(qū)的數(shù)據裝入中心數(shù)據倉庫,如果標準代碼表發(fā)生變化,數(shù)據裝載程序將標準代碼的變化情況增量加載到數(shù)據倉庫代碼表中。 l 數(shù)據加載情況報告 記錄數(shù)據加載情況,并寫入數(shù)據倉庫數(shù)據庫的參數(shù)表中。 l 修改系統(tǒng)狀態(tài): 待該步驟工作完成后,將系統(tǒng)狀態(tài)改為數(shù)據轉換工作完成。 第六步:加載時間維 1. 狀態(tài)檢查 查詢參數(shù)表,如果數(shù)據加載工作已經完成,開始執(zhí)行該步驟工作。 2. 加載時間維 根據當前的時間,依據數(shù)據集市多維模型,完成時間維的加載工作。 3. 修改系統(tǒng)狀態(tài): 待該步驟工作完成后,將系統(tǒng)狀態(tài)改為時間維加載工作完成。 第七步:加載事實表 1. 狀態(tài)檢查 查詢參數(shù)表,如果時間維加載工作已經完成,開始執(zhí)行該步驟工作。 2. 加載事實表 以數(shù)據倉庫數(shù)據為數(shù)據源,依據數(shù)據集市多維模型,完成事實表的加載工作。 3. 修改系統(tǒng)狀態(tài): 待該步驟工作完成后,將系統(tǒng)狀態(tài)改為事實表加載工作完成。 第八步:加載聚合表 1. 狀態(tài)檢查 查詢參數(shù)表,如果事實表加載工作已經完成,開始執(zhí)行該步驟工作。 2. 加載聚合表 以事實表為數(shù)據源,依據數(shù)據集市多維模型,完成聚合表的加載工作。 3. 修改系統(tǒng)狀態(tài): 待該步驟工作完成后,將系統(tǒng)狀態(tài)改為ETL工作結束。 3.2.3 ETL時間約束 數(shù)據抽取的范圍涉及財政核心業(yè)務系統(tǒng)數(shù)據,主要是五大塊內容:稅收收入數(shù)據、非稅收入數(shù)據、部門預算、支出數(shù)據、專項支出數(shù)據、其他系統(tǒng)數(shù)據。其中:其他系統(tǒng)數(shù)據包含固定資產、統(tǒng)發(fā)工資等相關財政業(yè)務系統(tǒng)數(shù)據。平臺在數(shù)據抽取時根據用戶對數(shù)據的查詢需求,可以實時、按天、按月取數(shù)。 是指對在每天的特定時間必須要完成的事件進行嚴格的控制。對時間的限制建議可以表示為下圖: 圖4-2:ETL時間階段示意圖 從上圖可以看出,為了保證每天業(yè)務人員及時使用數(shù)據倉庫系統(tǒng),對ETL時間通常有如下要求: n 3:30之前完成數(shù)據從源系統(tǒng)到數(shù)據轉換區(qū)的數(shù)據抽取工作。 n 5:00之前完成數(shù)據轉換區(qū)內的數(shù)據轉換工作。 n 6:00之前完成轉換后數(shù)據到數(shù)據倉庫的數(shù)據加載工作。 n 8:00之前完成數(shù)據倉庫到數(shù)據集市多維數(shù)據庫的ETL工作。 ETL的時間窗口通常在4-6小時,考慮到將來系統(tǒng)數(shù)據的增長,ETL工具的處理效率和擴展性是關鍵。 3.3 后臺對應規(guī)則的設置 平臺中的數(shù)據由于來自不同的業(yè)務系統(tǒng),各數(shù)據的編碼可能不一致,系統(tǒng)能與后臺設置各編碼的進行對應關系管理; 用戶對預算單位 設置用戶與預算單位對應關系; 用戶對會計科目 設置用戶與會計科目對應關系; 用戶對功能科目 設置用戶與功能科目對應關系; 用戶對經濟科目 設置用戶與經濟科目對應關系; 用戶對預算項目 設置用戶與預算項目對應關系; 用戶對收費項目 設置用戶與收費項目對應關系; 用戶對指標類型 設置用戶與指標類型對應關系; 用戶對資金來源 設置用戶與資金來源對應關系; 單位對會計科目 設置預算單位與會計科目對應關系; 單位對功能科目 設置預算單位與功能科目對應關系; 單位對經濟科目 設置預算單位與經濟科目對應關系; 單位對預算項目 設置預算單位與預算項目對應關系; 處室對單位 設置財政歸口部門與預算單位之間的對應關系; 用戶對歸口 設置用戶與財政歸口部門之間的對應關系; 預算項目對執(zhí)行項目 設置預算項目與執(zhí)行項目之間的對應關系 …………… …………….. 3.3.1 數(shù)據抽取程序的設計原則 數(shù)據倉庫需要的數(shù)據存在于不同種類、不同技術平臺的業(yè)務系統(tǒng)中,數(shù)據抽取就是從這些不同的數(shù)據源中抽取數(shù)據作為數(shù)據倉庫的原材料。本項目數(shù)據抽取設計時,采用以下方法: 1. 直接從源業(yè)務系統(tǒng)抽取最原始的數(shù)據,不抽取派生數(shù)據。 2. 只抽取源系統(tǒng)中本期項目需要的數(shù)據庫表。 3.3.2 數(shù)據抽取方式 1. 初始抽取 數(shù)據初始抽取指按照需求設計要求,把數(shù)據倉庫要求的各業(yè)務系統(tǒng)的數(shù)據源一次性抽取并加載到數(shù)據倉庫,本項目初始抽取的數(shù)據范圍為源業(yè)務系統(tǒng)當天日終后的數(shù)據。 初次加載時間可定為投入運行的當月業(yè)務系統(tǒng)處理結束后進行。 2. 增量抽取 在數(shù)據倉庫系統(tǒng)投入運行后,只抽取業(yè)務系統(tǒng)的增量數(shù)據到數(shù)據倉庫,增量數(shù)據包括業(yè)務系統(tǒng)新增數(shù)據和變化數(shù)據兩部分,采用增量抽取的方法確保每次最小的數(shù)據子集加載到數(shù)據倉庫里。 第四章 數(shù)據整理平臺建設 數(shù)據整理平臺實現(xiàn)數(shù)據倉庫中當前數(shù)據、綜合數(shù)據、歷史數(shù)據的組織和整理。通過數(shù)據抽取平臺獲取的各業(yè)務數(shù)據,從邏輯上和業(yè)務上是獨立的、分散的,要實現(xiàn)一體化的查詢功能,必須對分散的業(yè)務數(shù)據進行抽取和整合。如將分散的單位基礎信息、預算數(shù)據、支出數(shù)據通過一定的策略,整理形成一套編碼統(tǒng)一、業(yè)務連貫的數(shù)據體系,這是一體化查詢系統(tǒng)成功的關鍵。 數(shù)據整理平臺基于各業(yè)務數(shù)據,可以根據不同的用戶查詢需求,定制數(shù)據整理策略。根據查詢角度的不同,按決策的主題要求形成當前的基本數(shù)據層,按綜合決策的要求構成綜合數(shù)據層,隨著時問的推移,由時間控制機制將當前基本數(shù)據層轉為歷史數(shù)據層。 4.1 數(shù)據轉換設計 4.1.1 數(shù)據轉換的工作內容 數(shù)據轉換是數(shù)據倉庫項目中數(shù)據管理部分的核心內容,這個過程會直接影響數(shù)據倉庫數(shù)據的質量,數(shù)據轉換主要設計以下工作內容: l 數(shù)據整理: 這一處理過程將數(shù)據從源系統(tǒng)中的結構和格式轉換成數(shù)據倉庫所需的結構和格式。 l 數(shù)據清理: 數(shù)據清理通常用來處理已知的某一數(shù)據源的數(shù)據質量問題,數(shù)據清理主要是根據相關的業(yè)務規(guī)則來糾正數(shù)據質量問題,給數(shù)據倉庫中的數(shù)據一個合理的取值。 l 數(shù)據驗證: 這一過程確保所選擇的數(shù)據成功采集、在轉換處理過程中保證數(shù)據的完整性。 4.1.2 數(shù)據轉換程序的設計原則 根據本次的項目特點,數(shù)據轉換設計采用如下設計方法: 1. 數(shù)據轉換程序首先完成數(shù)據整理工作,保證數(shù)據格式的正確性。 2. 數(shù)據倉庫中不需要的數(shù)據(記錄和/或字段)應該盡早剝離掉。 3. 只有數(shù)據質量問題無法在源應用系統(tǒng)中修復的時候才采用數(shù)據清洗的方法。這些問題可能需要源應用系統(tǒng)中相應程序的改變,也可能只需要用戶執(zhí)行一個數(shù)據清掃的任務。 4. 數(shù)據轉換時,確證滿足數(shù)據倉庫的數(shù)據參考完整性要求。 5. 采用參數(shù)化的設計方法,以便新的條件和規(guī)則增加時,只需要做最少的配置參數(shù)的工作。 6. 轉換程序的設計采用模塊化的設計方法,以便于數(shù)據倉庫的后續(xù)階段的共享。 4.2 數(shù)據質量檢查和出錯處理 4.2.1 數(shù)據質量檢查 數(shù)據質量檢查是為了保證數(shù)據倉庫中數(shù)據的正確性,防止不符合規(guī)則的數(shù)據進入數(shù)據倉庫。由于源業(yè)務系統(tǒng)的多種多樣,以及對各自業(yè)務關注點的不同,很有可能會有一些數(shù)據是不完整的,也就是不能滿足數(shù)據倉庫分析功能的需要。為了保證數(shù)據分析的正確性,我們就需要對這些數(shù)據進行質量檢查,使正確的數(shù)據進入數(shù)據倉庫,同時在數(shù)據轉換區(qū)內保留不完整的數(shù)據,這些被保留的數(shù)據經過數(shù)據管理員和業(yè)務人員的共同維護,使之滿足數(shù)據倉庫分析功能的需要,并能正確反映業(yè)務系統(tǒng)的實際情況。 由于數(shù)據質量檢查內容的不同,我們在數(shù)據ETL的不同階段進行不同的數(shù)據質量檢查任務,并根據檢查結果進行相應的出錯處理。 4.2.2 出錯級別 將源數(shù)據的質量分為三級:正常級、警告級和嚴重錯誤級。三種定義為: l 正常級: 數(shù)據符合業(yè)務規(guī)則所賦予的意義和數(shù)據庫數(shù)據格式的定義。 l 警告級: 源數(shù)據的非關鍵屬性殘缺、內容和長度不符規(guī)范等一些非關鍵錯誤。 l 錯誤級: 數(shù)據質量發(fā)現(xiàn)嚴重的錯誤,不能啟動數(shù)據轉換和加載過程。 4.2.3 出錯處理設計 如果在檢查過程中發(fā)現(xiàn)了存在有警告級和錯誤級錯誤,則將錯誤記錄的信息記錄在檢查錯誤結果表中,根據不同的錯誤級別采取不同的處理方式: l 警告級: 記錄出錯信息,可以繼續(xù)后續(xù)工作。 l 錯誤級: 只要存在錯誤級錯誤,則停止執(zhí)行后續(xù)工作,需要系統(tǒng)維護人員現(xiàn)場做出相應的處理,修改正確后,重新執(zhí)行數(shù)據質量檢查工作。- 配套講稿:
如PPT文件的首頁顯示word圖標,表示該PPT已包含配套word講稿。雙擊word圖標可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設計者僅對作品中獨創(chuàng)性部分享有著作權。
- 關 鍵 詞:
- IBM 數(shù)據倉庫 解決方案
裝配圖網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
鏈接地址:http://m.kudomayuko.com/p-6576538.html