《基于數(shù)據(jù)倉(cāng)庫(kù)的聯(lián)機(jī)分析處理技術(shù)》由會(huì)員分享,可在線閱讀,更多相關(guān)《基于數(shù)據(jù)倉(cāng)庫(kù)的聯(lián)機(jī)分析處理技術(shù)(3頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、基于數(shù)據(jù)倉(cāng)庫(kù)的聯(lián)機(jī)分析處理技術(shù)
摘 要:摘要:數(shù)據(jù)倉(cāng)庫(kù)是信息業(yè)界的明日之星,數(shù)據(jù)倉(cāng)庫(kù)與聯(lián)機(jī)事務(wù)處理(OLAP)是過(guò)去十幾年來(lái)最熱門的信息領(lǐng)域,它們的目標(biāo)是以計(jì)算機(jī)來(lái)取代許多當(dāng)前的作業(yè)。文章首先介紹了數(shù)據(jù)倉(cāng)庫(kù)和聯(lián)機(jī)分析處理技術(shù)的基本概念,比較并分析了它們同傳統(tǒng)的數(shù)據(jù)庫(kù)的差異,最后介紹并探討了聯(lián)機(jī)分析處理技術(shù)的發(fā)展領(lǐng)域。
關(guān)鍵詞:關(guān)鍵詞:數(shù)據(jù)倉(cāng)庫(kù);聯(lián)機(jī)分析處理;聯(lián)機(jī)事務(wù)處理;傳統(tǒng)數(shù)據(jù)庫(kù)
中圖分類號(hào):TP392文獻(xiàn)標(biāo)志碼:A文章編號(hào):引言:隨著市場(chǎng)競(jìng)爭(zhēng)的日趨激烈,信息對(duì)于企業(yè)的生存和發(fā)展發(fā)揮著越來(lái)越重要的作用。與此同時(shí),在各個(gè)領(lǐng)域產(chǎn)生了大量的數(shù)據(jù),但是面對(duì)不斷增加如潮水
2、般的數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)庫(kù)管理系統(tǒng)已無(wú)法滿足決策支持系統(tǒng)對(duì)數(shù)據(jù)的要求,因此人們提出了更深層次的問(wèn)題:能不能從數(shù)據(jù)中 提取信息或者知識(shí)為決策服務(wù)。在這種情況下,一種適用于決策支持系統(tǒng)的數(shù)據(jù)組織與管理技術(shù)—數(shù)據(jù)倉(cāng)庫(kù)1技術(shù)應(yīng)運(yùn)而生。1.?dāng)?shù)據(jù)倉(cāng)庫(kù)技術(shù)1.1 數(shù)據(jù)庫(kù)到數(shù)據(jù)倉(cāng)庫(kù)的演變傳統(tǒng)的數(shù)據(jù)庫(kù)與OLTP(On-Line Transaction Process)平臺(tái)并不是為了分析數(shù)據(jù)而設(shè)計(jì)的,用戶可以在一個(gè)OLTP平臺(tái)上安裝數(shù)個(gè)應(yīng)用系統(tǒng),它在數(shù)據(jù)共享、數(shù)據(jù)與應(yīng)用程序的獨(dú)立性、維護(hù)數(shù)據(jù)的一致性和完整行及數(shù)據(jù)的安全保密性等方面提供了有效的手段。但是當(dāng)它與分析型應(yīng)用結(jié)合時(shí),卻出現(xiàn)了許多問(wèn)題。首先,利用傳統(tǒng)的數(shù)據(jù)庫(kù)進(jìn)
3、行數(shù)據(jù)分析,分析的結(jié)果缺乏可靠性。其次,利用傳統(tǒng)的數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)處理,其效率很低。第三,傳統(tǒng)的數(shù)據(jù)庫(kù)難以將數(shù)據(jù)轉(zhuǎn)化成信息。第四,傳統(tǒng)的數(shù)據(jù)庫(kù)系統(tǒng)主要用于事務(wù)處理,而在事務(wù)處理型的應(yīng)用環(huán)境中直接構(gòu)建分析決策型應(yīng)用是不可能的。所以,為了提高分析和決策的效率和有效性,面向分析決策型應(yīng)用的數(shù)據(jù)處理及其數(shù)據(jù)必須與事務(wù)處理型應(yīng)用環(huán)境分離,建立單獨(dú)的分析決策型應(yīng)用環(huán)境。數(shù)據(jù)倉(cāng)庫(kù)正是為了解決這一問(wèn)題而誕生的一種數(shù)據(jù)存儲(chǔ)和組織技術(shù)。數(shù)據(jù)倉(cāng)庫(kù)與傳統(tǒng)的數(shù)據(jù)庫(kù)的不同之處在于數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、不可更新的、隨時(shí)間不斷變化的數(shù)據(jù)集合,它可以支持企業(yè)或組織的決策分析處理2。2. 聯(lián)機(jī)分析處理技術(shù)聯(lián)機(jī)分析處理O
4、LAP(On-Line Analytical Processing)技術(shù)3是基于數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行數(shù)據(jù)分析的一種技術(shù)。OLAP可使企業(yè)數(shù)據(jù)分析人員、企業(yè)經(jīng)理及企業(yè)其他管理人員通過(guò)對(duì)企業(yè)信息的多種可能的觀察角度進(jìn)行快速、一致和交互性的存取,以獲得對(duì)信息的深入理解。2.1 OLAP的基本特性O(shè)LAP是數(shù)據(jù)處理的一種技術(shù)概念,其定義簡(jiǎn)單的概括為:共享多維信息的快速分析。OLAP通過(guò)對(duì)多維信息以很多種可能的觀察方式進(jìn)行快速、穩(wěn)定一致和交互性的存取,允許管理決策人對(duì)數(shù)據(jù)進(jìn)行深入觀察。其特點(diǎn)4有四個(gè)方面:(1)快速性。用戶對(duì)OLAP的快速反應(yīng)能力有很高的要求。要求系統(tǒng)能在幾秒鐘內(nèi)對(duì)用戶的多數(shù)分析要求做出反應(yīng);(
5、2)可分析性。OLAP系統(tǒng)應(yīng)能處理與應(yīng)用有關(guān)的任何邏輯分析和統(tǒng)計(jì)分析;(3)多維性。多維性是OLAP的關(guān)鍵屬性和靈魂,系統(tǒng)能夠提供對(duì)數(shù)據(jù)分析的多維視圖和分析,包括層次維和多重層次維的支持。(4)信息性。OLAP系統(tǒng)能夠及時(shí)獲得信息,并且管理大容量信息;(5)共享性。共享性是在大量用戶間實(shí)現(xiàn)潛在地共享秘密數(shù)據(jù)所必須的安全需求。2.2 OLAP的基本分析操作OLAP的基本操作是指通過(guò)對(duì)多維形式組織起來(lái)的數(shù)據(jù)進(jìn)行切片、切塊、聚合、鉆取、旋轉(zhuǎn)等分析動(dòng)作,以求剖析數(shù)據(jù)使用戶能夠從多種維度、多個(gè)側(cè)面、多種數(shù)據(jù)綜合度查看數(shù)據(jù),從而深入地了解包含在數(shù)據(jù)中的信息、內(nèi)涵。(1)切片(Slicing)。切片操作就是
6、在某個(gè)或某些維上選定一個(gè)屬性成員,而在其他維上取一定區(qū)間的屬性成員,或全部屬性成員來(lái)觀察數(shù)據(jù)的一種分析方式。(2)切塊(Dicing)。切塊就是在各個(gè)維上取一定區(qū)間的成員屬性,或全部成員屬性來(lái)觀察數(shù)據(jù)的一種分析方式。從另一個(gè)角度講,切塊可以看成是在切片的基礎(chǔ)上,進(jìn)一步確定各個(gè)屬性成員的區(qū)間得到的片段體,也即由多個(gè)切片疊合起來(lái)。(3)鉆取(Drilling)。鉆取包含向下鉆(Drill-down)和向上鉆(Drill-up) /上卷(Roll-up)操作。下鉆指從概括性的數(shù)據(jù)出發(fā)獲得相應(yīng)的更詳細(xì)的數(shù)據(jù),上鉆則相反。鉆取的深度與維度所劃分的層次相對(duì)應(yīng)。(4)旋轉(zhuǎn)(Pivoting)。旋轉(zhuǎn)即改變一個(gè)
7、報(bào)告或頁(yè)面顯示的維方向。旋轉(zhuǎn)可能包含交換行和列,或是把某一個(gè)行維移到列為中去,或包頁(yè)面顯示中的一個(gè)維和頁(yè)面外的維進(jìn)行交換。3. OLAP與數(shù)據(jù)倉(cāng)庫(kù)在數(shù)據(jù)倉(cāng)庫(kù)中 ,OLAP和數(shù)據(jù)倉(cāng)庫(kù)是密不可分的,但是兩者是不同的概念。數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)包含企業(yè)歷史數(shù)據(jù)的大規(guī)模數(shù)據(jù)庫(kù),這些歷史數(shù)據(jù)要用于對(duì)企業(yè)的經(jīng)營(yíng)決策提供分析和支持。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是不能用于OLTP的,而OLAP則利用數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行聯(lián)機(jī)分析,將復(fù)雜的分析查詢結(jié)果快速地返回用戶。OLAP利用多維數(shù)據(jù)集和數(shù)據(jù)聚集技術(shù)對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行組織和匯總,用聯(lián)機(jī)分析和可視化工具對(duì)這些數(shù)據(jù)迅速進(jìn)行評(píng)價(jià)。OLAP可用多級(jí)結(jié)構(gòu)表示數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù),創(chuàng)建組織和
8、匯總數(shù)據(jù)的立方體,這樣才能有效的提高用戶復(fù)雜查詢的要求。因此數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu)將直接影響立方體的設(shè)計(jì)和構(gòu)造,也就影響了OLAP的工作效率。從OLAP使用的效率角度考慮,在設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)時(shí)應(yīng)該考慮一下幾個(gè)因素:(1)盡可能使用星型架構(gòu),如果采用雪花結(jié)構(gòu),就要最小化事實(shí)表底層維度表以后的維度表數(shù)量。(2)為用戶設(shè)計(jì)包含事實(shí)表的維度表,這些維度表應(yīng)該包含有意義的、用戶希望了解的信息。(3)度表的設(shè)計(jì)應(yīng)該符合通常意義上的范式約束,維度表中不要出現(xiàn)無(wú)關(guān)的數(shù)據(jù)。(4)事實(shí)表中不要包含匯總數(shù)據(jù),事實(shí)表中包含的用戶需要訪問(wèn)的數(shù)據(jù)應(yīng)該具有必需的粒度,這些數(shù)據(jù)應(yīng)該是同一層次的數(shù)據(jù)。(5)對(duì)事實(shí)表和維度表中的關(guān)鍵字必須創(chuàng)
9、建索引,同一中數(shù)據(jù)盡可能使用一個(gè)事實(shí)表。(6)保證數(shù)據(jù)的參考完整性,使事實(shí)表中的所有數(shù)據(jù)都出現(xiàn)在所有的維度表中,避免事實(shí)表中的某些數(shù)據(jù)行在立方體進(jìn)行聚集運(yùn)算時(shí)沒(méi)有參加過(guò)來(lái)。4. OLAP的發(fā)展OLAP技術(shù)5是在市場(chǎng)競(jìng)爭(zhēng)日益激烈,決策人員迫切需要準(zhǔn)確及時(shí)并且可以靈活訪問(wèn)的決策信息的背景下興起的。其主要的發(fā)展領(lǐng)域?yàn)椋海?)市場(chǎng)和銷售分析幾乎每個(gè)商業(yè)公司都需要此類軟件,但其大規(guī)模分布在:生活消費(fèi)品行業(yè)、零售業(yè)、金融服務(wù)業(yè)。此類行業(yè)通常都需要用發(fā)哦OLAP能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行復(fù)雜的分析和統(tǒng)計(jì)功能。(2)電子
商務(wù)分析電子商務(wù)網(wǎng)站記錄了用戶在網(wǎng)上的所有行為,為更精細(xì)的分析用戶行為提供了可能。一個(gè)典型
10、的商業(yè)網(wǎng)站每天都產(chǎn)生大量的數(shù)據(jù),簡(jiǎn)單手工分析顯然難以勝任,用多維、分層OLAP可以很好的把這些數(shù)據(jù)組織起來(lái)。(3)基于歷史數(shù)據(jù)的營(yíng)銷通過(guò)各種不同的歷史數(shù)據(jù),用數(shù)據(jù)挖掘或統(tǒng)計(jì)的方法,找到針對(duì)某項(xiàng)服務(wù)或商品的銷售對(duì)象。雖然傳統(tǒng)上不是OLAP的范圍,但是通過(guò)多維數(shù)據(jù)分析的引入,會(huì)取得更好的效果。(4)預(yù)算預(yù)算通常是從下到上提交和從上到下約束的反復(fù)過(guò)程,OLAP工具可以在這個(gè)過(guò)程中提供分析能力。預(yù)算制定者利用OLAP提供的工具瀏覽市場(chǎng)、銷售、生成及合并計(jì)劃等企業(yè)全方位的數(shù)據(jù),得到一個(gè)較合理的方案,也可以利用這些數(shù)據(jù)自動(dòng)制定出方案。(5)財(cái)務(wù)報(bào)告與整合早起的財(cái)務(wù)報(bào)告整合系統(tǒng)與現(xiàn)在OLAP相似,但是OLA
11、P利用對(duì)多維數(shù)據(jù)的分析能夠更好的對(duì)其進(jìn)行管理。(6)管理報(bào)告(7)利益率分析(8)質(zhì)量分析5. 小結(jié)數(shù)據(jù)倉(cāng)庫(kù)和聯(lián)機(jī)分析處理技術(shù)在市場(chǎng)競(jìng)爭(zhēng)日益激烈的的背景下逐漸興起,目前正處于快速發(fā)展的階段。文章首先對(duì)數(shù)據(jù)倉(cāng)庫(kù)和聯(lián)機(jī)分析處理技術(shù)做了詳細(xì)介紹并將它們和傳統(tǒng)的數(shù)據(jù)庫(kù)做了對(duì)比,得出數(shù)據(jù)倉(cāng)庫(kù)和聯(lián)機(jī)分析處理技術(shù)是在傳統(tǒng)數(shù)據(jù)庫(kù)無(wú)法到達(dá)設(shè)計(jì)者需求下產(chǎn)生的。文章最后對(duì)聯(lián)機(jī)分析處理技術(shù)的發(fā)展領(lǐng)域做了介紹和分析。相信在不久的將來(lái)基于數(shù)據(jù)倉(cāng)庫(kù)的聯(lián)機(jī)分析處理技術(shù)定會(huì)成為處理數(shù)據(jù)的主流技術(shù)。
參考文獻(xiàn): HanJiawei,LuHongjun:The Leeture of Datamining and DatawarehouseSP Onsoredby:IBM China University RelationshiPs,1995年
基金項(xiàng)目:國(guó)家自然科學(xué)基金青年基金(61103195);國(guó)家博士后基金項(xiàng)目(20100480048)