數(shù)據(jù)倉庫數(shù)據(jù)挖掘與信息管理ppt課件
《數(shù)據(jù)倉庫數(shù)據(jù)挖掘與信息管理ppt課件》由會員分享,可在線閱讀,更多相關《數(shù)據(jù)倉庫數(shù)據(jù)挖掘與信息管理ppt課件(37頁珍藏版)》請在裝配圖網(wǎng)上搜索。
數(shù)據(jù)挖掘技術,1,前言,學習目的和方向 數(shù)據(jù)倉庫-新型的信息管理手段 數(shù)據(jù)挖掘-新型的信息分析技術 基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘更加有效,2,教材 數(shù)據(jù)倉庫和數(shù)據(jù)挖掘 蘇新寧、楊建林等編著,清華大學出版社,2006 參考書 數(shù)據(jù)挖掘:概念與技術,[加]韓家煒 坎伯(Kamber,M.)著 范明等譯 微軟公司核心技術書庫 SQL Server 2000數(shù)據(jù)挖掘技術指南,[美]希德曼(Seidman,C.)著 劉藝 等譯 數(shù)據(jù)挖掘原理, [英]漢德(Hand,D.)著 張銀奎等譯,前言,3,參考書 數(shù)據(jù)倉庫原理與實踐,林宇等編著 數(shù)據(jù)倉庫中的決策支持,瑞 Gray 沃森 Watson Oracle9i數(shù)據(jù)倉庫分析、構建實用指南,飛思科技產(chǎn)品研發(fā)中心編著 數(shù)據(jù)挖掘討論組,前言,4,主要內容,第1章 數(shù)據(jù)倉庫、數(shù)據(jù)挖掘與信息管理 第2章 數(shù)據(jù)挖掘的功能、過程與方法 第3章 數(shù)據(jù)庫挖掘 第4章 文本挖掘 第5章 Web挖掘 第6章 數(shù)據(jù)挖掘應用 第7章 數(shù)據(jù)挖掘軟件發(fā)展分析,5,第1章 數(shù)據(jù)倉庫、數(shù)據(jù)挖掘與信息管理,,6,數(shù)據(jù)倉庫的起源,數(shù)據(jù)庫與數(shù)據(jù)倉庫是信息資源管理的兩種手段 企業(yè)用戶信息的需求有了新的變化,傳統(tǒng)的數(shù)據(jù)庫很難勝任這方面的要求 數(shù)據(jù)倉庫可以很好地滿足這方面的要求,7,1.1 企業(yè)信息用戶關心的新問題,一般來說,用戶關心下列問題: 可訪問性 即用戶能否得到他所需要的信息(例,教室占用率); 及時性 即用戶得到信息需要等多長時間(例,地質模擬,算最佳注水溫度、礦物濃度); 格式 即用戶能否用電子表格、圖形、地圖或其他分析工具來操縱他所得到數(shù)據(jù)、能否得到報表形式的數(shù)據(jù); 完整性 即用戶得到的數(shù)據(jù)是否可信(從不完整的數(shù)據(jù)中得出的結論可能不準確)。,8,1.1 企業(yè)信息用戶關心的新問題,傳統(tǒng)數(shù)據(jù)庫技術的局限性 傳統(tǒng)的數(shù)據(jù)庫技術以數(shù)據(jù)庫為中心進行從事務處理到?jīng)Q策分析等各種類型的數(shù)據(jù)處理工作,不適宜決策支持應用,9,1.1 企業(yè)信息用戶關心的新問題,事務處理環(huán)境不適宜決策支持應用的主要原因 事務處理和分析處理的性能特性不同 數(shù)據(jù)集成問題 歷史數(shù)據(jù)問題 數(shù)據(jù)綜合問題,10,1.2 解決問題的關鍵技術-數(shù)據(jù)倉庫,構建數(shù)據(jù)倉庫,把分析型數(shù)據(jù)從事務處理環(huán)境中提取出來,按照決策支持處理的需要進行重新組織,建立單獨的分析處理環(huán)境,11,1.2 解決問題的關鍵技術-數(shù)據(jù)倉庫,數(shù)據(jù)倉庫 Inmon把數(shù)據(jù)倉庫描述為一個“面向主題的、完整的、非易失的、不同時間的、用于支持決策管理的數(shù)據(jù)集合” 通常有兩種數(shù)據(jù)源的數(shù)據(jù)聚居在數(shù)據(jù)倉庫中 在大多數(shù)情況下,來自于事務處理系統(tǒng)周期性遷移的數(shù)據(jù)被移入數(shù)據(jù)倉庫 另一種數(shù)據(jù)源常常是購買過來的可以與內部數(shù)據(jù)相連通的外部數(shù)據(jù)庫,如收入清單、人口統(tǒng)計信息等,12,1.3數(shù)據(jù)倉庫的商業(yè)應用,典型應用:客戶關系管理 有了數(shù)據(jù)倉庫,就可以了解客戶是誰,他要什么,怎樣提供更好的服務給他,并以此創(chuàng)造更多利潤 零售業(yè) 電信行業(yè) 證券行業(yè),13,1.4 數(shù)據(jù)倉庫與信息管理,數(shù)據(jù)倉庫在信息管理方面的作用 信息資源管理 信息分析 信息服務 基于數(shù)據(jù)倉庫為用戶提供信息服務,可以使用戶能夠從多種視角觀察數(shù)據(jù),從而能夠更深入地理解數(shù)據(jù),從中獲得決策支持信息 數(shù)據(jù)倉庫提供給用戶的信息或知識可以是利用從數(shù)據(jù)倉庫抽取出的數(shù)據(jù)組織成的報表或繪制成的直觀圖形,14,1.5 信息管理新問題催生數(shù)據(jù)挖掘,人們被“淹沒”在數(shù)據(jù)“海洋”之中 如何不被堆積如山的信息所淹沒? 如何能夠迅速地從海量信息中獲取有用信息? 在這種背景下,數(shù)據(jù)挖掘(Data Mining)技術應運而生,15,1.5 信息管理新問題催生數(shù)據(jù)挖掘,數(shù)據(jù)挖掘是指從大型數(shù)據(jù)集中提取人們感興趣的知識,這些知識是隱含的、具有一定可信度的、對用戶而言是新穎的且有潛在價值的知識,提取的知識表示為概念、規(guī)則、模式等多種形式,16,1.5 信息管理新問題催生數(shù)據(jù)挖掘,下面將通過一個案例研究來介紹各個數(shù)據(jù)分析階段中所涉及的概念 三個階段: 報表查詢 聯(lián)機分析 數(shù)據(jù)挖掘,17,1.5 信息管理新問題催生數(shù)據(jù)挖掘,案例之報表查詢,18,1.5 信息管理新問題催生數(shù)據(jù)挖掘,案例之報表查詢,19,1.5 信息管理新問題催生數(shù)據(jù)挖掘,案例之聯(lián)機分析 1. 1月份,頭盔在什么地區(qū)銷售最好? 2. 1月份,哪個國家的頭盔銷售在該暢銷地區(qū)處于領先地位? 3. 在領先的國家中,哪個城市的頭盔收入最高?,20,1.5 信息管理新問題催生數(shù)據(jù)挖掘,案例之數(shù)據(jù)挖掘 問題; 對購買山地車的客戶來說,什么是最可能會同時購買的商品? Intelligent Miner for data該問題做出如下答案:頭盔,可能性為92%:手套,可能性為62%:新款鈴鐺,可能性為23%;速度計,可能性為13%。 關聯(lián)算法發(fā)現(xiàn)了產(chǎn)品之間的聯(lián)系。根據(jù)上面的答案,它會給銷售人員一個目錄,列出在銷售某一具體產(chǎn)品時所建議的前3名關聯(lián)產(chǎn)品。例如,如果銷售山地車,銷售人員可建議購買頭盔、手套和新款鈴鐺。,21,1.5 信息管理新問題催生數(shù)據(jù)挖掘,案例之數(shù)據(jù)挖掘 3個月后,公司有了如下結果: 季度的營業(yè)額上升34%,收入上漲32%; 每輛山地車交易的平均銷售收入增加了29%; 山地車與頭盔一塊購買成了時尚(每個銷售地點的頭盔成交量都上升了); 手套的銷售上升15%; 山地車附件上升51%;,22,1.6 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的關系,構建在數(shù)據(jù)倉庫平臺上的數(shù)據(jù)挖掘效率會更高 一般來說,數(shù)據(jù)挖掘的對象可以是普通的數(shù)據(jù)庫、文件系統(tǒng),也可以是數(shù)據(jù)倉庫,但,數(shù)據(jù)倉庫完成了知識發(fā)現(xiàn)過程中大部分的數(shù)據(jù)預處理工作 數(shù)據(jù)挖掘庫中的內容可以是數(shù)據(jù)倉庫數(shù)據(jù)的一個邏輯上的子集 數(shù)據(jù)挖掘是一個相對獨立的系統(tǒng),它可以獨立于數(shù)據(jù)倉庫系統(tǒng)而存在,23,1.7數(shù)據(jù)倉庫與數(shù)據(jù)庫長期共存,首先,企業(yè)在建立用于決策的數(shù)據(jù)倉庫系統(tǒng)時,不能一味否定傳統(tǒng)的數(shù)據(jù)庫系統(tǒng),還應該在企業(yè)內部保留數(shù)據(jù)庫系統(tǒng),用于日常的事務處理 其次,數(shù)據(jù)庫是數(shù)據(jù)倉庫的基礎 第三,在技術實現(xiàn)方面,數(shù)據(jù)庫與數(shù)據(jù)倉庫差別不大,數(shù)據(jù)倉庫并不是純粹的技術科學,它強調的是數(shù)據(jù)組織的一種理念 第四,不要脫離企業(yè)的實際,盲目地、片面地、甚至是趕時髦地去引進與實施數(shù)據(jù)倉庫技術,24,在何種數(shù)據(jù)上進行數(shù)據(jù)挖掘,關系數(shù)據(jù)庫 數(shù)據(jù)倉庫 事務數(shù)據(jù)庫 高級數(shù)據(jù)庫系統(tǒng)和信息庫 空間數(shù)據(jù)庫 時間數(shù)據(jù)庫和時間序列數(shù)據(jù)庫 流數(shù)據(jù) 多媒體數(shù)據(jù)庫 面向對象數(shù)據(jù)庫和對象-關系數(shù)據(jù)庫 異種數(shù)據(jù)庫和歷史(legacy)數(shù)據(jù)庫 文本數(shù)據(jù)庫和萬維網(wǎng)(WWW) 知識庫,25,空間數(shù)據(jù)庫,空間數(shù)據(jù)庫是指在關系型數(shù)據(jù)庫(DBMS)內部對地理信息進行物理存儲。空間數(shù)據(jù)庫中存儲的海量數(shù)據(jù)包括對象的空間拓撲特征、非空間屬性特征以及對象在時間上的狀態(tài)變化。 常見的空間數(shù)據(jù)庫數(shù)據(jù)類型 地理信息系統(tǒng)(GIS) 遙感圖像數(shù)據(jù) 醫(yī)學圖像數(shù)據(jù),26,時間數(shù)據(jù)庫和時序數(shù)據(jù)庫,時間數(shù)據(jù)庫和時序數(shù)據(jù)庫都存放與時間有關的數(shù)據(jù)。 時間數(shù)據(jù)庫通常存放包含時間相關屬性的數(shù)據(jù)。 時序數(shù)據(jù)庫存放隨時間變化的值序列。 對時間數(shù)據(jù)庫和時序數(shù)據(jù)庫的數(shù)據(jù)挖掘,可以通過研究事物發(fā)生發(fā)展的過程,有助于揭示事物發(fā)展的本質規(guī)律,可以發(fā)現(xiàn)數(shù)據(jù)對象的演變特征或對象變化趨勢。,27,流數(shù)據(jù),與傳統(tǒng)的數(shù)據(jù)庫技術中的靜態(tài)數(shù)據(jù)不同,流數(shù)據(jù)是連續(xù)的、有序的、變化的、快速的、大量的數(shù)據(jù)輸入的數(shù)據(jù)。 主要應用場合 網(wǎng)絡監(jiān)控 網(wǎng)頁點擊流 股票市場 流媒體…等等 與傳統(tǒng)數(shù)據(jù)庫技術相比,流數(shù)據(jù)在存儲、查詢、訪問、實時性的要求等方面都有很大區(qū)別。,28,多媒體數(shù)據(jù)庫,多媒體數(shù)據(jù)庫實現(xiàn)用計算機管理龐大復雜的多媒體數(shù)據(jù),主要包括包括圖形(graphics)、圖象(image)、聲音(audio)、視頻(video)等等,現(xiàn)代數(shù)據(jù)庫技術一般將這些多媒體數(shù)據(jù)以二進制大對象的形式進行存儲。 對于多媒體數(shù)據(jù)庫的數(shù)據(jù)挖掘,需要將存儲和檢索技術相結合。目前的主要方法包括構造多媒體數(shù)據(jù)立方體、多媒體數(shù)據(jù)庫的多特征提取和基于相似性的模式匹配。,29,面向對象數(shù)據(jù)庫是面向對象技術和數(shù)據(jù)庫技術結合的產(chǎn)物,該技術對數(shù)據(jù)以對象的形式進行存儲,并在這個基礎上實現(xiàn)了傳統(tǒng)數(shù)據(jù)庫的功能。 對象-關系數(shù)據(jù)庫基于對象-關系模型構造,該模型通過處理復雜對象的豐富數(shù)據(jù)類型和對象定位等功能,擴充關系模型。 面向對象數(shù)據(jù)庫和對象-關系數(shù)據(jù)庫中的數(shù)據(jù)挖掘會涉及一些新的技術,比如處理復雜對象結構、復雜數(shù)據(jù)類型、類和子類層次結構、構造繼承以及方法和過程等等。,面向對象數(shù)據(jù)庫/對象-關系數(shù)據(jù)庫,30,異構數(shù)據(jù)庫和歷史(legacy)數(shù)據(jù)庫,歷史數(shù)據(jù)庫是一系列的異構數(shù)據(jù)庫系統(tǒng)的集合,包括不同種類的數(shù)據(jù)庫系統(tǒng),像關系數(shù)據(jù)庫、網(wǎng)絡數(shù)據(jù)庫、文件系統(tǒng)等等。 有效利用歷史數(shù)據(jù)庫的關鍵在于實現(xiàn)不同數(shù)據(jù)庫之間的數(shù)據(jù)信息資源、硬件設備資源和人力資源的合并和共享。 對于異構數(shù)據(jù)庫系統(tǒng),實現(xiàn)數(shù)據(jù)共享應當達到兩點:一是實現(xiàn)數(shù)據(jù)庫轉換;二是實現(xiàn)數(shù)據(jù)的透明訪問。 WEB SERVICE技術的出現(xiàn)有利于歷史數(shù)據(jù)庫數(shù)據(jù)的重新利用。,31,文本數(shù)據(jù)庫和萬維網(wǎng)(WWW),文本數(shù)據(jù)庫存儲的是對對象的文字性描述。 文本數(shù)據(jù)庫的分類 無結構類型(大部分的文本資料和網(wǎng)頁) 半結構類型(XML數(shù)據(jù)) 結構類型(圖書館數(shù)據(jù)) 萬維網(wǎng)(WWW)可以被看成最大的文本數(shù)據(jù)庫 數(shù)據(jù)挖掘內容 內容檢索 WEB訪問模式檢索,32,知識庫,針對知識庫中的事實規(guī)則應用綜合歸納推理機制,挖掘出深層次的更富概括性的知識,33,34,數(shù)據(jù)倉庫與傳統(tǒng)數(shù)據(jù)庫的區(qū)別,35,實踐項目名稱,1、數(shù)據(jù)倉庫軟件的使用方法; 2、客戶數(shù)據(jù)倉庫的建立; 3、編程實現(xiàn)關聯(lián)分析算法; 4、編程實現(xiàn)決策樹分類算法; 5、數(shù)據(jù)挖掘應用分析。,36,課程報告,1、實驗目的 2、規(guī)格說明 3、算法步驟 4、結果分析 5、實驗體會 6、結束語 7、參考文獻 8、程序源碼,源碼要求有清晰明確的注釋。,37,- 配套講稿:
如PPT文件的首頁顯示word圖標,表示該PPT已包含配套word講稿。雙擊word圖標可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設計者僅對作品中獨創(chuàng)性部分享有著作權。
- 關 鍵 詞:
- 數(shù)據(jù)倉庫 數(shù)據(jù) 挖掘 信息管理 ppt 課件
裝配圖網(wǎng)所有資源均是用戶自行上傳分享,僅供網(wǎng)友學習交流,未經(jīng)上傳用戶書面授權,請勿作他用。
相關資源
更多
正為您匹配相似的精品文檔
相關搜索
鏈接地址:http://m.kudomayuko.com/p-1417066.html