《數(shù)據(jù)挖掘之基本流程課件》由會員分享,可在線閱讀,更多相關(guān)《數(shù)據(jù)挖掘之基本流程課件(37頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、,單擊此處編輯母版標題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,數(shù)據(jù)挖掘之基本流程,數(shù)據(jù)挖掘之基本流程,1.,什么是數(shù)據(jù)挖掘?,2.,數(shù)據(jù)挖掘的基本方法?,1,內(nèi)容回顧,數(shù)據(jù)挖掘(英語:,Data mining,),又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫知識發(fā)現(xiàn)(英語:,Knowledge-Discovery in Databases,,簡稱:,KDD),中的一個步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程,。,1.什么是數(shù)據(jù)挖掘?1內(nèi)容回顧數(shù)據(jù)挖掘(英語:Data mi,(,a,)根據(jù)性別劃分公司的顧客。,(,b,)根據(jù)可贏利性劃分公司的顧客。,(
2、,c,)預測投一對骰子的結(jié)果。,(,d,)使用歷史記錄預測某公司未來的股票價格。,2,下列每項活動是否是數(shù)據(jù)挖掘任務,?,簡單陳述你的理由?,(a)根據(jù)性別劃分公司的顧客。(b)根據(jù)可贏利性劃分公司的顧,理解什么是,KDD(,知識發(fā)現(xiàn),),與,KDD,的基本流程;,了解,CRISP DM,的含義與基本流程;,了解數(shù)據(jù),挖掘的基本,流程;,理解并掌握使用,SPSS Modeler,進行數(shù)據(jù)挖掘的基本方法;,3,內(nèi)容要點,理解什么是KDD(知識發(fā)現(xiàn))與KDD的基本流程;3內(nèi)容要點,4,KDD(,Knowledge Discovery in Database,)-,知識發(fā)現(xiàn),知識發(fā)現(xiàn),知識發(fā)現(xiàn)是從數(shù)
3、據(jù)集中識別出有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程,。,1.,什么是知識?,2.,知識發(fā)現(xiàn)的概念描述!,概念,規(guī)律,模式,規(guī)則,約束,4KDD(Knowledge Discovery in Da,5,知識發(fā)現(xiàn)過程,數(shù)據(jù)集,變換后數(shù)據(jù),預處理數(shù)據(jù),目標數(shù)據(jù),選取抽樣,變換,預處理,知識,數(shù)據(jù)挖掘,解釋評價,抽取的信息,可視化,知識發(fā)現(xiàn)過程示意圖,數(shù)據(jù)準備,數(shù)據(jù)挖掘,結(jié)果表達與解釋,選擇算法主要考慮兩個因素:,一是盡量選取與數(shù)據(jù)特征相關(guān)的算法,二是用戶或?qū)嶋H運行系統(tǒng)的要求。,數(shù)據(jù)挖掘質(zhì)量的好壞有兩個,影響要素,:,一是所采用的數(shù)據(jù)挖掘技術(shù)的有效性;,二是用于采掘的數(shù)據(jù)的質(zhì)量和
4、數(shù)量,5 知識發(fā)現(xiàn)過程數(shù)據(jù)集變換后數(shù)據(jù)預處理數(shù)據(jù),6,知識發(fā)現(xiàn)的任務,知識發(fā)現(xiàn)的任務,數(shù)據(jù)總結(jié),概念描述,分類與預測,聚類分析,關(guān)聯(lián)分析,異常分析,建模,6知識發(fā)現(xiàn)的任務知識發(fā)現(xiàn)的任務數(shù)據(jù)總結(jié)概念描述分類與預測聚,7,一、數(shù)據(jù)總結(jié),數(shù)據(jù)總結(jié)的目的:對數(shù)據(jù)進行濃縮,給出它的緊湊描述,數(shù)據(jù)總結(jié)的方法:傳統(tǒng)的也是最簡單的方法是對數(shù)據(jù)庫的各個字段求和值、平均值、方差值等統(tǒng)計值,或者用直方圖、餅狀圖等圖形方式表示,7一、數(shù)據(jù)總結(jié)數(shù)據(jù)總結(jié)的目的:對數(shù)據(jù)進行濃縮,給出它的緊湊描,8,二,、概念描述,一個對含有大量數(shù)據(jù)的數(shù)據(jù)集合進行,概述性,的總結(jié)并獲得,簡明,、,準確,的描述,這種描述就稱為概念描述(,co
5、ncept description,)。,例子,:一個數(shù)據(jù)挖掘系統(tǒng)需要從我校職工數(shù)據(jù)庫中,挖掘出我校講師情況的概要總結(jié),并給出(我校)講師概念描述。,提取信息,總結(jié)算法,概要總結(jié),概念描述,62%,(,age24,),8二、概念描述一個對含有大量數(shù)據(jù)的數(shù)據(jù)集合進行概述性的總結(jié)并,9,三、分類與預測,分類,:就是找出一組能夠描述數(shù)據(jù)集合典型特征的模型(或函數(shù)),以便能夠分類識別未知數(shù)據(jù)的歸屬或類別(,class,),即將未知事例映射到某種離散類別之一。,分類通常用于預測未知數(shù)據(jù)實例的歸屬類別(有限離散值),如一個銀行客戶的信用等級是屬于,A,級、,B,級還是,C,級。,9三、分類與預測分類:就是
6、找出一組能夠描述數(shù)據(jù)集合典型特征的,10,四,、聚類分析,聚類分析(,clustering analysis,)中,首先需要根據(jù),“,各,聚集(,c,lusters,),內(nèi)部數(shù)據(jù)對象間的相似度最大化;而各聚集(,clusters,)對象間相似度最小化,”,的基本聚類分析原則,以及度量數(shù)據(jù)對象之間相似度的計算公式,將聚類分析的數(shù)據(jù)對象劃分為若干組(,groups,)。,因此一個組中數(shù)據(jù)對象間的相似度要比不同組數(shù)據(jù)對象間的相似度要大。每一個聚類分析所獲得的組就可以視為是一個同類別歸屬的數(shù)據(jù)對象集合,更進一步從這些同類別數(shù)據(jù)集,又可以通過分類學習,10四、聚類分析聚類分析(clustering an
7、alys,11,五,、關(guān)聯(lián)分析,關(guān)聯(lián)分析,(,association analysis,),:,從給定的數(shù)據(jù)集發(fā)現(xiàn)頻繁出現(xiàn)的項集模式知識,(,又稱為關(guān)聯(lián)規(guī)則,association rules,),。關(guān)聯(lián)分析廣泛應用于市場營銷,事務分析等應用領(lǐng)域。,對于一個商場經(jīng)理,或許更想知道哪些商品是常在一起購買,描述這樣的情況的一條關(guān)聯(lián)規(guī)則說明如下:,11五、關(guān)聯(lián)分析關(guān)聯(lián)分析(association analy,12,六、異類分析,異類(,outlier,):,那些不符合大多數(shù)數(shù)據(jù)對象所構(gòu)成的規(guī)律(模型)的數(shù)據(jù)對象就被稱為,異類,。,示例:,異類分析可以用于從大量商品購買記錄中,依據(jù)各帳戶平常所發(fā)生的購
8、買行為,發(fā)現(xiàn)正在進行信用卡詐騙的購買行為(異類行為)。,12六、異類分析異類(outlier):那些不符合大多數(shù)數(shù)據(jù),13,七,、演化分析,數(shù)據(jù)演化分析(,evolution analysis,):,對隨時間變化的數(shù)據(jù)對象的變化規(guī)律和趨勢進行建模描述。,示例,:利用演化分析方法可對股市主要股票交易數(shù)據(jù)(時序數(shù)據(jù),,time-series data,)進行分析,以便獲得整個股票市場的股票演化,規(guī)律,以及一個特定股票的變化規(guī)律,13七、演化分析數(shù)據(jù)演化分析(evolution anal,請回憶知識發(fā)現(xiàn)的過程包括哪些?,14,實踐一,請回憶知識發(fā)現(xiàn)的過程包括哪些?14實踐一,15,KDD,過程可以概
9、括為三部分,:,數(shù)據(jù)準備,(Data Preparation),數(shù)據(jù)挖掘,(Data Mining),結(jié)果的解釋和評估,(Interpretation&Evaluation),。,數(shù)據(jù),目標數(shù)據(jù),預處理,數(shù)據(jù),轉(zhuǎn)換數(shù)據(jù),模式,知識,選擇,預處理,轉(zhuǎn)換,數(shù)據(jù)挖掘,模式評價,模式評價,數(shù)據(jù)挖掘,數(shù)據(jù)準備,KDD,過程圖,15 KDD過程可以概括為三部分:數(shù)據(jù)準備(Data Pr,數(shù)據(jù)選取,(Data Selection,),:,數(shù)據(jù)選取的目的是:確定發(fā)現(xiàn)任務的操作對象,即目標數(shù)據(jù),(Target Data),是根據(jù)用戶的需要從原始數(shù)據(jù)庫中抽取的一組數(shù)據(jù),數(shù)據(jù)預處理,(Data Preprocess
10、ing,),:,一般包括:消除噪聲、推導計算缺值數(shù)據(jù)、消除重復記錄、完成數(shù)據(jù)類型轉(zhuǎn)換等,。如把連續(xù)值型數(shù)據(jù)轉(zhuǎn)換為離散型數(shù)據(jù),以便于符號歸納;或是把離散型數(shù)據(jù)轉(zhuǎn)換為連續(xù)值型數(shù)據(jù),以便于神經(jīng)網(wǎng)絡計算。,16,1.,第一階段 數(shù)據(jù)準備(又可分為,3,個子步驟),數(shù)據(jù)選取(Data Selection):數(shù)據(jù)選取的目的是,數(shù)據(jù)變換,(Data Transformation,),:,主要目的是:削減數(shù)據(jù)維數(shù)或降維即從初始特征中找出真正有用的特征以減少數(shù)據(jù)挖掘時要考慮的特征或變量個數(shù)。,17,1.,第一階段 數(shù)據(jù)準備(又可分為,3,個子步驟),數(shù)據(jù)變換(Data Transformation):主要目,首
11、先,要確定挖掘的任務或目的,如分類、聚類或關(guān)聯(lián)規(guī)則等。,確定任務后,就要決定使用的挖掘算法,;,選擇實現(xiàn)算法有兩個考慮因素,:,一是不同的數(shù)據(jù)有不同的特點,;,二是用戶或?qū)嶋H運行系統(tǒng)的要求,。,有的用戶可能希望獲取描述型的,、容易理解的知識;而有的只是希望獲取預測準確度盡可能高的預測型知識。,選擇了挖掘算法后,,就可以實施數(shù)據(jù)挖掘操作,獲取有用的模式。,18,2.,第二階段 數(shù)據(jù)挖掘,首先要確定挖掘的任務或目的,如分類、聚類或關(guān)聯(lián)規(guī)則等。1,數(shù)據(jù)挖掘階段發(fā)現(xiàn)出來的模式,經(jīng)評估:,可能存在冗余或無關(guān)的模式,需將其剔除,;,也可能有不滿足用戶要求模式,,則需要退回到發(fā)現(xiàn)過程前面的階段,如重新選取數(shù)
12、據(jù)、采用新的數(shù)據(jù)變換方法、設定新的參數(shù)值,甚至換一種挖掘算法等等。,另外,KDD,由于最終是面向人類用戶的,因此可能要對發(fā)現(xiàn)的模式進行可視化,或者把結(jié)果轉(zhuǎn)換為用戶易懂方式,,如把分類決策樹轉(zhuǎn)換為 “,if then”,規(guī)則,。,19,3.,第三階段 結(jié)果的解釋和評估,數(shù)據(jù)挖掘階段發(fā)現(xiàn)出來的模式,經(jīng)評估:19 3.第三階段,數(shù)據(jù)挖掘僅僅是整個過程中的一個步驟。,數(shù)據(jù)挖掘質(zhì)量的好壞有兩個影響要素:,一是所采用的數(shù)據(jù)挖掘技術(shù)的有效性,;,二是用于挖掘的數(shù)據(jù)的質(zhì)量和數(shù)量,(,數(shù)據(jù)量的大小,),。如果選擇了錯誤的數(shù)據(jù)或不適當?shù)膶傩?或?qū)?shù)據(jù)進行了不適當?shù)霓D(zhuǎn)換則挖掘的結(jié)果不會成功。,整個挖掘過程是一個不斷
13、反饋的過程。,比如,用戶在挖掘途中發(fā)現(xiàn)選擇的數(shù)據(jù)不太滿意,或使用的技術(shù)產(chǎn)生不了期望的結(jié)果。這時,用戶需要重復先前的過程,甚至從頭重新開始,。,20,數(shù)據(jù)挖掘僅僅是整個過程中的一個步驟。,數(shù)據(jù)挖掘僅僅是整個過程中的一個步驟。20數(shù)據(jù)挖掘僅僅是整個過,21,數(shù)據(jù)挖掘的常見過程模型,CRISP-DM,SEMMA,5A,21數(shù)據(jù)挖掘的常見過程模型CRISP-DMSEMMA5A,22,SEMMA,1 Sample,數(shù)據(jù)取樣,2 Explore,數(shù)據(jù)特征探索、分析和予處理,3 Modify,問題明確化、數(shù)據(jù)調(diào)整和技術(shù)選擇,4Model,模型的研發(fā)、知識的發(fā)現(xiàn),5Assess,模型和知識的綜合解釋和評價,2
14、2SEMMA1 Sample數(shù)據(jù)取樣2 Explore,23,5A,評價需求,Assess,存取數(shù)據(jù),Access,完備分析,Analyze,模型演示,Act,結(jié)果展現(xiàn),Automate,235A評價需求Assess存取數(shù)據(jù)Access 完備分析,跨行業(yè)數(shù)據(jù)挖掘標準過程(,CRISP,DM,),定位是面向行業(yè)、工具導向、面向應用,適用于大型工業(yè)和商業(yè)實踐的一般標準,24,CRISP DM,跨行業(yè)數(shù)據(jù)挖掘標準過程(CRISPDM)24CRISP D,25,CRISP-DM,1:business understanding:,即商業(yè)理解,.,在第一個階段我們必須從商業(yè)的角度上面了解項目的要求和最終
15、目的是什么,.,并將這些目的與數(shù)據(jù)挖掘的定義以及結(jié)果結(jié)合起來,.,2.data understanding:,數(shù)據(jù)的理解以及收集,對可用的數(shù)據(jù)進行評估,.,3:data preparation:,數(shù)據(jù)的準備,對可用的原始數(shù)據(jù)進行一系列的組織以及清洗,使之達到建模需求,.,4:modeling:,即應用數(shù)據(jù)挖掘工具建立模型,.,5:evaluation:,對建立的模型進行評估,重點具體考慮得出的結(jié)果是否符合第一步的商業(yè)目的,.,6:deployment:,部署,即將其發(fā)現(xiàn)的結(jié)果以及過程組織成為可讀文本形式,25CRISP-DM1:business underst,26,CRISP-DM,商業(yè)理解
16、,商業(yè),理解,數(shù)據(jù),理解,數(shù)據(jù),準備,建立,模型,模型,評估,結(jié)果,發(fā)布,確定商業(yè),目標,形勢評估,確定數(shù)據(jù),挖掘目標,制定項目,計劃,背景,商業(yè)目標,成功標準,擁有資源,需求、假定,和限制,風險和,偶然性,專業(yè),術(shù)語,成本和,收益,數(shù)據(jù)挖掘,目標,數(shù)據(jù)挖掘,成功標準,項目計劃,工具和方法,評估,26CRISP-DM商業(yè)理解商業(yè) 數(shù)據(jù)數(shù)據(jù)建立模型,27,CRISP-DM,數(shù)據(jù)理解,商業(yè),理解,數(shù)據(jù),理解,數(shù)據(jù),準備,建立,模型,模型,評估,結(jié)果,發(fā)布,收集原始,數(shù)據(jù),數(shù)據(jù)描述,數(shù)據(jù)探索,性分析,數(shù)據(jù)質(zhì)量,描述,數(shù)據(jù)收集,報告,數(shù)據(jù)描述,報告,探索性數(shù)據(jù),分析報告,數(shù)據(jù)質(zhì)量,報告,27CRISP-DM數(shù)據(jù)理解商業(yè) 數(shù)據(jù)數(shù)據(jù)建立模型,28,CRISP-DM,數(shù)據(jù)準備,商業(yè),理解,數(shù)據(jù),理解,數(shù)據(jù),準備,建立,模型,模型,評估,結(jié)果,發(fā)布,選擇數(shù)據(jù),確定分析包含,/,剔除數(shù)據(jù),數(shù)據(jù)集,數(shù)據(jù)集,描述,數(shù)據(jù)清理,數(shù)據(jù)清理報告,數(shù)據(jù)重構(gòu),生成新的變量(字段),生成新的記錄,整合數(shù)據(jù),合并相關(guān)數(shù)據(jù),格式化數(shù)據(jù),改變數(shù)據(jù)格式,適應分析,28CRISP-DM數(shù)據(jù)準備商業(yè) 數(shù)據(jù)數(shù)據(jù)建立模型,29,CRIS