歡迎來到裝配圖網(wǎng)! | 幫助中心 裝配圖網(wǎng)zhuangpeitu.com!
裝配圖網(wǎng)
ImageVerifierCode 換一換
首頁 裝配圖網(wǎng) > 資源分類 > PPT文檔下載  

《數(shù)據(jù)挖掘及其應用講義》應用關聯(lián)規(guī)則課件

  • 資源ID:253351820       資源大小:180KB        全文頁數(shù):29頁
  • 資源格式: PPT        下載積分:15積分
快捷下載 游客一鍵下載
會員登錄下載
微信登錄下載
三方登錄下載: 支付寶登錄   QQ登錄   微博登錄  
二維碼
微信掃一掃登錄
下載資源需要15積分
郵箱/手機:
溫馨提示:
用戶名和密碼都是您填寫的郵箱或者手機號,方便查詢和重復下載(系統(tǒng)自動生成)
支付方式: 微信支付   
驗證碼:   換一換

 
賬號:
密碼:
驗證碼:   換一換
  忘記密碼?
    
友情提示
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網(wǎng)頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站資源下載后的文檔和圖紙-無水印,預覽文檔經(jīng)過壓縮,下載后原文更清晰。
5、試題試卷類文檔,如果標題沒有明確說明有答案則都視為沒有答案,請知曉。

《數(shù)據(jù)挖掘及其應用講義》應用關聯(lián)規(guī)則課件

,單擊此處編輯母版標題樣式,*,單擊此處編輯母版文本樣式,第二級,單擊此處編輯母版標題樣式,單擊此處編輯母版文本樣式,第二級,*,關聯(lián)規(guī)則應用,1,關聯(lián)規(guī)則,設,I=I,1,I,2,I,m,是一組數(shù)據(jù)項集合,D,是與任務相關的數(shù)據(jù)集合,也稱為交易數(shù)據(jù)庫。其中每個,交易,T,是一個數(shù)據(jù)項子集,,TI,。關聯(lián)規(guī)則是如下形式的一種蘊含,:,A B,表示,If conditions then result,其中,AI,BI,且,AB=,。一般用,支持度、可信度、期望可信度、作用度,4,個參數(shù)來描述一個關聯(lián)規(guī)則的屬性。,可信度,:,在屬性集,A,出現(xiàn)的前提下,B,出現(xiàn)的,概率,P(B|A),支持度,:,屬性集,A,B,同時出現(xiàn)的概率,P(AB),期望可信度,:,屬性集,B,出現(xiàn)的概率,P(B),作用度,:,可信度對期望可信度的比值,P(B|A)/P(B),可信度,是對關聯(lián)規(guī)則準確度的衡量,支持度,是對關聯(lián)規(guī)則重要性的衡量。顯然,支持度越大,關聯(lián)規(guī)則越重要。有些關聯(lián)規(guī)則可信度雖然很高,但支持度卻很低,說明該關聯(lián)規(guī)則實用的機會很小,因此也不重要。,作用度,描述屬性集,A,的出現(xiàn)對屬性集,B,的出現(xiàn)有多大影響。作用度越大,說明屬性集,B,受屬性集,A,的影響越大。一般情況,有用的關聯(lián)規(guī)則的作用度都應大于,1,只有關聯(lián)規(guī)則的可信度大于期望可信度,才說明,A,的出現(xiàn)對,B,的出現(xiàn)有促進作用,也說明了它們之間某種程度的相關性,如果作用度不大于,1,則此關聯(lián)規(guī)則就沒有意義。,2,關聯(lián)規(guī)則算法(,Apriori,算法),2.1,概念介紹,項集,:一個數(shù)據(jù)項的集合;,K,項集,:一個包含,k,個數(shù)據(jù)項的項集;,項集頻度,:整個交易數(shù)據(jù)庫,D,中,包含該項集的交易記錄數(shù),也稱為該項集的支持度。,頻繁項集,:滿足最小支持度的項集。,若一個項集的出現(xiàn)頻度大于最小支持度閾值乘以交易記錄集,D,中的記錄數(shù),就稱該項集滿足最小支持度閾值;滿足最小支持度閾值所對應的交易記錄數(shù)稱為最小支持頻度。,返回,2.2 Apriori算法,Apriori,算法是一個基于兩階段頻繁項集的數(shù)據(jù)挖掘方法,將關聯(lián)規(guī)則挖掘算法分為兩部分,:,一是找到所有支持度大于最小支持度的項集,稱為頻繁項集,二是使用第一步找到的頻繁項集產(chǎn)生期望規(guī)則,.,Apriori,算法的性質(zhì):如果一個項集是頻繁的,則它的所有子集也是頻繁的。,首先,給定最小支持度及最小可信度。,返回,第一步,:,找頻繁項集,由數(shù)據(jù)庫讀入所有的交易,得出候選單項集的支持度,再找出頻繁單項集,并利用這些頻繁單項集的結(jié)合,產(chǎn)生候選,2,項集,若候選,2,項集的支持度大于或等于最小支持度,則該候選項集為頻繁項集,即為頻繁,2,項集,并利用頻繁,2,項集的結(jié)合,產(chǎn)生候選,3,項集,若候選,3,項集的支持度大于或等于最小支持度,則該候選項集為頻繁,3,項集,并利用高頻,3,項集的結(jié)合,產(chǎn)生候選,4,項,,,最后產(chǎn)生頻繁多項集,再結(jié)合產(chǎn)生下一級候選項集,,直到新產(chǎn)生的候選項集的支持度小于給定的最小支持度,,則不再結(jié)合產(chǎn)生新的候選項集,算法結(jié)束。,第二步,:,由頻繁項集產(chǎn)生期望規(guī)則,(1),對于每個,頻繁項集,L,產(chǎn)生,L,的所有非空子集,;,(2),對于,L,的每個,非空子集,S,如果其可信度大,于最小可信度,則輸出規(guī)則,”,s,L-s,”,(,一,)Apriori,算法在學生成績分析中的應用研究,學生的各科考試成績一直以來作為國內(nèi)各高等院校評價學生學業(yè)以及綜合素質(zhì)的重要指標,各高校經(jīng)過長期的積累都儲存了大量的學生成績信息,但對成績的分析處理一般還停留在簡單的查詢和統(tǒng)計階段,例如統(tǒng)計優(yōu)、良、及格、不及格等級別的人數(shù)以及計算平均成績、標準差等指標,而對于學生取得這些,成績與課程之間的關系,有無關聯(lián)往往沒有深入了解。如果能夠合理開發(fā)利用這些數(shù)據(jù),找到,課程之間的相關關系對學生成績的影響,,必將對課程的設置與安排具有重大的指導意義。,1 研究對象,以沈陽農(nóng)業(yè)大學,01,屆計算機專業(yè)學生在校四年的學習成績作為數(shù)據(jù)源,選取成績數(shù)據(jù)庫中,計算機網(wǎng)絡,、,外語,、,工科高數(shù),、,計算機基礎,、,操作系統(tǒng),等,8,門課程作為研究對象,挖掘出某門課程對于其他課程的影響程度,為教務人員以后安排課程提供參考,為學生選課提供指導。,2,數(shù)據(jù)預處理,2.1,數(shù)據(jù)清理,原始數(shù)據(jù)庫中包含全校各個專業(yè)、各個年級、各門課程的所有成績,某些記錄難免會有一些差錯或者從經(jīng)驗上看沒有關聯(lián),為了便于進行數(shù)據(jù)挖掘,只選取,01,屆計算機專業(yè)學生的,計算機網(wǎng)絡,等,8,門課程成績作為挖掘?qū)ο?,去掉所有其他不必要的字段,刪除空白以及數(shù)據(jù)有缺失的記錄。清理后的數(shù)據(jù)表部分數(shù)據(jù)如圖,1,所示。,圖,1,原始數(shù)據(jù)表,2.2 數(shù)據(jù)轉(zhuǎn)換,學生成績是以數(shù)值形式表示的,不便于進行數(shù)據(jù)挖掘,因此對各科成績進行離散化處理,即轉(zhuǎn)換為優(yōu)、良、中、及格、不及格,5,個等級。大于,90,分的為,“,優(yōu),”,,,80,90,分之間的為,“,良,”,,,70,80,分之間的為,“,中,”,,,60,70,分之間的為,“,及格,”,,小于,60,分的為,“,不及格,”,。,“,優(yōu)、良、中、及格、不及格,”,5,個等級分別用數(shù)字,“,1,、,2,、,3,、,4,、,5,”,表示,,用,“,A,”,表示計算機網(wǎng)絡,,“,B,”,表示數(shù)據(jù)結(jié)構(gòu),,“,C,”,表示計算機基礎,,“,D,”,表示外語,以此類推。將各科目字段設置為字符型,轉(zhuǎn)換后的數(shù)據(jù)表部分數(shù)據(jù)如圖,2,所示。,圖,2,轉(zhuǎn)換后數(shù)據(jù)表,3,研究方法,3,2 Apriori,算法應用,用寬度優(yōu)先的迭代搜索方法,首先找出頻繁,1-,項集,L1,,用,L1,查找頻繁,2-,項集,L2,,以此類推,直到求出所有的頻繁項目集。若發(fā)現(xiàn)某頻繁項集的數(shù)目為零,則停止計算。最后,輸出所有項目的頻繁集。在該程序中依然運用了,Apriori,算法的性質(zhì):如果一個項集是頻繁的,則它的所有子集也是頻繁的。設最小支持度為,0.3,,產(chǎn)生頻繁項目集,56,個,從產(chǎn)生的頻繁項集中確定它們的子集,然后根據(jù)關聯(lián)規(guī)則挖掘算法原理,設最小可信度為,0.6,,由程序得出關聯(lián)規(guī)則,18,個,部分規(guī)則如表,1,所示。,4,結(jié)果與分析,規(guī)則,1,說明,,數(shù)據(jù)結(jié)構(gòu),成績在,80,90,分之間,,高級語言程序設計,成績也在,80,90,分之間的支持度為,66.8%,置信度為,89.2%,說明學好,數(shù)據(jù)結(jié)構(gòu),課程對學好,高級語言課程,起到關鍵作用,以后安排課程時可以將,數(shù)據(jù)結(jié)構(gòu),安排在前,教師授課中要督促學生學好這門課程,打好基礎。,規(guī)則,3,說明,外語,成績在,70,80,分之間,,高級語言程序設計,成績在,80,90,分之間的支持度為,61.6%,置信度為,79.8%,,,規(guī)則,4,說明,計算機基礎,成績在,70,80,分之間,,高級語言程序設計,在,80,90,分之間的支持度為,72.6%,,置信度為,85.7%,;這兩個規(guī)則表示公共基礎課程,外語,和,計算機基礎,對學好計算機專業(yè)課也很重要,同時可以看出,計算機基礎,成績和,外語,成績相對偏低,需要引起重視。,規(guī)則,5,說明,數(shù)據(jù)庫原理,成績在,80,90,分之間,,計算機網(wǎng)絡,也在,80,90,分之間的支持度為,58.4%,置信度為,76.5%,規(guī)則,6,說明,高級語言程序設計,在,80,90,分之間,,計算機網(wǎng)絡,也在,80,90,分之間的支持度為,56.9%,置信度為,83.4%,這兩個規(guī)則雖然可信度和置信度都較高,但實際究竟有無關聯(lián)需要深入探討。,規(guī)則,2,說明,計算機基礎,成績在,70,80,分之間,,工科高數(shù),在,80,90,分之間的支持度為,55.8%,置信度為,87.2%,雖然可信度和置信度都達到了要求,但根據(jù)實際經(jīng)驗,兩者并無直接關聯(lián),實際工作中可以不予考慮。其他規(guī)則同樣如此,需要決策者根據(jù)實際情況具體研究,有分析地借鑒參考。,5,結(jié)語,高等學校學生信息量巨大,運用關聯(lián)規(guī)則挖掘算法進行數(shù)據(jù)挖掘,能夠得到很多有價值的信息,挖掘出的規(guī)則對教務人員以及教師具有重大意義。舉一反三,如果從其他信息中能夠挖掘出更多的規(guī)則,例如個人成績與班級、專業(yè)之間的關系;個人成績與家庭、地域之間的關系等,必然對教學工作起到積極的指導作用。,Apriori算法的應用,例,:,假設數(shù)據(jù)項集合,I=I,1,I,2,I,3,I,4,I,5,共有,5,個數(shù)據(jù)項,表,1,給出含有這,5,個數(shù)據(jù)項的,9,條交易數(shù)據(jù)庫,第一列是交易數(shù)據(jù)的標識號,第二列是交易數(shù)據(jù)所包含的項目,假定,最小支持度是,2,最小可信度為,50%,求最大頻繁項目集及其期望規(guī)則,.,表,1,交易數(shù)據(jù)集,注,:,支持度,=,項集頻度,選擇有且只有一個相同元素的兩個,2_,項頻繁集進,行連接,生成,3_,項候選集是,I1,I2,I3,I1,I2,I5,I1,I3,I5,I2,I3,I4,I2,I3,I5,I2,I4,I5,I1,I2,I4,如果一個項集是頻繁的,則它的所有子集也是頻,繁的。所以只考慮,I1,I2,I3,I1,I2,I5.,生成,4_,項候選集是,I1,I2,I3,I5,而,I2,I3,I5,不是頻繁集,所以不存在,4_,項頻繁集,.,從兩個最大頻繁集,I1,I2,I3,和,I1,I2,I5,可推出侯選關聯(lián)規(guī)則,再從侯選關聯(lián)規(guī)則中選出大于最小可信度的關聯(lián)規(guī)則即為期望的規(guī)則,.,從最大頻繁項集中可得候選關聯(lián)規(guī)則,大于最小可信度的為關聯(lián)規(guī)則,(*),同理,從六個,2_,項頻繁集可推出侯選關聯(lián)規(guī)則,再從侯選關聯(lián)規(guī)則中選出大于最小可信度的關聯(lián)規(guī)則即為期望的規(guī)則,.,SQL Server 2005:,最低支持,:,此參數(shù)是關聯(lián)規(guī)則的最小支持,低于此值的對象組將會被過濾,;,最小項集大小,:,項集的對象數(shù)低于此值將會被過濾,;,最小概率,:,此參數(shù)是關聯(lián)規(guī)則的最小可信度,低于此值的規(guī)則將會被過濾,;,最低重要性,:,此參數(shù)是關聯(lián)規(guī)則的作用度,通過對數(shù)的方式來取得,大于零,指標越大,規(guī)則越顯著,小于零,指標越小,.,

注意事項

本文(《數(shù)據(jù)挖掘及其應用講義》應用關聯(lián)規(guī)則課件)為本站會員(陳**)主動上傳,裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對上載內(nèi)容本身不做任何修改或編輯。 若此文所含內(nèi)容侵犯了您的版權(quán)或隱私,請立即通知裝配圖網(wǎng)(點擊聯(lián)系客服),我們立即給予刪除!

溫馨提示:如果因為網(wǎng)速或其他原因下載失敗請重新下載,重復下載不扣分。




關于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  sobing.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號:ICP2024067431-1 川公網(wǎng)安備51140202000466號


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務平臺,本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請立即通知裝配圖網(wǎng),我們立即給予刪除!