數(shù)據(jù)挖掘概念與技術(shù)第三章



《數(shù)據(jù)挖掘概念與技術(shù)第三章》由會(huì)員分享,可在線閱讀,更多相關(guān)《數(shù)據(jù)挖掘概念與技術(shù)第三章(38頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、,單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級(jí),第三級(jí),第四級(jí),第五級(jí),2015/9/22,#,數(shù)據(jù)挖掘概念與設(shè)計(jì),第三章 數(shù)據(jù)預(yù)處理,3.1,數(shù)據(jù)預(yù)處理,3.2,數(shù)據(jù)清理,3.3,數(shù)據(jù)集成,3.4,數(shù)據(jù)規(guī)約,3.5,數(shù)據(jù)變換與數(shù)據(jù)離散化,3.6,小結(jié),第三章 數(shù)據(jù)預(yù)處理,3.3.1,為什么要對(duì)數(shù)據(jù)預(yù)處理,低質(zhì)量的數(shù)據(jù)將導(dǎo)致低質(zhì)量的挖掘結(jié)果,準(zhǔn)確性,完整性,一致性,時(shí)效性,可信性,可,解釋性,3.1,數(shù)據(jù)預(yù)處理,高質(zhì)量數(shù)據(jù),3.1.2,數(shù)據(jù)處理的主要任務(wù),數(shù)據(jù)清理,數(shù)據(jù),集成,數(shù)據(jù)歸約,數(shù)據(jù)變換,3.1,數(shù)據(jù)預(yù)處理,現(xiàn)實(shí)世界的的數(shù)據(jù)一般是不完整的,有噪聲的和不一致性的。數(shù)據(jù)清理試
2、圖填充缺失值,光滑噪聲、,識(shí)別,離,群,點(diǎn)、糾正數(shù)據(jù)中的不一致。,3.2.1,缺失值,1,),忽略元組,:缺少類標(biāo)號(hào)時(shí)通常這么做。但是忽略的元組其他屬性也不能用,即便是有用的。,2,),人工填寫(xiě),:該方法很費(fèi)事費(fèi)時(shí),數(shù)據(jù)集很大、缺失值很多時(shí)可能行不通。,3,),使用一個(gè)全局常量填充缺失值,:將缺失值的屬性用同一個(gè)常量替換。(方法簡(jiǎn)單但不可靠),4,),使用屬性的中心度量(均值、中位數(shù))填寫(xiě)缺失值,:對(duì)于正常的(對(duì)稱的)數(shù)據(jù)分布,可以使用均值;對(duì)于傾斜數(shù)據(jù)(非對(duì)稱)應(yīng)該使用中位數(shù)。,5,),使用與給定元組同一類的所有樣本的屬性均值或中位數(shù),:利用另外一個(gè)屬性分類數(shù)據(jù),計(jì)算缺失值的屬性值該是多少(
3、均值或中位數(shù))。,6,),使用最可能的值填充,:,利用回歸、貝葉斯,形式化,方法,的,基于推理的工具或決策樹(shù)歸納確定,。,3.2,數(shù)據(jù)清理,3.2.2,噪聲數(shù)據(jù),噪聲,:被測(cè)量的變量的隨機(jī)誤差或方差。,1,),分箱,:,排序后的數(shù)據(jù)按等,頻(每個(gè)箱幾個(gè)值)分,箱,,然后,:,用,箱均值光滑:箱中每個(gè)值都被替換為箱中的均值。,用,箱中位數(shù)光滑:箱中的每一個(gè)只都被替換為該箱的中位數(shù)。,用,箱邊界光滑:給定箱中的最大和最小值同樣被視為箱邊界,,,箱,中每個(gè)值都被替換為最接近的邊界值。,2,),回歸,:可以用一個(gè)函數(shù)擬合數(shù)據(jù)來(lái)光滑數(shù)據(jù)。,3,),離,群,點(diǎn)分析,:通過(guò)如聚類來(lái)檢測(cè)利群點(diǎn)。,3.2,數(shù)據(jù)
4、清理,3.2.3,數(shù)據(jù)清理作為一個(gè)過(guò)程,數(shù)據(jù)清理的第一步是偏差,檢測(cè)。導(dǎo)致偏差的因素很多,認(rèn)為輸入錯(cuò)誤、有意錯(cuò)誤、數(shù)據(jù)退化(過(guò)時(shí)數(shù)據(jù))、編碼不一致、設(shè)備錯(cuò)誤、系統(tǒng)錯(cuò)誤,。,如何,進(jìn)行偏差檢測(cè)?,使用任何關(guān)于數(shù)據(jù)性質(zhì)的知識(shí):元數(shù)據(jù),(,主要是描述數(shù)據(jù),屬性,(,property,)的,信息,),、數(shù)據(jù)的基本統(tǒng)計(jì)描述(均值、中位數(shù)、眾數(shù)、方差、標(biāo)準(zhǔn)差等)、唯一性規(guī)則、連續(xù)性規(guī)則、空值規(guī)則。,3.2,數(shù)據(jù)清理,數(shù)據(jù),挖掘經(jīng)常需要數(shù)據(jù)集成,合并來(lái)自多個(gè)數(shù)據(jù)存儲(chǔ)的數(shù)據(jù),。,3.3.1,實(shí)體識(shí)別問(wèn)題,模式,集成和對(duì)象匹配可能需要技巧,例如如何讓計(jì)算機(jī)識(shí)別,customer_id,和另外一個(gè)數(shù)據(jù)庫(kù)的,cus
5、t_number,是同一屬性?,利用元數(shù)據(jù),每個(gè)屬性的元數(shù)據(jù)包括名字、含義、數(shù)據(jù)類型和屬性的值的允許范圍,以及處理空值的規(guī)則。這些元數(shù)據(jù)可以用來(lái)幫助避免模式集成的錯(cuò)誤,還有助于變化,數(shù)據(jù),3.3,數(shù)據(jù)集成,3.3.2,冗余和相關(guān)分析,一,個(gè),屬性如果,能由另一個(gè)或另一組屬性“導(dǎo)出”,則這個(gè)屬性可能是冗余的;屬性或維命名的不一致也可能導(dǎo)致結(jié)果數(shù)據(jù)集的冗余,。,1.,標(biāo)稱數(shù)據(jù)的卡方相關(guān)檢驗(yàn),2.,數(shù)值數(shù)據(jù)的相關(guān)系數(shù),3.,數(shù)值數(shù)據(jù)的協(xié)方差,3.3,數(shù)據(jù)集成,1.,標(biāo)稱數(shù)據(jù)的卡方相關(guān)檢驗(yàn),假設(shè),A,有,c,個(gè)不同的值,,a,1,a,2,.a,c,.,B,有,r,個(gè)不同的值,,b,1,b,2,b,r,
6、.,則,包含屬性,A,和屬性,B,的元組可以使用一個(gè)列聯(lián)表來(lái)表示,其中,A,屬性的,c,個(gè)不同值構(gòu)成表的列,,B,屬性的,r,個(gè)不同值構(gòu)成表的行。,令,(A,i,B,j,),表示屬性,A,取,a,i,而屬性,B,取,b,j,的聯(lián)合事件,即(,A=a,i,B=b,j,).,3.3,數(shù)據(jù)集成,在表中每一個(gè)可能的,(A,i,B,j,),聯(lián)合事件都有一個(gè)單元。,卡方值,的公式是:,其中,,o,ij,表示觀察到的(,A,i,B,j,),聯(lián)合事件的頻率(實(shí)際次數(shù)),。而,e,ij,表示,(A,i,B,j,),事件的期望頻率,,計(jì)算公式是:,其中,,n,是數(shù)據(jù)元組的個(gè)數(shù)。,卡方統(tǒng)計(jì)檢驗(yàn),假定屬性,A,和屬性
7、,B,是互相獨(dú)立的,,即這兩個(gè)屬性之間沒(méi)有關(guān)聯(lián)。基于顯著性水平,自由度是,(r-1)*(c-1),。,如果假設(shè)被拒絕,則,A,和,B,統(tǒng)計(jì)相關(guān),。,3.1,3.2,假設(shè)調(diào)查了,1500,個(gè)人,按性別分成男和女。每個(gè)人投票是否喜歡閱讀小說(shuō)。這樣,就有了兩個(gè)屬性:,gender,和,preferred_reading.,觀察到的每個(gè)可能的聯(lián)合事件的次數(shù)在表,3.1,中,。,圓括號(hào)中的表示事件的期望次數(shù),,按照公式,3.2,計(jì)算出來(lái)的。,可以注意到,,每一行中,期望次數(shù)的總和必須和這一行的觀察次數(shù)的總和相等;每一列中,期望次數(shù)的和等于這一列的觀察次數(shù)的和。,利用公式,3.1,,計(jì)算卡方值為:,對(duì)于,
8、2,*,2,的表,自由度為,(2-1)*(2-1)=1.,在自由度為,1,時(shí),卡方值為,10.828,則可以在,0.001,的顯著性水平上拒絕值原假設(shè)。因?yàn)橛?jì)算出的值大于這個(gè)值,所以能以更小的顯著性水平,拒絕原假設(shè),,即,性別和是否喜歡讀小說(shuō)之間存在強(qiáng)相關(guān)關(guān)系,。,2,數(shù)值數(shù)據(jù)的相關(guān)系數(shù),3.3,數(shù)據(jù)集成,對(duì)于數(shù)值型屬性,可以通過(guò)計(jì)算,相關(guān)系數(shù)(皮爾遜相關(guān)系數(shù)),來(lái)估計(jì)兩個(gè)屬性,A,和,B,之間的相關(guān)性:,其中,,n,是元組的個(gè)數(shù),,a,i,和,b,i,是元組,i,的屬性,A,和屬性,B,的值,,和,表示屬性,A,和屬性,B,的,均值,,,A,和,B,是屬性,A,和屬性,B,的,標(biāo)準(zhǔn)差,。,3
9、.3,相關(guān)系數(shù),r,AB,的值在,-1,到,+1,之間。如果,r,AB,0,,則稱,A,和,B,正相關(guān),。表示,A,的值隨著,B,的值的增大而增大。值越大,相關(guān)性越強(qiáng)。因此,,一個(gè)很大的值意味著,A,(或,B),需要被作為冗余刪除,。,如果,r,AB,=0,則,A,和,B,相互獨(dú)立,,它們之間沒(méi)有任何關(guān)系。如果值,0,則,A,和,B,負(fù)相關(guān),,表示一個(gè)屬性的值隨著另一個(gè)值的降低而增大。,散點(diǎn)圖,可以用來(lái)可視化屬性之間的關(guān)聯(lián)關(guān)系。,注意:,關(guān)聯(lián)并不表示因果,。即如果,A,和,B,相關(guān),但并不意味著,A,導(dǎo)致,B,或者,B,導(dǎo)致,A,。,例如,在分析一個(gè)人口統(tǒng)計(jì)數(shù)據(jù)庫(kù)時(shí),我們發(fā)現(xiàn)表示醫(yī)院數(shù)目的屬性
10、和盜車數(shù)目相關(guān)。但這并不表示一個(gè)屬性導(dǎo)致了另外一個(gè)。兩個(gè)屬性實(shí)際上都是因?yàn)槿丝跀?shù)這第三個(gè)屬性導(dǎo)致的。,3.,數(shù)值數(shù)據(jù)的協(xié)方差,3.3,數(shù)據(jù)集成,在概率理論和統(tǒng)計(jì)學(xué)中,,相關(guān)性,和,協(xié)方差,是,評(píng)價(jià)兩個(gè)屬性是否一起發(fā)生變化,的兩種相似的測(cè)量。,考慮兩個(gè),數(shù)值型屬性,A,和,B,n,個(gè)觀察,(a,1,b,1,),(a,n,b,n,).,屬性,A,和屬性,B,的均值,即期望值為:,和,則屬性,A,和,B,的,協(xié)方差,為:,如果利用公式,3.3,來(lái)計(jì)算,相關(guān)系數(shù),r,A,B,則:,其中分母是屬性,A,和,B,的標(biāo)準(zhǔn)差。可以看到,,對(duì)于一起發(fā)生變化的屬性,A,和,B,,如果,A,大于,時(shí),,B,也可能大
11、于,。因此,,A,和,B,之間的協(xié)方差為正,。如果一個(gè)屬性的值在均值以下時(shí)另一個(gè)傾向于在均值以上,則,協(xié)方差為負(fù),。,如果,A,和,B,相互獨(dú)立(沒(méi)有關(guān)聯(lián)),則協(xié)方差為,0,.,但,反過(guò)來(lái)并不成立,。即一些隨機(jī)變量對(duì)的協(xié)方差值為,0,,但并不獨(dú)立。只有在一些額外的假設(shè)(如數(shù)據(jù)滿足多元正態(tài)分布)時(shí)協(xié)方差為,0,表明獨(dú)立性。,考慮下表,這是一個(gè)觀察到的,5,次,AllElectronics,和,Hightech,公式的股票價(jià)格。如果股票是被同一個(gè)公司的趨勢(shì)影響,那么它們的價(jià)格是否一起漲落呢?,計(jì)算均值:,則協(xié)方差為:,協(xié)方差值為正,因此,我們可以說(shuō)兩個(gè)公司的股票是一起漲的,。,3.3.3,元祖重復(fù)
12、,3.3,數(shù)據(jù)集成,除了檢測(cè)屬性間的冗余,,元組級(jí)別的冗余,也需要被檢測(cè)。,不規(guī)范表的使用,(一般是為了避免連接提高性能)是另一種數(shù)據(jù)冗余的來(lái)源。在,不同的復(fù)制,之間常常產(chǎn)生不一致性。因?yàn)?不精確的數(shù)據(jù)輸入或者更新了一部分而非全部的數(shù)據(jù),。,例如,一個(gè)購(gòu)買(mǎi)訂單數(shù)據(jù)庫(kù)包含購(gòu)買(mǎi)者的姓名和地址屬性,而非這個(gè)信息的主鍵信息。不一致性就可能產(chǎn)生,比如在購(gòu)買(mǎi)訂單數(shù)據(jù)庫(kù)中同樣的購(gòu)買(mǎi)者姓名卻是不同的地址。,3.3.4,數(shù)據(jù)值沖突的檢測(cè)與處理,3.3,數(shù)據(jù)集成,數(shù)據(jù)集成,還包含,數(shù)據(jù)值沖突的檢測(cè)和解析,。例如,對(duì)于同一個(gè)真實(shí)世界實(shí)體,不同來(lái)源的屬性值可能不同??赡苁且?yàn)楸磉_(dá)、刻度或者編碼的不同。,比如,體重屬性
13、在一個(gè)系統(tǒng)中可能以公制單位存放而在另一個(gè)中以,英制,單位存放。,學(xué)校之間交換信息的時(shí)候,每個(gè)學(xué)校有自己的課程設(shè)置和等級(jí)模式。一個(gè)大學(xué)可能采用一個(gè)季度系統(tǒng),一個(gè)數(shù)據(jù)庫(kù)系統(tǒng)中,3,門(mén)課程,等級(jí)從,A+,到,F,。另一個(gè)可能采用學(xué)期值,數(shù)據(jù)庫(kù)中提供,2,門(mén)課程,等級(jí)從,1,到,10.,很難制定兩所大學(xué)精確的課程,等級(jí)轉(zhuǎn)換規(guī)則,交換信息很困難。,3.4.1,數(shù)據(jù)規(guī)約策略的概述,3.4.2,小波變換,3.4.3,主成分分析,3.4.4,屬性子集選擇,3.4.5,回歸和對(duì)數(shù)線性模型:參數(shù)化數(shù)據(jù)規(guī)約,3.4.6,直方圖,3.4.7,聚類,3.4.8,抽樣,3.4.9,數(shù)據(jù)立方體聚集,3.4,數(shù)據(jù)規(guī)約,3.4
14、.1,數(shù)據(jù)規(guī)約策略的概述,數(shù)據(jù)規(guī)約策略包括維歸約,數(shù)量規(guī)約,數(shù)據(jù)壓縮,1,)維歸約:減少所考慮的隨機(jī)變量或?qū)傩缘膫€(gè)數(shù)。方法有,小波變換和主成分分析,,它們把原數(shù)據(jù)變換或投影到較小的空間。屬性子集選擇是一種維歸約方法,其中不相關(guān)、弱相關(guān)或冗余的屬性或維被檢測(cè)和刪除。,2,)數(shù)量歸約:用替代的、較小的數(shù)據(jù)表示形式替換原數(shù)據(jù)。,3,)數(shù)據(jù)壓縮:使用變換,以便得到原數(shù)據(jù)的歸約或“壓縮”表示。如果原數(shù)據(jù)能夠從壓縮后的數(shù)據(jù)重構(gòu),而不損失信息,該數(shù)據(jù)歸約為 無(wú)損的,近似重構(gòu)原數(shù)據(jù)稱為有損的。,3.4,數(shù)據(jù)規(guī)約,(,1,),離散小波變換(,DWT,):一種線性信號(hào)處理技術(shù),用于數(shù)據(jù)向量,X,時(shí),將它變成不同的
15、數(shù)值小波系數(shù)向量,X,。,(,2,),主成分分析:(,PCA,)又稱,K-L,方法,搜索,k,個(gè)最能代表數(shù)據(jù)的,n,維正交向量,其中,k=n,。,(,3,),屬性子集選擇:通過(guò)刪除不相關(guān)或冗余的屬性(維)減少數(shù)據(jù)量。目標(biāo)是找出最小屬性集,,,使得,數(shù)據(jù),類的概率分布盡可能地接近使用所有屬性得到的原分布。另外,在縮小后的屬性集上挖掘能夠減少出現(xiàn)在發(fā)現(xiàn)模式上的屬性數(shù)目,使得模式更易于理解。,3.4,數(shù)據(jù)規(guī)約,(,4,)回歸和對(duì)數(shù)線性模型:參數(shù)化數(shù)據(jù)歸約,回歸和對(duì)數(shù)線性模型可以用來(lái)近似給定的數(shù)據(jù)。對(duì)數(shù)線性模型:近似離散的多維概率分布。給定,n,維元組的集合,我們把每個(gè)元組看做,n,維空間的點(diǎn),對(duì)于離
16、散屬性集,,可使用,對(duì)數(shù)線性模型,基于維組合的一個(gè)較小子集,,估計(jì)多維,空間中每個(gè)點(diǎn)的概率。,(,5,)直方圖,直方圖使用分箱來(lái)近似數(shù)據(jù)分布,是一種流行的數(shù)據(jù)歸約形式。(,6,)聚類,聚類技術(shù)把數(shù)據(jù)元組看做對(duì)象,將對(duì)象劃分為群或簇,使得在一個(gè)簇中的對(duì)象相互,“相似”,,而與其他簇中的對(duì)象“相異”。通常,相似性基于距離函數(shù)。,(,7,),抽樣,抽樣可以作為一種數(shù)據(jù)歸約的技術(shù)使用,因?yàn)樗试S用數(shù)據(jù)小得多的隨機(jī)樣本表示數(shù)據(jù)集。,例如,:,簇,抽樣,,分層抽樣,(,8,)數(shù)據(jù)立方體聚集,對(duì)數(shù)據(jù)倉(cāng)庫(kù)的多維數(shù)據(jù)結(jié)構(gòu)建模,3.5.1,數(shù)據(jù),變換,策略概述:,1,)光滑:去掉數(shù)據(jù)中的噪聲。技術(shù)包括分箱、回歸、聚類。,2,)屬性構(gòu)造(特征構(gòu)造):由給定的屬性構(gòu)造新的屬性并添加到屬性集中,以幫助數(shù)據(jù)挖掘。,3,)聚集:對(duì),數(shù)據(jù)進(jìn)行匯總,或聚集。,4,)規(guī)范化:把屬性數(shù)據(jù)按比例縮放,使之落入一個(gè)特定的區(qū)間。,5,)離散化:數(shù)值屬性(,eg,。年齡)的原始值用區(qū)間標(biāo)簽(,eg.0-10,11-20,)或概念標(biāo)簽(,youth,,,adult,,,senior,)替換。,6,)由標(biāo)稱數(shù)據(jù)產(chǎn)生概念分層:將某個(gè)屬性
- 溫馨提示:
1: 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年作風(fēng)建設(shè)學(xué)習(xí)教育開(kāi)展情況的報(bào)告范文
- 在2025年民營(yíng)企業(yè)座談會(huì)上的主持講話范文
- 在2025年全縣教育領(lǐng)域群眾身邊不正之風(fēng)和腐敗問(wèn)題集中整治調(diào)度會(huì)上的講話范文
- 工委副書(shū)記在2025年機(jī)關(guān)DeepSeek應(yīng)用專題輔導(dǎo)培訓(xùn)班開(kāi)班儀式上的講話范文
- 在2025年DeepSeek大模型政務(wù)應(yīng)用培訓(xùn)會(huì)上的講話范文
- 在青年干部培訓(xùn)結(jié)業(yè)典禮上的講話文稿
- 2025年副書(shū)記防汛工作會(huì)議上的講話范文
- 2025年主管商務(wù)部門(mén)黨組書(shū)記在理論學(xué)習(xí)中心組會(huì)上研討發(fā)言文稿
- 2025年國(guó)企黨委關(guān)于干部職工思想政治工作情況的報(bào)告范文
- 在機(jī)關(guān)單位作風(fēng)建設(shè)學(xué)習(xí)教育突出問(wèn)題專項(xiàng)整治工作部署會(huì)議上的講話范文
- 醫(yī)院領(lǐng)導(dǎo)2025年黨風(fēng)廉政建設(shè)推進(jìn)會(huì)上的講話范文
- 2025年關(guān)于開(kāi)展“以案促改”工作實(shí)施方案供參考
- 在2025年安全生產(chǎn)專項(xiàng)整治暨化工行業(yè)風(fēng)險(xiǎn)防控部署會(huì)上的講話范文
- 領(lǐng)導(dǎo)干部在“十五五”發(fā)展規(guī)劃編制啟動(dòng)會(huì)上的講話文稿
- 2025年書(shū)記在慰問(wèn)老干部暨情況通報(bào)會(huì)上的主持講話提綱范文
相關(guān)資源
更多