數(shù)據(jù)挖掘機器學(xué)習(xí) 考試簡答題

上傳人：熏** 文檔編號：153857926 上傳時間：2022-09-19 格式：DOC 頁數(shù)：7 大?。?41KB

收藏版權(quán)申訴舉報下載

第1頁 / 共7頁

第2頁 / 共7頁

第3頁 / 共7頁

下載文檔到電腦，查找使用更方便

10 積分

下載資源

還剩頁未讀，繼續(xù)閱讀

資源描述：

《數(shù)據(jù)挖掘機器學(xué)習(xí) 考試簡答題》由會員分享，可在線閱讀，更多相關(guān)《數(shù)據(jù)挖掘機器學(xué)習(xí) 考試簡答題（7頁珍藏版）》請在裝配圖網(wǎng)上搜索。

1、 1.何謂數(shù)據(jù)挖掘？它有哪些方面的功能？答：從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中，提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程稱為數(shù)據(jù)挖掘；（3分）數(shù)據(jù)挖掘的功能包括：概念描述、關(guān)聯(lián)分析、分類與預(yù)測、聚類分析、趨勢分析、孤立點分析以及偏差分析等（3 分） 2. 列舉 4 種監(jiān)督式學(xué)習(xí)算法？答： K-近鄰算法（k-Nearest Neighbors）（1 分）線性回歸（Linear Regression）（1 分）邏輯回歸（Logistic Regression）（1 分）支持向量機（1 分）（備注：列出

2、任意 4 種即可得分） 3. 過擬合問題產(chǎn)生的原因有哪些以及解決過擬合的辦法有哪些？答：產(chǎn)生的原因：（1）使用的模型比較復(fù)雜，學(xué)習(xí)能力過強。（1 分) （2）有噪聲存在（1 分) （3）數(shù)據(jù)量有限（1 分) 解決過擬合的辦法：（1）提前終止（當(dāng)驗證集上的效果變差的時候）（1 分) （2）數(shù)據(jù)集擴增（1 分) （3）尋找最優(yōu)參數(shù) （1 分) 4.支持向量機有哪些優(yōu)缺點？答：優(yōu)勢：（1）在高維空間非常高效（1 分) （2）即使在數(shù)據(jù)維度比樣本大的情況下仍然有效（1 分) （3）在決策函數(shù)中使用訓(xùn)練集的子集，因此它也是高效利用內(nèi)存的

3、（1 分) 缺點：（1）如果特征數(shù)量比樣本數(shù)量大得多，在選擇核函數(shù)時要避免過擬合（1 分) （2）支持向量機通過尋找支持向量找到最優(yōu)分割平面，是典型的二分類問題，因此無法解決多分類問題。（1 分) （3）不直接提供概率估計（1 分) 5、數(shù)據(jù)挖掘的兩大目標(biāo)分為預(yù)測和描述，監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)分別對應(yīng)哪類目標(biāo)？監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的定義是什么？分別從監(jiān)督類學(xué)習(xí)和無監(jiān)督類學(xué)習(xí)中找一類算法的實例應(yīng)用進行舉例說明。答：1.監(jiān)督學(xué)習(xí)對應(yīng)預(yù)測，無監(jiān)督學(xué)習(xí)對應(yīng)描述 2.監(jiān)督學(xué)習(xí)：從標(biāo)記的訓(xùn)練數(shù)據(jù)來推斷一個功能的機器學(xué)習(xí)任務(wù) 無監(jiān)督學(xué)習(xí):根據(jù)類別未知（沒有標(biāo)記）的

4、訓(xùn)練樣本解決模式識別中的各種問題。 3.監(jiān)督學(xué)習(xí)舉例：分類算法，利用分類算法進行垃圾電子郵件的分類。無監(jiān)督學(xué)習(xí)舉例：聚類算法。利用聚類算法，如網(wǎng)購平臺，通過用戶購物喜好等進行聚類，即客戶群體的劃分 1.請談?wù)?K 近鄰算法的優(yōu)缺點有哪些？答：優(yōu)點：簡單，易于理解，易于實現(xiàn)；只需保存訓(xùn)練樣本和標(biāo)記，無須估計參數(shù)，無須訓(xùn)練。不易受最小錯誤概率的影響。（3 分）缺點：K 的選擇不固定；預(yù)測結(jié)果容易受含噪聲數(shù)據(jù)的影響；當(dāng)樣本不平衡時，新樣本的類別偏向于訓(xùn)練樣本中數(shù)量占優(yōu)的類別，容易導(dǎo)致預(yù) 測錯誤；具有較高的計算復(fù)雜度和內(nèi)存消耗，因為對每一個未知

5、樣本，都要計算它到全體已知樣本的距離，才能求得它的 K 個最近鄰。（3 分） 2.何謂聚類？它與分類有什么異同？答：聚類是將物理或抽象對象的集合分組成為多個類或簇的過程，使得在同一個簇中的對象之間具有較高的相似度，而不同簇中的對象差別較大。（2 分）聚類與分類的不同，聚類要劃分的類是未知的，分類則是可按已知規(guī)則進行；聚類是一種無指導(dǎo)學(xué)習(xí)，它不依賴預(yù)先定義的類和帶類標(biāo)號的訓(xùn)練實例，屬于觀察式學(xué)習(xí)，分類則屬于有指導(dǎo)的學(xué)習(xí)，是示例式學(xué)習(xí)。（2 分） 3.請用偽代碼的形式描述 K-Means 算法的過程？答：（1）從一系列數(shù)據(jù) D 中任意選擇 K 個對象作

6、為初始簇的中心（1 分）（2）根據(jù)數(shù)據(jù)到聚類中心的距離，對每個對象進行分配（1 分）（3）更新聚類中心位置，即計算每個簇中所有對象的質(zhì)心，將聚類中心移動到質(zhì)心位置（1 分）（4）重復(fù)過程（2）（3）（1 分）（5）直到聚類中心不再發(fā)生變化（2 分） 4.什么是降維分析？以及常用的降維算法有哪些？答：降維分析是指從高維數(shù)據(jù)空間到低維數(shù)據(jù)空間的變化過程，其目的是為了降低時間復(fù)雜度和空間復(fù)雜度，或者是去掉數(shù)據(jù)集中夾雜的噪聲，或者是為了使用較少的特征進行解釋，方便我們更好地解釋數(shù)據(jù)以及實現(xiàn)數(shù)據(jù)的可視化（3 分）常用的降維算法有：主成分分析，因子分

7、析，獨立成分分析（3 分） 1、請描述下數(shù)據(jù)挖掘的工作流程和步驟一般包括哪些？答：問題設(shè)定->特征工程->模型選擇->模型訓(xùn)練->模型評測->模型應(yīng)用 2、請談?wù)勀銓ω惾~斯算法中先驗概率、后驗概率、條件概率的理解，以及怎么利用后驗概率計算條件概率（可用公式表達）？答：先驗概率——事件發(fā)生前的預(yù)判概率?？梢允腔跉v史數(shù)據(jù)的統(tǒng)計，可以由背景常識得出，也可以是人的主觀觀點給出。后驗概率——結(jié)果發(fā)生后反推事件發(fā)生原因的概率；或者說，基于先驗概率求得的反向條件概率。條件概率——一個事件發(fā)生后另一個事件發(fā)生的概率。一般的形式為 P(x|y

8、)表示 y 發(fā)生的條件下 x 發(fā)生的概率。可用貝葉斯公式把后驗概率和條件概率、先驗概率聯(lián)系起來，相互推算： 3、你對于人工智能的未來怎么看？請談?wù)勊赡軐θ祟惿鐣斐赡男├祝?答：開放式回答，沒有標(biāo)準(zhǔn)答案。主要看學(xué)生對知識的綜合理解以及邏輯思維能力 4、技術(shù)性元數(shù)據(jù) MataData 一般包括哪些信息？答：數(shù)據(jù)源信息、數(shù)據(jù)轉(zhuǎn)換的描述，數(shù)據(jù)倉庫內(nèi)對象和數(shù)據(jù)結(jié)構(gòu)的定義，數(shù)據(jù)清理和數(shù)據(jù)更新時使用的規(guī)則，源數(shù)據(jù)到目的數(shù)據(jù)的映射表，以及用戶訪問權(quán)限，數(shù)據(jù) 備份歷史記錄，數(shù)據(jù)導(dǎo)入歷史記錄和信息發(fā)布歷史記錄 3、數(shù)據(jù)倉庫和數(shù)據(jù)集市有什么

9、相同和區(qū)別之處？答：對比內(nèi)容范圍數(shù)據(jù) 主題源其他特征數(shù)據(jù)倉庫應(yīng)用獨立集中式，企業(yè)級（可能）規(guī)劃的歷史的，詳細的和概括的輕微不規(guī)范的多個主題多個內(nèi)部和外部源靈活的面向數(shù)據(jù) 長期大單一的復(fù)雜結(jié)構(gòu) 數(shù)據(jù)集市特定的 DSS 應(yīng)用用戶域的離散化可能是臨時組織的（無規(guī)劃）一些歷史的、詳細的和概括的高度不規(guī)范用戶關(guān)心的某一個中心主題很少的內(nèi)部和外部源嚴格的面向工程短期開始小，逐步變大多，半復(fù)雜

10、性結(jié)構(gòu)，合并復(fù)雜 1、請說明 OLAP 和 OLTP 的區(qū)別？答： OLTP OLAP 用戶功能操作人員，底層管理人員日常操作型事務(wù)處理決策人員、高級管理人員分析和決策數(shù)據(jù)庫設(shè) 計目標(biāo) 數(shù)據(jù)特征存取規(guī)模工作單元用戶數(shù) 數(shù)據(jù)庫大小面向應(yīng)用當(dāng)前的，最新的，細節(jié)的，二維的與分立的通常一次讀或?qū)憯?shù)十條記錄一個事務(wù) 通常是成千上萬個用戶通常是在 GB 級（100MB~1GB）面向主題歷史的、聚集的、多維的、集

11、成的與統(tǒng)一的可能讀取百萬條以上記錄一個復(fù)雜查詢可能只有幾十個或上百個用戶通常在 TB 級（100G~1TB 及以上）第 7 章管理規(guī)則與協(xié)同過濾 1)簡述 Apriori 算法原理。 Apriori 性質(zhì)：一個項集是頻繁的，那么它的所有子集都是頻繁的。一個項集的支持度不會超過其任何子集的支持度。該算法采用逐層的方法找出頻繁項集，首先找出 1 頻繁-項集，通過迭代方法利用頻繁 k-1-項集生成 k 候選項集，掃描數(shù) 據(jù)庫后從候選 k-項集中指出頻繁 k-項集，直到生成的候選項集為空。 2)為什么說強關(guān)聯(lián)規(guī)則不一定都是有效的，請舉例說明之

12、。并不是所有的強關(guān)聯(lián)規(guī)則都是有效的。例如，一個谷類早餐的零售商對 5000 名學(xué)生的調(diào)查的案例。數(shù)據(jù)表明： 60% 的學(xué)生打籃球， 75% 的學(xué)生吃這類早餐， 40%的學(xué)生即打籃球吃這類早餐。假設(shè)支持度閾值 s=0.4 ，置信度閾值 c=60%?；?于上面數(shù)據(jù)和假設(shè)我們可挖掘出強關(guān)聯(lián)規(guī)則 “(打籃球 )→( 吃早餐)” ，因為其 (打籃球 ) 和 ( 吃早餐 ) 的支持度都大于支持度閾值，都是頻繁項，而規(guī)則的置信度 c=40%/60%=66.6% 也大于置信度閾值。然而，以上的關(guān)聯(lián)規(guī)則很容易產(chǎn)生誤解，因為吃早餐的比例為 75%，大于 66%。也就是說，打籃球與吃早餐實際上是

13、負關(guān)聯(lián)的。 3)證明頻繁集的所有非空子集必須也是頻繁的。 min_ sup min_ sup conf =n(l ) / n( s 證明 1 反證法。根據(jù)定義，如果項集 I 滿足最小支持度閾值，則 I 不是頻繁的，即 p( I )

14、元組數(shù)為 s。對 X 的任一非空子集為 Y，設(shè) T 中支持 Y 的元組數(shù)為 s1。根據(jù)項目集支持數(shù)的定義，很容易知道支持 X 的元組一定支持 Y，所以 s1 ≥ s，即 support （Y） ≥ support （X）。按假設(shè)：項目集 X 是頻繁項目集，即 support(X)≥ minsupport，所以 support （Y ）≥ support（X）≥ minsupport，因此 Y 是頻繁項目集。 4)Apriori 的一種變形將事務(wù)數(shù)據(jù)庫 D 中的事務(wù)劃分為若干個不重疊的部分。證明在 D 中是頻繁的任何項集至少在 D 中的一

15、個部分中是頻繁的。證明：給定頻繁項集 l 和 l 的子集 s ，證明規(guī)則“ s ￠T(l -s ￠) ”的置信度不可能大于“ s T (l -s ) ”的置信度。其中， s ￠是s 的子集。根據(jù)定義，規(guī)則 A T B 的置信度為：conf =n ( A è B ) / n ( A) n( A) 表示項集 A 出現(xiàn) 的次數(shù) 規(guī) 則 s ￠T(l -s ￠) 的置信度為： conf =n ( s ￠è(l -s ￠))/ n (

16、s ￠)=n(l ) / n( s ￠) 規(guī)則 s T (l -s ) 的置信度同理可得：，又因為 s ￠是s 的子集， n( s ￠)>n( s ) ，所以規(guī)則“ s ￠T(l -s ￠) ”的置信度不可能大于“ s T (l -s ) ”的置信度。 5)名詞解釋：孤立點、頻繁項集、支持度、可信度、關(guān)聯(lián)規(guī)則孤立點：指數(shù)據(jù)庫中包含的一些與數(shù)據(jù)的一般行為或模型不一致的異常數(shù)據(jù)。頻繁項集：指滿足最小支持度的項集，是挖掘關(guān)聯(lián)規(guī)則的基本條件之一。支持度：規(guī)則 A→B 的支持度指的是所有事件中 A 與 B 同地發(fā)生的的概率，即 P(A ∪B)，是 AB 同時發(fā)生的次數(shù)與事件總次數(shù)之比。支持度是對關(guān)聯(lián)規(guī)則重要性的衡量。可信度：規(guī)則 A→B 的可信度指的是包含 A 項集的同時也包含 B 項集的條件概率 P(B|A)，是 AB 同時發(fā)生的次數(shù)與 A 發(fā)生的所有次數(shù)之比?？尚哦仁菍﹃P(guān)聯(lián)規(guī)則的準(zhǔn)確度的衡量。

展開閱讀全文

溫馨提示:
1: 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

備案號:蜀ICP備2024067431號-1 川公網(wǎng)安備51140202000466號

本站為文檔C2C交易模式，即用戶上傳的文檔直接被用戶下載，本站只是中間服務(wù)平臺，本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私，請立即通知裝配圖網(wǎng)，我們立即給予刪除！

數(shù)據(jù)挖掘機器學(xué)習(xí) 考試簡答題

最新文檔

相關(guān)資源

相關(guān)搜索

數(shù)據(jù)挖掘 機器學(xué)習(xí) 考試簡答題

最新文檔

相關(guān)資源

相關(guān)搜索

數(shù)據(jù)挖掘機器學(xué)習(xí) 考試簡答題