機器學(xué)習(xí)ppt Chap02模型評估與選擇

上傳人:Tomo****.明天 文檔編號:240470881 上傳時間:2024-04-11 格式:PPT 頁數(shù):28 大?。?.99MB
收藏 版權(quán)申訴 舉報 下載
機器學(xué)習(xí)ppt Chap02模型評估與選擇_第1頁
第1頁 / 共28頁
機器學(xué)習(xí)ppt Chap02模型評估與選擇_第2頁
第2頁 / 共28頁
機器學(xué)習(xí)ppt Chap02模型評估與選擇_第3頁
第3頁 / 共28頁

下載文檔到電腦,查找使用更方便

12 積分

下載資源

還剩頁未讀,繼續(xù)閱讀

資源描述:

《機器學(xué)習(xí)ppt Chap02模型評估與選擇》由會員分享,可在線閱讀,更多相關(guān)《機器學(xué)習(xí)ppt Chap02模型評估與選擇(28頁珍藏版)》請在裝配圖網(wǎng)上搜索。

1、2016南京大學(xué)機器學(xué)習(xí)導(dǎo)論課程專用所有權(quán)保留機器學(xué)習(xí)導(dǎo)論(2016 春季學(xué)期)二、模型評估與選擇主講教師:周志華權(quán)學(xué)機16南京大保20器學(xué)習(xí)導(dǎo)論課程專用所有留典型的機器學(xué)習(xí)過程什么模型好?能很好地適用于unseen instance泛化能力強!例如,錯誤率低、精度高然而,我們手上沒有unseen instance,權(quán)所有2016南京大學(xué)機器學(xué)習(xí)導(dǎo)論課程專用保留泛化誤差vs.經(jīng)驗誤差泛化誤差:在“未來”樣本上的誤差經(jīng)驗誤差:在訓(xùn)練集上的誤差,亦稱“訓(xùn)練誤差”泛化誤差越小越好 經(jīng)驗誤差是否越小越好?NO!因為會出現(xiàn)“過擬合”(overfitting)2016南京大學(xué)機器學(xué)習(xí)導(dǎo)論課程專用所有權(quán)保留

2、過擬合(overfitting)vs.欠擬合(underfitting)2016南京大學(xué)機器學(xué)習(xí)導(dǎo)論課程用專所有權(quán)保留模型選擇(model selection)三個關(guān)鍵問題:如何獲得測試結(jié)果?如何評估性能優(yōu)劣?如何判斷實質(zhì)差別?評估方法性能度量比較檢驗權(quán)專用2016南京大學(xué)機器學(xué)習(xí)導(dǎo)論課程所有保留評估方法關(guān)鍵:怎么獲得“測試集”(test set)?測試集應(yīng)該與訓(xùn)練集“互斥”常見方法:留出法(hold-out)交叉驗證法(cross validation)自助法(bootstrap)權(quán)2016南京大學(xué)機器學(xué)習(xí)導(dǎo)論課程專用所有保留訓(xùn)練集測試集留出法擁有的數(shù)據(jù)集注意:保持?jǐn)?shù)據(jù)分布一致性(例如:分層

3、采樣)多次重復(fù)劃分(例如:100次隨機劃分)測試集不能太大、不能太小(例如:1/51/3)2016南京大學(xué)機器學(xué)習(xí)導(dǎo)論課程專用所有權(quán)保留k-折交叉驗證法若k=m,則得到“留一法”(leave-one-out,LOO)權(quán)保器學(xué)習(xí)導(dǎo)論課學(xué)機2016南京大程專用所有留自助法基于“自助采樣”(bootsrap sampling)亦稱“有放回采樣”、“可重復(fù)采樣”約有36.8%的樣本不出現(xiàn)訓(xùn)練集與原樣本集同規(guī)模數(shù)據(jù)分布有所改變“包外估計”(out-of-bag estimation)權(quán)專用2016南京大學(xué)機器學(xué)習(xí)導(dǎo)論課程所有保留“調(diào)參”與最終模型算法的參數(shù):一般由人工設(shè)定,亦稱“超參數(shù)”模型的參數(shù):一般

4、由學(xué)習(xí)確定參數(shù)調(diào)得好不好對性能往往對最終性能有關(guān)鍵影響調(diào)參過程相似:先產(chǎn)生若干模型,然后基于某種評估方法進行選擇區(qū)別:訓(xùn)練集vs.測試集vs.驗證集(validation set)算法參數(shù)選定后,要用“訓(xùn)練集+驗證集”重新訓(xùn)練最終模型2016南京大學(xué)機器學(xué)習(xí)導(dǎo)論課程用專所有權(quán)保留模型選擇(model selection)三個關(guān)鍵問題:如何獲得測試結(jié)果?如何評估性能優(yōu)劣?如何判斷實質(zhì)差別?評估方法性能度量比較檢驗2016南京大學(xué)機器學(xué)習(xí)導(dǎo)論課程專用所有權(quán)保留性能度量性能度量(performance measure)是衡量模型泛化能力的評價標(biāo)準(zhǔn),反映了任務(wù)需求使用不同的性能度量往往會導(dǎo)致不同的評判

5、結(jié)果什么樣的模型是“好”的,不僅取決于算法和數(shù)據(jù),還取決于任務(wù)需求 回歸(regression)任務(wù)常用均方誤差:2016南京大學(xué)機器學(xué)習(xí)導(dǎo)論課程專用所有權(quán)保留錯誤率vs.精度 錯誤率:精度:權(quán)2016南京大學(xué)機器學(xué)習(xí)導(dǎo)論課程專用所有保留 查準(zhǔn)率:查準(zhǔn)率vs.查全率 查全率:權(quán)所用專有程課機器學(xué)習(xí)導(dǎo)論大學(xué)2016南京保留(BEP)PR圖:學(xué)習(xí)器A 優(yōu)于學(xué)習(xí)器C 學(xué)習(xí)器B 優(yōu)于學(xué)習(xí)器C 學(xué)習(xí)器A?學(xué)習(xí)器BBEP:學(xué)習(xí)器A 優(yōu)于學(xué)習(xí)器B 學(xué)習(xí)器A 優(yōu)于學(xué)習(xí)器C 學(xué)習(xí)器B 優(yōu)于學(xué)習(xí)器CPR圖,BEP根據(jù)學(xué)習(xí)器的預(yù)測結(jié)果按正例可能性大小對樣例進行排序,并逐個把樣本作為正例進行預(yù)測權(quán)2016南京大學(xué)機器

6、學(xué)習(xí)導(dǎo)論課程專用所有保留F1若對查準(zhǔn)率/查全率有不同偏好:比BEP 更常用的F1 度量:權(quán)2016南京大學(xué)機器學(xué)習(xí)導(dǎo)論課程專用所有保留宏xx vs.微xx若能得到多個混淆矩陣:(例如多次訓(xùn)練/測試的結(jié)果,多分類的兩兩混淆矩陣)宏(macro-)查準(zhǔn)率、查全率、F1微(micro-)查準(zhǔn)率、查全率、F1權(quán)保用導(dǎo)論課程2016南京大學(xué)機器學(xué)習(xí)專所有留ROC CurveROC,AUCAUC:Area Under the ROC CurveROC(Receiver OperatingCharacteristic)Curve Green&Swets,Book 66;Spackman,IWML89Area

7、 UnderThe bigger,the better權(quán)用程專所有2016南京大學(xué)機器學(xué)習(xí)導(dǎo)論課保留非均等代價犯不同的錯誤往往會造成不同的損失此時需考慮“非均等代價”(unequal cost)代價敏感(cost-sensitive)錯誤率:2016南京大學(xué)機器學(xué)習(xí)導(dǎo)論課程用專所有權(quán)保留模型選擇(model selection)三個關(guān)鍵問題:如何獲得測試結(jié)果?如何評估性能優(yōu)劣?如何判斷實質(zhì)差別?評估方法性能度量比較檢驗權(quán)2016南京學(xué)機器學(xué)習(xí)導(dǎo)大論課程專用所有保留比較檢驗在某種度量下取得評估結(jié)果后,是否可以直接比較以評判優(yōu)劣?NO!因為:測試性能不等于泛化性能 測試性能隨著測試集的變化而變化

8、很多機器學(xué)習(xí)算法本身有一定的隨機性機器學(xué)習(xí)“概率近似正確”程專用所有課權(quán)學(xué)習(xí)2016南京大學(xué)機器導(dǎo)論保留(萊斯利維利昂特)(1949-)2010年圖靈獎機器學(xué)習(xí)的理論基礎(chǔ)計算學(xué)習(xí)理論Computational learning theoryLeslieValiantPAC(Probably Approximately Correct)learning modelValiant,19842016南京大學(xué)機器學(xué)習(xí)導(dǎo)論課程專所用有權(quán)保留 兩學(xué)習(xí)器比較 交叉驗證t 檢驗(基于成對t 檢驗)k 折交叉驗證;5x2交叉驗證 McNemar 檢驗(基于列聯(lián)表,卡方檢驗)多學(xué)習(xí)器比較 Friedman+Nem

9、enyi Friedman檢驗(基于序值,F(xiàn)檢驗;判斷”是否都相同”)Nemenyi 后續(xù)檢驗(基于序值,進一步判斷兩兩差別)常用方法統(tǒng)計假設(shè)檢驗(hypothesis test)為學(xué)習(xí)器性能比較提供了重要依據(jù)統(tǒng)計顯著性2016南京大學(xué)機器學(xué)習(xí)導(dǎo)論課程專用所有權(quán)保留Friedman 檢驗圖橫軸為平均序值,每個算法圓點為其平均序值,線段為臨界閾值的大小若兩個算法有交疊(A 和B),則說明沒有顯著差別;否則有顯著差別(A 和C),算法A 顯著優(yōu)于算法C2016南京大學(xué)機器學(xué)習(xí)導(dǎo)論課程專用所有權(quán)保留“誤差”包含了哪些因素?換言之,從機器學(xué)習(xí)的角度看,“誤差”從何而來?2016南京大學(xué)機器學(xué)習(xí)導(dǎo)論課程

10、專用所有權(quán)保留偏差-方差分解(bias-variance decomposition)對回歸任務(wù),泛化誤差可通過“偏差-方差分解”拆解為:期望輸出與真實輸出的差別同樣大小的訓(xùn)練集的變動,所導(dǎo)致的性能變化訓(xùn)練樣本的標(biāo)記與真實標(biāo)記有區(qū)別表達(dá)了當(dāng)前任務(wù)上任何學(xué)習(xí)算法所能達(dá)到的期望泛化誤差下界泛化性能是由學(xué)習(xí)算法的能力、數(shù)據(jù)的充分性以及學(xué)習(xí)任務(wù)本身的難度共同決定2016南京大學(xué)機器學(xué)習(xí)導(dǎo)論課程專用所有權(quán)保留偏差-方差窘境(bias-variance dillema)一般而言,偏差與方差存在沖突:訓(xùn)練不足時,學(xué)習(xí)器擬合能力不強,偏差主導(dǎo)隨著訓(xùn)練程度加深,學(xué)習(xí)器擬合能力逐漸增強,方差逐漸主導(dǎo)訓(xùn)練充足后,學(xué)習(xí)器的擬合能力很強,方差主導(dǎo)2016南京大學(xué)機器學(xué)習(xí)導(dǎo)論課程專用所有權(quán)保留前往第三站

展開閱讀全文
溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

相關(guān)資源

更多
正為您匹配相似的精品文檔
關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號:ICP2024067431-1 川公網(wǎng)安備51140202000466號


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺,本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請立即通知裝配圖網(wǎng),我們立即給予刪除!