北京大學(xué) 機(jī)器學(xué)習(xí)

上傳人：無*** 文檔編號：20571583 上傳時(shí)間：2021-03-31 格式：PDF 頁數(shù)：95 大?。?.05MB

收藏版權(quán)申訴舉報(bào) 下載

第1頁 / 共95頁

第2頁 / 共95頁

第3頁 / 共95頁

下載文檔到電腦，查找使用更方便

12 積分

下載資源

還剩頁未讀，繼續(xù)閱讀

資源描述：

《北京大學(xué) 機(jī)器學(xué)習(xí)》由會(huì)員分享，可在線閱讀，更多相關(guān)《北京大學(xué) 機(jī)器學(xué)習(xí)（95頁珍藏版）》請?jiān)谘b配圖網(wǎng)上搜索。

1、機(jī)器學(xué)習(xí)概論 An Introduction to Machine Learning 鄧志鴻北京大學(xué)信息科學(xué)技術(shù)學(xué)院 2013 2014學(xué)年第二學(xué)期第一講內(nèi)容課程簡介機(jī)器學(xué)習(xí)簡介淺議機(jī)器學(xué)習(xí) 課程簡介內(nèi)容提要教輔人員參考資料課程網(wǎng)站課程要求及目的課程考核機(jī)制課程內(nèi)容簡介教輔人員任課老師鄧志鴻辦公室：理科 2號樓 2318 電話： 62755592 Email：個(gè)人主頁： http:/ 助教：沈戈暉實(shí)驗(yàn)室：理科 2號樓 2320 Email：電話： 62757756 魏亮晨實(shí)驗(yàn)室：理科 2號樓 2320 Email：電話： 62757756

2、時(shí)間：每周周一 34節(jié) 雙周周三 56節(jié) 地點(diǎn) ：一教 204 課程簡介內(nèi)容提要教輔人員參考資料課程網(wǎng)站課程要求及目的課程考核機(jī)制課程內(nèi)容簡介參考資料參考教材 Machine Learning (Tom Mitchell) 補(bǔ)充材料 Journals Machine Learning; Journal of Machine Learning Research (JMLR) IEEE Transactions on Pattern Analysis and Machine Intelligence（ PAMI） Conferences 主流： AAAI, IJCAI, IC

3、ML, NIPS 自然語言處理： ACL, COLING, EMNLP 機(jī)器視覺與多媒體： CVPR, ICCV, ACM Mutilmedia 數(shù)據(jù)挖掘與檢索： KDD, SIGIR, WWW 課程簡介內(nèi)容提要教輔人員參考資料課程網(wǎng)站課程要求及目的課程考核機(jī)制課程內(nèi)容簡介課程網(wǎng)站網(wǎng)址： http:/ 機(jī)器學(xué)習(xí)概論課程簡介內(nèi)容提要教輔人員參考資料課程網(wǎng)站課程要求及目的課程考核機(jī)制課程內(nèi)容簡介課程要求高等數(shù)學(xué) 微分、積分概率統(tǒng)計(jì) 數(shù)據(jù)結(jié)構(gòu) 編程語言 c, c+, java, Python 會(huì)用一種即可有基本概念就可以了課程目的了解和掌握機(jī)器學(xué)習(xí)的基本理

4、論、算法和技術(shù) 問題背景種類基本方法和算法理解已有機(jī)器學(xué)習(xí) /數(shù)據(jù)挖掘系統(tǒng)的工作原理已有很多相關(guān)軟件，能很方便實(shí)現(xiàn)分類、聚類等機(jī) 器學(xué)習(xí)任務(wù)。 Weka工具包 Matlab 不僅僅會(huì)用這些軟件，還要知道它是如何實(shí)現(xiàn)的。能在今后的工作中應(yīng)用機(jī)器學(xué)習(xí)的理論和方法解決實(shí)際問題。課程簡介內(nèi)容提要教輔人員參考資料課程網(wǎng)站課程要求及目的課程考核機(jī)制課程內(nèi)容簡介課程考核機(jī)制課堂小問題希望大家踴躍參加三個(gè)項(xiàng)目分類聚類頻繁模式挖掘及應(yīng)用考試期末考試課程成績構(gòu)成平時(shí) 10 項(xiàng)目 40 分類項(xiàng)目 15 聚類項(xiàng)目 10 模式挖掘項(xiàng)目 15 期末考試 50 項(xiàng)目說明政

5、策 1-3人組成一個(gè)團(tuán)隊(duì) (team)。每個(gè)小組獨(dú)立完成項(xiàng)目。鼓勵(lì)討論，但禁止小組間抄襲。數(shù)據(jù) 適時(shí)發(fā)布在課程網(wǎng)站上課程簡介內(nèi)容提要教輔人員參考資料課程網(wǎng)站課程要求及目的課程考核機(jī)制課程內(nèi)容簡介課程內(nèi)容簡介數(shù)據(jù)生成與預(yù)處理分類聚類分析關(guān)聯(lián)分析課程內(nèi)容數(shù)據(jù)生成與預(yù)處理數(shù)據(jù)生成結(jié)構(gòu)化數(shù)據(jù) 關(guān)系數(shù)據(jù) 非結(jié)構(gòu)化數(shù)據(jù) 文本圖像數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗數(shù)據(jù)變換數(shù)據(jù)歸約特征選擇 (Feature Selection) 特征抽取 (Feature Extraction) 數(shù)據(jù)離散化課程內(nèi)容分類符號邏輯方法謂詞邏輯規(guī)則 Find-S, Candidate-Elim

6、ination, Decision Tree, Sequential Covering Algorithms 一階謂詞規(guī)則 FOIL 貝葉斯方法相關(guān)基本概率概念以及貝葉斯公式樸素貝葉斯方法貝葉斯網(wǎng)絡(luò) 隱馬爾可夫模型（ HMM） k近鄰 (kNN) 主題模型 (選講 ) 課程內(nèi)容介紹分類神經(jīng)網(wǎng)絡(luò) 感知器（線性）前饋多層神經(jīng)網(wǎng)絡(luò)（任意函數(shù)）反向向傳播算法深度學(xué)習(xí)（選講）支持向量機(jī) (SVM) 統(tǒng)計(jì)學(xué)習(xí)理論線性 SVM 非線性 SVM 核函數(shù) 分類器集成基本原理基本技術(shù)： Voting、 Bagging、 Boosting 課程內(nèi)容介紹分類其它話題（選講）半監(jiān)督學(xué)習(xí)

7、生成模型基于圖的方法預(yù)測分類算法評估基本度量查全、查準(zhǔn)、評估方法基本概念基本方法 Holdout, Cross-validation, Bootstrap 課程內(nèi)容聚類相似性度量距離向量距離編輯距離相似系數(shù) 聚類間相似性度量核心算法層次聚類方法層次凝聚聚類算法，劃分聚類方法 K-Means，密度聚類方法 DBSCAN 基于模型的方法 EM, SOM, 性能評估課程內(nèi)容關(guān)聯(lián)分析基本概念支持度、置信度、關(guān)聯(lián)規(guī)則、頻繁模式、頻繁模式挖掘經(jīng)典算法 Apriori算法垂直算法 (Eclat and dEclat) FP-Growth算法基于節(jié)點(diǎn)鏈表的算法

8、 Algorithms based on node lists 最長模式和閉模式交互挖掘增量挖掘高級話題序列模式挖掘我的重要貢獻(xiàn) 第一講課程簡介機(jī)器學(xué)習(xí)簡介淺議機(jī)器學(xué)習(xí) 機(jī)器學(xué)習(xí)簡介內(nèi)容提要必要性基本定義發(fā)展歷程基本任務(wù) 相關(guān)領(lǐng)域應(yīng)用必要性社會(huì)需求機(jī)器人各類機(jī)器人對象識別人臉檢測指紋識別語音識別趨勢人更多的休閑時(shí)間機(jī)器更多的智能工作 IBM Watson Natural Language Processing, Information Retrieval, Machine Learning and Reasoning Algorithms.

9、Models Answer 之前也有發(fā)生 ; 所以網(wǎng)絡(luò)管理員認(rèn) 為可能是由客戶端 “ xx.xx.154.19”的錯(cuò)誤配置導(dǎo)致的。評價(jià)挖掘系統(tǒng) COMP COMP Chinese-orient Option Mining system of Peking university 背景介紹系統(tǒng)框架模塊介紹實(shí)驗(yàn)分析背景介紹 WWW上存在兩類信息事實(shí) (Facts) 門戶網(wǎng)站、公司主頁、個(gè)人主頁等評價(jià) (Opinions) 論壇，郵件，博客，當(dāng)前搜索引擎對事實(shí)的搜索，事實(shí)可通過主題關(guān)鍵詞來表達(dá) 搜索引擎檢索無法有效檢索到評價(jià) 評價(jià)很難用關(guān)鍵詞表達(dá)出來人們對諾基亞手機(jī)的總體評價(jià) 人

10、們對“周正龍事件”的看法背景介紹目前人們可以通過論壇、 BBS、博客等等 WWW服務(wù)方便地發(fā)表自己的觀點(diǎn)和體驗(yàn)。這些評價(jià)信息包含了非常有價(jià)值的信息個(gè)人購買商品時(shí)，可以參考 WWW眾多網(wǎng)友的意見，而不局限于周圍的朋友企業(yè) 產(chǎn)品在用戶中的優(yōu)點(diǎn)和缺點(diǎn) 政府政策在群眾中的反映評價(jià)挖掘挖掘 WWW文本資源中的評價(jià)信息應(yīng)用廣泛評價(jià)挖掘任務(wù) 特征評價(jià)的對象如“諾基亞 N73”， “彩鈴”，評價(jià) 表達(dá)情感的詞（一般是形容詞）如“好”，“差”，“一般”等 “ 諾基亞 N73手機(jī)很好用 ” 評價(jià)信息挖掘處理特征：諾基亞 N73 評價(jià)：很好系統(tǒng)框架數(shù)據(jù)采集與清洗模塊評價(jià)信

11、息數(shù)據(jù)庫特征提取模塊評價(jià)挖掘模塊詞典特征庫用戶查詢接口用戶評價(jià)信息 WWW 特征評價(jià) 數(shù)據(jù)庫數(shù)據(jù)采集與清洗模塊介紹手動(dòng)選擇評價(jià)網(wǎng) 站或網(wǎng)頁網(wǎng)站或網(wǎng)頁列表原始評價(jià) 信息庫網(wǎng)絡(luò) 爬蟲網(wǎng)頁預(yù)處理自然語言處理預(yù)處理后評價(jià)庫評價(jià)信息數(shù)據(jù)庫預(yù)處理模塊：過濾網(wǎng)頁標(biāo)簽過濾無關(guān)評價(jià) 按照評價(jià)的邏輯結(jié)構(gòu)組織評價(jià) 自然語言處理模塊：分詞詞性標(biāo)注特征提取模塊介紹特征分為兩類由單個(gè)名詞描述的特征由名詞性短語描述的特征使用基于統(tǒng)計(jì)的方法，提取由名詞或名詞性短語表示的特征頻繁序列挖掘：挖掘頻繁名詞或名詞序列，作為候選特征過濾處理：過濾高頻詞或其

12、它不大可能是特征的候選特征頻繁模式挖掘處理評價(jià) 數(shù)據(jù)庫名詞提取評價(jià)中出現(xiàn)的名詞庫候選特征庫過濾處理特征庫無效特征庫實(shí)驗(yàn)數(shù)據(jù) 數(shù)據(jù)源塞班智能手機(jī)網(wǎng) N73專區(qū) http:/ 太平洋社區(qū) N73專區(qū) http:/ 數(shù)據(jù)量原始數(shù)據(jù) 63679條過濾后有效數(shù)據(jù)為 59129條結(jié)果分析特征情感評價(jià)值總評價(jià)主題數(shù) 積極評價(jià)主題數(shù) 消極評價(jià)主題數(shù) 電 2.8730 51 17 2 圖標(biāo) 1.7103 59 17 9 鈴聲 0.1481 193 45 10 信號 0.0232 72 11 8 下表是對 4個(gè)特征的情感分析的結(jié)果其中：電，圖標(biāo) 是情

13、感評價(jià)值最高的兩個(gè)特征；而鈴聲，信號是情感評價(jià)值最低的兩個(gè)特征最容易影響人們對手機(jī)的印象是這兩類特征：一是容易出問題，使手機(jī)用戶產(chǎn)生困擾的特征二是容易出個(gè)性，使手機(jī)用戶與眾不同的特征。結(jié)果展示 SIGMA系統(tǒng)框架科研文獻(xiàn)資源庫數(shù)據(jù)預(yù)處理元數(shù)據(jù)庫科研學(xué)術(shù) 知識庫用戶界面數(shù)據(jù)源網(wǎng)絡(luò)爬蟲 API接口聚類分析自動(dòng)排級演化分析主題建模 SIGMA系統(tǒng)的邏輯視圖與知識庫知識庫設(shè)計(jì) 邏輯視圖系統(tǒng)特色本系統(tǒng)在學(xué)術(shù)文獻(xiàn)信息網(wǎng)絡(luò)的統(tǒng)一框架下，實(shí)現(xiàn)多層次，全方位的科研資源檢索服務(wù)，為與學(xué)術(shù)研究相關(guān)的不同層次的用戶提供靈活、全方位的信息檢索服務(wù)。相關(guān)系統(tǒng) 國際 G

14、oogle Scholar DBLP CiteSeer 國內(nèi) 萬方中國學(xué)術(shù)文獻(xiàn)網(wǎng) 中國知網(wǎng) C_DBLP “我國計(jì)算機(jī)軟件領(lǐng)域有哪些重要的文獻(xiàn)” 提供不了檢索結(jié)果能回答如下問題系統(tǒng)功能特色鄧志鴻詳情英文論文中文論文被引論文論文詳情引文下載論文下載期刊詳情發(fā)文期刊單位詳情合作作者合作作者詳情研究方向研究方向詳情搜索“鄧志鴻” 系統(tǒng) 展示系統(tǒng)資源作者人數(shù) : 111,836 一級論文總數(shù)： 87,371 有詳細(xì)出版信息并提供了萬方全文下載地址二級論文總數(shù)： 944,891 可通過集成的 google接口進(jìn)行搜索。科研單位總數(shù)： 17,683 系統(tǒng)界面系

15、統(tǒng)展示專業(yè)領(lǐng)域?yàn)g覽系統(tǒng)展示專業(yè)領(lǐng)域?yàn)g覽系統(tǒng)展示研究熱點(diǎn)與趨勢系統(tǒng)展示研究熱點(diǎn)與趨勢系統(tǒng)展示專業(yè)科研力量瀏覽第一講課程簡介機(jī)器學(xué)習(xí)簡介淺議機(jī)器學(xué)習(xí) 關(guān)于“學(xué)習(xí)” 學(xué)習(xí)算法表示評價(jià)優(yōu)化表示：知識建模，即采用什么形式來概括（或抽象表示）數(shù)據(jù)。某類表示形式構(gòu)成假設(shè) 空間（ hypothesis space）。評價(jià)：度量學(xué)習(xí)結(jié)果的標(biāo)準(zhǔn)或依據(jù)，通常對不同的問題有不同的評價(jià)函數(shù)。優(yōu)化：根據(jù)評價(jià)函數(shù)在假設(shè)空間中找得分最高的表示示例（分類器）。機(jī)器學(xué)習(xí)算法組成部分重要問題泛化（ Generalization）機(jī)器學(xué)習(xí)的目標(biāo)是對訓(xùn)練集合中樣例的泛化。所謂泛化，指學(xué)習(xí)到的結(jié)果（

16、知識）對非訓(xùn)練集合中的未知樣例的預(yù)測盡可能對。原因訓(xùn)練樣例僅僅占全部樣例的極小極小一部分，甚至可以忽略不計(jì) DTraining Dall 重要問題過擬合（ Overfitting）過度關(guān)注訓(xùn)練樣例的特征，使得學(xué)到的知識泛化性差例如：在訓(xùn)練樣例上的準(zhǔn)確率為 100 在測試樣例上的準(zhǔn)確率為 50 常用策略通過交叉驗(yàn)證進(jìn)行處理奧卡姆剃刀 (Occams Razor) 重要問題維度災(zāi)難 (Curse of dimensionality) 許多在低維空間表現(xiàn)很好的算法，當(dāng)輸入是高維數(shù) 據(jù)的時(shí)候，就變得計(jì)算不可行或效果很差。原因隨著樣例維度的增長，樣例空間將以指數(shù)增長。因此，同等規(guī)模的訓(xùn)練集只能覆蓋越來越少樣例，即所占比例將以指數(shù)減少，從而造成正確泛化的難度以指數(shù)增長。樣例空間為 100維的布爾空間樣例的個(gè)數(shù)為 2100 1萬億的訓(xùn)練樣例這樣超大規(guī)模的訓(xùn)練集合也僅是樣例空間的 10-18 解決方案降維重要問題理論保證（ Theoretical Guarantees）機(jī)器學(xué)習(xí)采用的是歸納推理。因此，難于保證結(jié)果的正確性。從概率統(tǒng)計(jì)的角度上認(rèn)識機(jī)器學(xué)習(xí)在理論保證方面的問題。意義不是作為機(jī)器學(xué)習(xí)實(shí)踐應(yīng)用中決策標(biāo)準(zhǔn) 而是理解算法和推動(dòng)算法發(fā)展的源泉下一講數(shù)據(jù)生成與預(yù)處理 See you next time

展開閱讀全文

溫馨提示:
1: 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

備案號:蜀ICP備2024067431號-1 川公網(wǎng)安備51140202000466號

本站為文檔C2C交易模式，即用戶上傳的文檔直接被用戶下載，本站只是中間服務(wù)平臺，本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私，請立即通知裝配圖網(wǎng)，我們立即給予刪除！

北京大學(xué) 機(jī)器學(xué)習(xí)

最新文檔

相關(guān)資源

相關(guān)搜索