AI-chapter6 機器學習
《AI-chapter6 機器學習》由會員分享,可在線閱讀,更多相關《AI-chapter6 機器學習(63頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、機器學習機器學習內(nèi)容1 機器學習及其重要性機器學習及其重要性2 2 機器學習系統(tǒng)的基本結構機器學習系統(tǒng)的基本結構3 機器學習主要策略機器學習主要策略 記憶學習、傳授學習、演繹學習、記憶學習、傳授學習、演繹學習、類比學習、歸納學習(實例學習)類比學習、歸納學習(實例學習)4 機器學習的研究目標機器學習的研究目標5 機器學習的特點機器學習的特點6 機器學習角色的轉變機器學習角色的轉變7 五個挑戰(zhàn)問題五個挑戰(zhàn)問題1 機器學習的定義機器學習的定義按照人工智能大師西蒙的觀點,按照人工智能大師西蒙的觀點,學習學習就就是系統(tǒng)在不斷重復的工作中對本身能力是系統(tǒng)在不斷重復的工作中對本身能力的增強或者改進,使得系
2、統(tǒng)在下一次執(zhí)的增強或者改進,使得系統(tǒng)在下一次執(zhí)行同樣任務或類似任務時,會比現(xiàn)在做行同樣任務或類似任務時,會比現(xiàn)在做得更好或效率更高。得更好或效率更高。經(jīng)典定義:利用經(jīng)驗改善系統(tǒng)自身的性能經(jīng)典定義:利用經(jīng)驗改善系統(tǒng)自身的性能 T.Mitchell,Book 97隨著該領域的發(fā)展,主要做隨著該領域的發(fā)展,主要做智能數(shù)據(jù)分析智能數(shù)據(jù)分析典型任務:預測典型任務:預測例如:天氣預報例如:天氣預報機器學習是研究如何使用機器來模擬人類學習活動機器學習是研究如何使用機器來模擬人類學習活動的一門學科。稍為嚴格的提法是:機器學習是一門的一門學科。稍為嚴格的提法是:機器學習是一門研究機器獲取新知識和新技能,并識別現(xiàn)
3、有知識的研究機器獲取新知識和新技能,并識別現(xiàn)有知識的學問。學問。機器學習的發(fā)展史機器學習的發(fā)展史第一第一階段是在段是在5050年代中葉到年代中葉到6060年代中葉,年代中葉,屬于屬于熱烈烈時期期 在這個時期,所研究的是在這個時期,所研究的是“沒有知沒有知識識”的學習,即的學習,即“無知無知”學習學習;其;其研究目標是各類自組織系統(tǒng)和自適研究目標是各類自組織系統(tǒng)和自適應系統(tǒng);指導本階段研究的理論基應系統(tǒng);指導本階段研究的理論基礎是早在礎是早在4040年代就開始研究的年代就開始研究的神經(jīng)神經(jīng)網(wǎng)絡網(wǎng)絡模型。在這個時期,我國研制模型。在這個時期,我國研制了數(shù)字識別學習機。了數(shù)字識別學習機。第二階段在第
4、二階段在6060年代中葉至年代中葉至7070年代中葉,年代中葉,被稱為機器學習的冷靜時期。被稱為機器學習的冷靜時期。本階段的研究目標是模擬人類的概念學本階段的研究目標是模擬人類的概念學習過程,并采用邏輯結構或圖結構作為習過程,并采用邏輯結構或圖結構作為機器內(nèi)部描述。這個時期正是我國機器內(nèi)部描述。這個時期正是我國“史史無前例無前例”的十年,對機器學習的研究不的十年,對機器學習的研究不可能取得實質進展??赡苋〉脤嵸|進展。第三階段從第三階段從7070年代中葉至年代中葉至8080年代中葉,年代中葉,稱為復興時期。稱為復興時期。在這個時期,人們從學習單個概念擴展在這個時期,人們從學習單個概念擴展到學習多
5、個概念,探索不同的學習策略到學習多個概念,探索不同的學習策略和各種學習方法。本階段已開始把學習和各種學習方法。本階段已開始把學習系統(tǒng)與各種應用結合起來,中國科學院系統(tǒng)與各種應用結合起來,中國科學院自動化研究所進行質譜分析和模式文法自動化研究所進行質譜分析和模式文法推斷研究,表明我國的機器學習研究得推斷研究,表明我國的機器學習研究得到恢復。到恢復。19801980年西蒙來華傳播機器學習年西蒙來華傳播機器學習的火種后,我國的機器學習研究出現(xiàn)了的火種后,我國的機器學習研究出現(xiàn)了新局面。新局面。機器學習的最新階段始于機器學習的最新階段始于19861986年。年。一方面,由于神經(jīng)網(wǎng)絡研究的重新興起,一方
6、面,由于神經(jīng)網(wǎng)絡研究的重新興起,另一方面,對實驗研究和應用研究得到另一方面,對實驗研究和應用研究得到前所未有的重視。我國的機器學習研究前所未有的重視。我國的機器學習研究開始進入穩(wěn)步發(fā)展和逐漸繁榮的新時期。開始進入穩(wěn)步發(fā)展和逐漸繁榮的新時期。機器學習(續(xù))數(shù)據(jù)挖掘數(shù)據(jù)庫機器學習數(shù)據(jù)分析技術數(shù)據(jù)管理技術美國航空航天局美國航空航天局JPL實驗室的科學家在實驗室的科學家在Science(2001年年9月)上撰文指出:月)上撰文指出:機器機器學習對科學研究的整個過程正起到越來越大的支持作用,學習對科學研究的整個過程正起到越來越大的支持作用,該領域在今后的若干年內(nèi)將取得穩(wěn)定而快速的發(fā),該領域在今后的若干年
7、內(nèi)將取得穩(wěn)定而快速的發(fā)展展生物信息學計算金融學分子生物學行星地質學工業(yè)過程控制機器人遙感信息處理信息安全機 器 學 習重要性重要性重要性:例子網(wǎng)絡安全入侵檢測:是否是入侵?是何種入侵?如何檢測?歷史數(shù)據(jù):以往的正常訪問模式及其表現(xiàn)、以往的入侵模式及其表現(xiàn)對當前訪問模式分類這是一個典型的預測型機器學習問題常用技術:神經(jīng)網(wǎng)絡 決策樹支持向量機 k近鄰序列分析 聚類 重要性:例子生物信息學常用技術:神經(jīng)網(wǎng)絡 支持向量機隱馬爾可夫模型k近鄰 決策樹序列分析 聚類 重要性(續(xù))計算機科學在過去十年中發(fā)展極為迅速,今后會快計算機科學在過去十年中發(fā)展極為迅速,今后會快速穩(wěn)定地發(fā)展、對科學做出更大貢獻的領域速
8、穩(wěn)定地發(fā)展、對科學做出更大貢獻的領域E.Mjolsness&D.DesCoste,Science 01人工智能中最活躍、應用潛力最明顯的領域人工智能中最活躍、應用潛力最明顯的領域(之一)(之一)T.G.Dietterich,AIMag 97美國、歐洲各國都投入了大量人力物力美國、歐洲各國都投入了大量人力物力大型公司如波音、微軟、通用電器等都有研究課題大型公司如波音、微軟、通用電器等都有研究課題已有一些研究成果進入產(chǎn)品已有一些研究成果進入產(chǎn)品A Few Quotes“A breakthrough in machine learning would be worth ten Microsofts”
9、(Bill Gates,Chairman,Microsoft)“Machine learning is the next Internet”(Tony Tether,Director,DARPA)Machine learning is the hot new thing”(John Hennessy,President,Stanford)“Web rankings today are mostly a matter of machine learning”(Prabhakar Raghavan,Dir.Research,Yahoo)“Machine learning is going to r
10、esult in a real revolution”(Greg Papadopoulos,CTO,Sun)“Machine learning is todays discontinuity”(Jerry Yang,CEO,Yahoo)So What Is Machine Learning?Automating automationGetting computers to program themselvesWriting software is the bottleneckLet the data do the work instead!Traditional Programming Mac
11、hine LearningComputerDataProgramOutputComputerDataOutputProgramMagic?No,more like gardeningSeeds=AlgorithmsNutrients=DataGardener=YouPlants=ProgramsML in a NutshellTens of thousands of machine learning algorithmsHundreds new every yearEvery machine learning algorithm has three components:nRepresenta
12、tionnEvaluationnOptimizationRepresentationDecision treesSets of rules/Logic programsInstancesGraphical models(Bayes/Markov nets)Neural networksSupport vector machinesEtc.EvaluationAccuracyPrecision and recallmean square error or MSE Posterior probabilityCost/UtilityEntropyEtc.OptimizationCombinatori
13、al optimizationnE.g.:Greedy searchConvex optimizationnE.g.:Gradient descentConstrained optimizationnE.g.:Linear programmingTypes of LearningSupervised(inductive)learningUnsupervised learningSemi-supervised learningReinforcement learningMulti-instance learningData dream learning2 2 機器學習系統(tǒng)的基本結構機器學習系統(tǒng)的
14、基本結構 SimonSimon 設計學習系統(tǒng)應當注意的某些設計學習系統(tǒng)應當注意的某些總的原則總的原則:環(huán)境向系統(tǒng)的學習部分提供某些信息,:環(huán)境向系統(tǒng)的學習部分提供某些信息,學習部分利用這些信息修改知識庫,以增進系統(tǒng)執(zhí)行部分完成任務的效能,執(zhí)行學習部分利用這些信息修改知識庫,以增進系統(tǒng)執(zhí)行部分完成任務的效能,執(zhí)行部分根據(jù)知識庫完成任務,同時把獲得的信息反饋給學習部分。在具體的應用中,部分根據(jù)知識庫完成任務,同時把獲得的信息反饋給學習部分。在具體的應用中,環(huán)境,知識庫和執(zhí)行部分決定了具體的工作內(nèi)容,學習部分所需要解決的問題完環(huán)境,知識庫和執(zhí)行部分決定了具體的工作內(nèi)容,學習部分所需要解決的問題完全由
15、上述全由上述3 3部分確定。部分確定。環(huán)境環(huán)境環(huán)境可以是系統(tǒng)的工作對象,也可以包括工作環(huán)境可以是系統(tǒng)的工作對象,也可以包括工作對象和外界條件;對象和外界條件;例如在醫(yī)療系統(tǒng)中,環(huán)境就是病人當前的癥狀、例如在醫(yī)療系統(tǒng)中,環(huán)境就是病人當前的癥狀、檢驗的數(shù)據(jù)和病歷;檢驗的數(shù)據(jù)和病歷;在模式識別中,環(huán)境就是待識別的圖形或景物;在模式識別中,環(huán)境就是待識別的圖形或景物;在控制系統(tǒng)中,環(huán)境就是受控的設備或生產(chǎn)流在控制系統(tǒng)中,環(huán)境就是受控的設備或生產(chǎn)流程。程。就環(huán)境提供給系統(tǒng)的信息來說,就環(huán)境提供給系統(tǒng)的信息來說,信息的水平和信息的水平和質量質量對學習系統(tǒng)有很大影響。對學習系統(tǒng)有很大影響。信息的水平信息的水
16、平是指信息的一般性程度,也就是適是指信息的一般性程度,也就是適用范圍的廣泛性。這里的一般性程度是相對執(zhí)用范圍的廣泛性。這里的一般性程度是相對執(zhí)行環(huán)節(jié)的要求而言。行環(huán)節(jié)的要求而言。高水平信息比較抽象,適用于更廣泛的問題。高水平信息比較抽象,適用于更廣泛的問題。低水平信息比較具體,只適用于個別的問題。低水平信息比較具體,只適用于個別的問題。環(huán)境提供的信息水平和執(zhí)行環(huán)節(jié)所需的信息水環(huán)境提供的信息水平和執(zhí)行環(huán)節(jié)所需的信息水平之間往往有差距,平之間往往有差距,學習環(huán)節(jié)的任務就是解決學習環(huán)節(jié)的任務就是解決水平差距問題水平差距問題。n如果環(huán)境提供較抽象的高水平信息,學習環(huán)節(jié)就要如果環(huán)境提供較抽象的高水平信息
17、,學習環(huán)節(jié)就要補充遺漏的細節(jié),以便執(zhí)行環(huán)節(jié)能用于具體情況。補充遺漏的細節(jié),以便執(zhí)行環(huán)節(jié)能用于具體情況。n如果環(huán)境提供較具體的低水平信息,即在特殊情況如果環(huán)境提供較具體的低水平信息,即在特殊情況執(zhí)行任務的實例,學習環(huán)境就要由此歸納出規(guī)則,執(zhí)行任務的實例,學習環(huán)境就要由此歸納出規(guī)則,以便用于完成更廣的任務。以便用于完成更廣的任務。信息的質量信息的質量是指:正確性、適當?shù)倪x擇是指:正確性、適當?shù)倪x擇和合理的組織。和合理的組織。信息質量對學習難度有明顯的影響。信息質量對學習難度有明顯的影響。n例如,若施教者向系統(tǒng)提供準確的示教例子,例如,若施教者向系統(tǒng)提供準確的示教例子,而且提供例子的次序也有利于學習
18、,則容易而且提供例子的次序也有利于學習,則容易進行歸納。若示教例子中有干擾,或示例的進行歸納。若示教例子中有干擾,或示例的次序不合理,則難以歸納。次序不合理,則難以歸納。知識庫知識庫知識庫的形式就是知識表示的形式。知識庫的形式就是知識表示的形式。常用的知識表示方法有:特征向量、謂詞演算、常用的知識表示方法有:特征向量、謂詞演算、產(chǎn)生式規(guī)則、過程、產(chǎn)生式規(guī)則、過程、Lisp函數(shù)、數(shù)字多項式、函數(shù)、數(shù)字多項式、語義網(wǎng)絡和框架。語義網(wǎng)絡和框架。選擇知識表示方法要考慮下列準則;選擇知識表示方法要考慮下列準則;n可表達性可表達性n推理難度推理難度n可修改性可修改性n可擴充性??蓴U充性。下面以特征向量和謂
19、詞演算方法為例說明這些下面以特征向量和謂詞演算方法為例說明這些準則。準則。可表達性方面可表達性方面 特征向量適于描述缺乏內(nèi)特征向量適于描述缺乏內(nèi)在結構的事物,它以一個固定的待征集在結構的事物,它以一個固定的待征集合來描述事物。謂詞演算則適于描述結合來描述事物。謂詞演算則適于描述結構化的事物。構化的事物。推理難度方面推理難度方面 一種常用的推理是比較一種常用的推理是比較兩個描述是否等效。顯然判定兩個待征兩個描述是否等效。顯然判定兩個待征向量等效較容易,判定兩個謂詞表達式向量等效較容易,判定兩個謂詞表達式等效的代價就較大。等效的代價就較大??尚薷男苑矫婵尚薷男苑矫?特征向量和謂詞演算這特征向量和謂
20、詞演算這類顯式的表示都容局修改。過程表示等類顯式的表示都容局修改。過程表示等隱式的方法就難以修改。隱式的方法就難以修改??蓴U允性可擴允性 是指學習系統(tǒng)通過增加詞典條是指學習系統(tǒng)通過增加詞典條目和表示結構來擴大表示能力以便學習目和表示結構來擴大表示能力以便學習更復雜的知識。一個例子是更復雜的知識。一個例子是AM(lenat,1983),它可根據(jù)老概念定義新概念。它可根據(jù)老概念定義新概念。執(zhí)行環(huán)節(jié)執(zhí)行環(huán)節(jié)學習環(huán)節(jié)的目的就是改善執(zhí)行環(huán)節(jié)的行為。執(zhí)學習環(huán)節(jié)的目的就是改善執(zhí)行環(huán)節(jié)的行為。執(zhí)行環(huán)節(jié)的行環(huán)節(jié)的復雜性、反饋和透明度復雜性、反饋和透明度復雜性、反饋和透明度復雜性、反饋和透明度都對學習環(huán)節(jié)都對學習
21、環(huán)節(jié)有影響。有影響。復雜的任務需要更多的知識。復雜的任務需要更多的知識。執(zhí)行環(huán)節(jié)給學習環(huán)節(jié)的反饋也很重要。學習系執(zhí)行環(huán)節(jié)給學習環(huán)節(jié)的反饋也很重要。學習系統(tǒng)都要用某種方法去評價學習環(huán)節(jié)推薦的假設。統(tǒng)都要用某種方法去評價學習環(huán)節(jié)推薦的假設。若執(zhí)行環(huán)節(jié)有較好的透明度,學習環(huán)節(jié)就容易若執(zhí)行環(huán)節(jié)有較好的透明度,學習環(huán)節(jié)就容易追蹤執(zhí)行環(huán)節(jié)的行為。追蹤執(zhí)行環(huán)節(jié)的行為。n例如在學習下棋如果執(zhí)行環(huán)節(jié)把考慮過的所有走例如在學習下棋如果執(zhí)行環(huán)節(jié)把考慮過的所有走法都提供給學習環(huán)節(jié),不是僅僅提供實際采用的走法都提供給學習環(huán)節(jié),不是僅僅提供實際采用的走法,系統(tǒng)就較容易分析合理的走法。法,系統(tǒng)就較容易分析合理的走法。影響學
22、習系統(tǒng)設計的重要因素影響學習系統(tǒng)設計的重要因素 影響學習系統(tǒng)設計的影響學習系統(tǒng)設計的最最重要的因素重要的因素是環(huán)境向系是環(huán)境向系統(tǒng)提供的信息。整個過統(tǒng)提供的信息。整個過程要遵循程要遵循“取之精華,取之精華,棄之糟粕棄之糟粕”的原則,同的原則,同時謹記時謹記“實踐是檢驗真實踐是檢驗真理的唯一標準理的唯一標準”。表達能力強。表達能力強。易于推理。易于推理。容易修改知識庫。容易修改知識庫。知識表示易于擴展。知識表示易于擴展。1).影響學習系統(tǒng)設計的最重要的因素是環(huán)境向系統(tǒng)提供的信息。整個過程要遵循“取之精華,棄之糟粕”的原則,同時謹記“實踐是檢驗真理的唯一標準”。(2).知識庫是影響學習系統(tǒng)設計的第
23、二個因素。知識的表示有多種形式,在選擇表示方式時要兼顧以下4個方面:表達能力強。所選擇的表示方式能很容易地表達有關的知識。易于推理。為了使學習系統(tǒng)的計算代價比較低,希望知識表示方式能使推理較為容易。容易修改知識庫。學習系統(tǒng)的本質要求它不斷地修改自己的知識庫,當推廣得出一般執(zhí)行規(guī)則后,要加到知識庫中。知識表示易于擴展。學習系統(tǒng)不能在全然沒有任何知識的情況下憑空獲取知識,每一個學習系統(tǒng)都要求具有某些知識理解環(huán)境提供的信息,分析比較,做出假設,檢驗并修改這些假設。因此,更確切地說,學習系統(tǒng)是對現(xiàn)有知識的擴展和改進。3 機器學習的分類機器學習的分類 對機器學習的分類可以由下列幾方面進對機器學習的分類可
24、以由下列幾方面進行:行:學習策賂、知識表示和應用領域學習策賂、知識表示和應用領域。學習策略學習策略是學習中使用的推理方法。下是學習中使用的推理方法。下面將按學習策略分類,以便系統(tǒng)介紹不面將按學習策略分類,以便系統(tǒng)介紹不同的方法。同的方法。機器學習主要策略機械學習機械學習 (記憶學習)(記憶學習)傳授學習傳授學習演繹學習演繹學習歸納學習歸納學習類比學習類比學習3.1 3.1 機械學習機械學習 最基本的機器學最基本的機器學習 嬰兒的學習方式嬰兒的學習方式 VS VS 成人的思維方式成人的思維方式記憶記憶 機械學習是最簡單的機器學習方法。機械學習是最簡單的機器學習方法。機械學習就是記憶機械學習就是記
25、憶機械學習就是記憶機械學習就是記憶,即把新的知識存儲起來,供需要時檢索調(diào)用,而即把新的知識存儲起來,供需要時檢索調(diào)用,而不需要計不需要計不需要計不需要計算和推理算和推理算和推理算和推理。機械學習又是最基本的學習過程。任何學習系。機械學習又是最基本的學習過程。任何學習系統(tǒng)都必須記住它們獲取的知識。在機械學習系統(tǒng)中,知識統(tǒng)都必須記住它們獲取的知識。在機械學習系統(tǒng)中,知識的獲取是以較為穩(wěn)定和直接的方式進行的,不需要系統(tǒng)進的獲取是以較為穩(wěn)定和直接的方式進行的,不需要系統(tǒng)進行過多的加工。行過多的加工。計算和推理計算和推理數(shù)據(jù)化簡級別圖數(shù)據(jù)化簡級別圖 在機械學習中我們只記憶計算的輸入輸在機械學習中我們只記
26、憶計算的輸入輸出,忽略了計算過程,這樣就把計算問出,忽略了計算過程,這樣就把計算問題化簡成題化簡成存取問題存取問題 數(shù)據(jù)化數(shù)據(jù)化簡 Lenat,Hayes Roth,和,和Klahr等人于等人于1979年關于機械學習提出一種有趣的觀年關于機械學習提出一種有趣的觀點。他們指出,可以把機械學習看成是點。他們指出,可以把機械學習看成是數(shù)據(jù)化簡數(shù)據(jù)化簡分級中的第一級。分級中的第一級。數(shù)據(jù)化簡與計算機語言編譯類似;其目的是把數(shù)據(jù)化簡與計算機語言編譯類似;其目的是把原始信息變成可執(zhí)行的信息。原始信息變成可執(zhí)行的信息。主要問題主要問題對于機械學習,需要注意對于機械學習,需要注意3 3個重要的問題:個重要的問
27、題:存儲存儲存儲存儲組織,穩(wěn)定性和存儲與計算之間的權衡。組織,穩(wěn)定性和存儲與計算之間的權衡。組織,穩(wěn)定性和存儲與計算之間的權衡。組織,穩(wěn)定性和存儲與計算之間的權衡。(1 1)存儲組織信息:采用適當?shù)拇鎯Ψ绞剑梗┐鎯M織信息:采用適當?shù)拇鎯Ψ绞?,使檢索速度盡可能地快,是機械學習中的重要問題。檢索速度盡可能地快,是機械學習中的重要問題。(2 2)環(huán)境的穩(wěn)定性與存儲信息的適用性問題:)環(huán)境的穩(wěn)定性與存儲信息的適用性問題:機械學習系統(tǒng)必須保證所保存的信息適應于外界環(huán)機械學習系統(tǒng)必須保證所保存的信息適應于外界環(huán)境變化的需要,這也就是所謂的信息適用性問題。境變化的需要,這也就是所謂的信息適用性問題。(3
28、 3)存儲與計算之間的權衡:對于機械學習來)存儲與計算之間的權衡:對于機械學習來說很重要的一點是它不能降低系統(tǒng)的效率。說很重要的一點是它不能降低系統(tǒng)的效率。3.2 3.2 傳授學習傳授學習 (指點學習指點學習)l在傳授學習中,學習環(huán)節(jié)進行的變換只是對施教者提供在傳授學習中,學習環(huán)節(jié)進行的變換只是對施教者提供的信息進行選擇和改造,這主要是在語法層的變換。這時的信息進行選擇和改造,這主要是在語法層的變換。這時環(huán)境提供的信息過于抽象,它的水平高于執(zhí)行環(huán)節(jié)所用信環(huán)境提供的信息過于抽象,它的水平高于執(zhí)行環(huán)節(jié)所用信息的水平。息的水平。l學習環(huán)節(jié)把較高水平的知識變換為較低水平的知識。這學習環(huán)節(jié)把較高水平的知
29、識變換為較低水平的知識。這種變換稱為種變換稱為實用化實用化。l實用化主要有下列步驟:由傳授的信息推出結論,作出實用化主要有下列步驟:由傳授的信息推出結論,作出假設以補充一些細節(jié)和確定何時需要進一步傳授。假設以補充一些細節(jié)和確定何時需要進一步傳授。l實用化過程類似于編譯系統(tǒng)把高級語言程序變換成機器實用化過程類似于編譯系統(tǒng)把高級語言程序變換成機器碼程序。碼程序。l第一個例子是第一個例子是McCarthy(1958)的系統(tǒng)。的系統(tǒng)。3.3 3.3 演繹學習演繹學習在演繹學習中,學習系統(tǒng)由給定的知識在演繹學習中,學習系統(tǒng)由給定的知識進行演繹的保真推理,并存儲有用的結進行演繹的保真推理,并存儲有用的結論
30、。這種策略近幾年才作為一種獨立的論。這種策略近幾年才作為一種獨立的學習策賂。學習策賂。(Michalaki,1983)演繹學演繹學習包括知識改造、知識編譯、產(chǎn)生宏操習包括知識改造、知識編譯、產(chǎn)生宏操作、保持等價的操作和其它保真變換。作、保持等價的操作和其它保真變換。3.4 3.4 歸納學習歸納學習 歸納學習系統(tǒng)模型歸納學習系統(tǒng)模型 規(guī)劃過程通過對實例空間的搜索完成實例選擇,并將這些選中的活躍實例提交解釋過程。解釋過程對實例加以適當轉換,把活躍實例變換為規(guī)則空間中的特定概念,以引導規(guī)則空間的搜索。歸納學習的定義歸納學習的定義(1 1)歸納()歸納(inductioninduction)是人類拓展
31、認識能是人類拓展認識能力的重要方法,是一種力的重要方法,是一種從個別到一般從個別到一般從個別到一般從個別到一般的,從的,從部分部分部分部分到整體到整體到整體到整體的推理行為。的推理行為。(2 2)歸納推理是應用歸納方法,從足夠多的)歸納推理是應用歸納方法,從足夠多的具體事例中歸納出一般性知識,提取事物的一般具體事例中歸納出一般性知識,提取事物的一般規(guī)律;它是一種從個別到一般的推理。規(guī)律;它是一種從個別到一般的推理。(3 3)歸納學習()歸納學習(induction learninginduction learning)是應是應用歸納推理進行學習的一種方法。用歸納推理進行學習的一種方法。根據(jù)歸納
32、學習有無教師指導,可把它分為根據(jù)歸納學習有無教師指導,可把它分為示示(實實)例學習例學習和和觀察發(fā)現(xiàn)學習觀察發(fā)現(xiàn)學習。前者屬于有師學習,后。前者屬于有師學習,后者屬于無師學習。者屬于無師學習。示例學習示例學習示例學習(示例學習(learning from exampleslearning from examples)又稱為又稱為實例學習,它是通過環(huán)境中若干與某概念有關的例實例學習,它是通過環(huán)境中若干與某概念有關的例子,經(jīng)歸納得出一般性概念的一種學習方法。子,經(jīng)歸納得出一般性概念的一種學習方法。在這種學習方法中,外部環(huán)境提供的是一組例在這種學習方法中,外部環(huán)境提供的是一組例子(正例和反例),子(
33、正例和反例),示例學習就是要從這些特殊知識中歸納出適用示例學習就是要從這些特殊知識中歸納出適用于更大范圍的一般性知識,以覆蓋所有的正例并排于更大范圍的一般性知識,以覆蓋所有的正例并排除所有反例。除所有反例。觀察發(fā)現(xiàn)學習觀察發(fā)現(xiàn)學習觀察發(fā)現(xiàn)學習又稱為描述性概括,其目標是確觀察發(fā)現(xiàn)學習又稱為描述性概括,其目標是確定一個定律或理論的一般性描述,刻畫觀察集,指定一個定律或理論的一般性描述,刻畫觀察集,指定某類對象的性質。定某類對象的性質。觀察發(fā)現(xiàn)學習可分為觀察學習與機器發(fā)現(xiàn)兩種。觀察發(fā)現(xiàn)學習可分為觀察學習與機器發(fā)現(xiàn)兩種。前者用于對事例進行聚類,形成概念描述;前者用于對事例進行聚類,形成概念描述;后者用
34、于發(fā)現(xiàn)規(guī)律,產(chǎn)生定律或規(guī)則。后者用于發(fā)現(xiàn)規(guī)律,產(chǎn)生定律或規(guī)則。3.5 3.5 類比學習類比學習 類比學習是演繹學習與歸納學習的組合。它匹配不類比學習是演繹學習與歸納學習的組合。它匹配不同論域的描述,確定公共的子結構。以此作為類比同論域的描述,確定公共的子結構。以此作為類比映射的基礎。映射的基礎。尋找公共子結構是歸納推理尋找公共子結構是歸納推理,而,而實現(xiàn)實現(xiàn)類比映射是演繹推理類比映射是演繹推理。由提醒學習可以看作一種類。由提醒學習可以看作一種類比學習比學習(SchankSchank,1982)1982)。類比推理是由新情況與已知情況在某些方面的相似類比推理是由新情況與已知情況在某些方面的相似來
35、推出它們在其它相關方面的相似。顯然,類比推來推出它們在其它相關方面的相似。顯然,類比推理是在兩個相似域之間進行的:類比推理的目的是理是在兩個相似域之間進行的:類比推理的目的是從源域中選出與當前問題最近似的問題及其求解方從源域中選出與當前問題最近似的問題及其求解方法以求解決當前的問題,或者建立起目標域中已有法以求解決當前的問題,或者建立起目標域中已有命題間的聯(lián)系,形成新知識。命題間的聯(lián)系,形成新知識。推理過程如下推理過程如下(1)(1)回憶與聯(lián)想回憶與聯(lián)想遇到新情況或新問題時,首先通過回憶與聯(lián)想在遇到新情況或新問題時,首先通過回憶與聯(lián)想在S S中找出與當前情況中找出與當前情況相似的情況,這些情況
36、是過去已經(jīng)處理過的,有現(xiàn)成的解決方法及相關的相似的情況,這些情況是過去已經(jīng)處理過的,有現(xiàn)成的解決方法及相關的知識。知識。(2)(2)選擇選擇從找出的相似情況中選出與當前情況最相似的情況及其有關知識。從找出的相似情況中選出與當前情況最相似的情況及其有關知識。(3)(3)建立對應映射建立對應映射在在S S與與T T的相似情況之間建立相似元素的對應關系,并建立起相應的映的相似情況之間建立相似元素的對應關系,并建立起相應的映射。射。(4)(4)轉換轉換在上一步建立的映射下,把在上一步建立的映射下,把S S中的有關知識引到中的有關知識引到T T中來,從而建立起求中來,從而建立起求解當前問題的方法或者學習
37、到關于解當前問題的方法或者學習到關于T T的新知識。的新知識。當前研究的焦點是當前研究的焦點是歸納歸納和類比學和類比學習。習。如如果果我我們們想想做做出出重重要要的的貢貢獻獻,首首先先需需要要把把握握住住該該領域發(fā)展的脈搏領域發(fā)展的脈搏機器學習現(xiàn)在似乎已經(jīng)發(fā)展到一個新階段機器學習現(xiàn)在似乎已經(jīng)發(fā)展到一個新階段機機器器學學習習起起源源于于人人工工智智能能對對人人類類學學習習能能力力的的追追求求,上上一一階階段段的的研研究究幾幾乎乎完完全全局局限限在在人工智能這一領域中人工智能這一領域中(學習本身是目的)(學習本身是目的)而而現(xiàn)現(xiàn)在在,機機器器學學習習已已經(jīng)經(jīng)開開始始進進入入了了計計算算機機科科學學
38、的的不不同同領領域域,甚甚至至其其他他學學科科,成成為為一一種支持技術、服務技術種支持技術、服務技術(學習本身是手段)(學習本身是手段)機器學習角色的轉變機器學習角色的轉變機器學習角色的轉變(續(xù))現(xiàn)現(xiàn)階階段段對對機機器器學學習習的的研研究究可可能能不不應應再再過過多多地地強調(diào)模擬人的學習能力強調(diào)模擬人的學習能力可可能能應應該該把把機機器器學學習習真真正正當當成成一一種種支支持持技技術術(手手段段而而非非目目的的),考考慮慮不不同同領領域域甚甚至至不不同同學學科科對對機機器器學學習習的的需需求求,找找出出其其中中具具有有共共性的、必須解決的問題性的、必須解決的問題,并進而著手研究,并進而著手研究
39、 我我們們暫暫且且把把這這種種視視角角下下的的機機器器學學習習稱稱為為:“普適機器學習普適機器學習”(Pervasive ML)挑戰(zhàn)問題(1):泛化能力共性問題:共性問題:幾乎所有的領域,都希望越準越好幾乎所有的領域,都希望越準越好提高泛化能力是永遠的追求提高泛化能力是永遠的追求目前泛化能力最強的技術:目前泛化能力最強的技術:支持向量機(支持向量機(SVM)產(chǎn)生途徑:理論產(chǎn)生途徑:理論-實踐實踐集成學習(集成學習(ensemble learning)產(chǎn)生途徑:實踐產(chǎn)生途徑:實踐-理論理論挑戰(zhàn)問題挑戰(zhàn)問題挑戰(zhàn)問題(1):泛化能力(續(xù))第一個挑戰(zhàn)問題:第一個挑戰(zhàn)問題:今后今后10年年能否更能否更“
40、準準”?如果能,會從哪兒來?如果能,會從哪兒來?挑戰(zhàn)問題(2):速度共性問題:共性問題:幾乎所有的領域,都希望越快越好幾乎所有的領域,都希望越快越好加快速度也是永遠的追求加快速度也是永遠的追求“訓練速度訓練速度”vs.“測試速度測試速度”訓練速度快的往往測試速度慢:訓練速度快的往往測試速度慢:k近鄰近鄰 測試速度快的往往訓練速度慢:神經(jīng)網(wǎng)絡測試速度快的往往訓練速度慢:神經(jīng)網(wǎng)絡挑戰(zhàn)問題(2):速度(續(xù))第二個挑戰(zhàn)問題:第二個挑戰(zhàn)問題:今后今后10年年能否更能否更“快快”?能能做做到到“訓訓練練快快”、“測測試試也也快快”嗎嗎?如果能,如何做?如果能,如何做?挑戰(zhàn)問題(3):可理解性共性問題:共性
41、問題:絕大多數(shù)領域都希望有絕大多數(shù)領域都希望有“可理解性可理解性”例子:醫(yī)療診斷例子:醫(yī)療診斷 地震預測地震預測目前強大的技術幾乎都是(或基本上是)目前強大的技術幾乎都是(或基本上是)“黑盒子黑盒子”神經(jīng)網(wǎng)絡、支持向量機、集成學習神經(jīng)網(wǎng)絡、支持向量機、集成學習“黑盒子黑盒子”能滿足需要嗎?能滿足需要嗎?挑戰(zhàn)問題(3):可理解性(續(xù))第三個挑戰(zhàn)問題:第三個挑戰(zhàn)問題:今后今后10年年能否產(chǎn)生能否產(chǎn)生“白盒子白盒子”?是和是和“黑盒子黑盒子”完全不同的東西,完全不同的東西,還是從還是從“黑盒子黑盒子”變出來?變出來?挑戰(zhàn)問題(4):數(shù)據(jù)利用能力傳統(tǒng)的機器學習技術傳統(tǒng)的機器學習技術 對有標記數(shù)據(jù)進行學
42、習對有標記數(shù)據(jù)進行學習“標記標記”事件所對應的結果事件所對應的結果共性問題:共性問題:隨著數(shù)據(jù)收集能力飛速提高、隨著數(shù)據(jù)收集能力飛速提高、Internet的出現(xiàn),在大多數(shù)領域中都的出現(xiàn),在大多數(shù)領域中都可以很容易地獲得大量未標記數(shù)據(jù)可以很容易地獲得大量未標記數(shù)據(jù) 例子:醫(yī)學圖象分析例子:醫(yī)學圖象分析 垃圾郵件過濾垃圾郵件過濾沒有標記的數(shù)據(jù)是沒用的嗎?沒有標記的數(shù)據(jù)是沒用的嗎?挑戰(zhàn)問題(4):數(shù)據(jù)利用能力(續(xù))共性問題:共性問題:在絕大多數(shù)領域中都會遇到在絕大多數(shù)領域中都會遇到“壞壞”數(shù)據(jù),數(shù)據(jù),有時甚至只有有時甚至只有“壞壞”數(shù)據(jù)數(shù)據(jù) 例子:海軍艦隊例子:海軍艦隊 Web“壞壞”數(shù)據(jù)數(shù)據(jù) 大量
43、噪音、屬性缺失、不一致、大量噪音、屬性缺失、不一致、傳統(tǒng)的傳統(tǒng)的“壞壞”數(shù)據(jù)處理方式數(shù)據(jù)處理方式 “扔掉扔掉”“壞壞”數(shù)據(jù)一點用也沒有嗎?數(shù)據(jù)一點用也沒有嗎?第四個挑戰(zhàn)問題:第四個挑戰(zhàn)問題:今后今后10年年能否能否“數(shù)據(jù)通吃數(shù)據(jù)通吃”?如何如何“吃吃”?挑戰(zhàn)問題(4):數(shù)據(jù)利用能力(續(xù))挑戰(zhàn)問題(5):代價敏感目前的機器學習技術目前的機器學習技術 降低錯誤率降低錯誤率“錯誤錯誤”是沒有區(qū)別的嗎?是沒有區(qū)別的嗎?把把“好好”當成當成“壞壞”把把“壞壞”當成當成“好好”共性問題:共性問題:大多數(shù)領域中的錯誤代價都不一樣大多數(shù)領域中的錯誤代價都不一樣 例子:入侵檢測例子:入侵檢測 癌癥診斷癌癥診斷一樣嗎?第五個挑戰(zhàn)問題:第五個挑戰(zhàn)問題:今后今后10年年能否能否“趨利避害趨利避害”?在達到較低的總錯誤率的基礎上,在達到較低的總錯誤率的基礎上,如何如何“趨趨”、如何、如何“避避”?挑戰(zhàn)問題(5):代價敏感(續(xù))挑戰(zhàn)問題:More 在在任任何何一一個個挑挑戰(zhàn)戰(zhàn)問問題題上上取取得得突突破破性性進進展展,都都可可能能成成為為對機器學習的重要貢獻對機器學習的重要貢獻 謝謝!謝謝!
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。