科學(xué)數(shù)據(jù)挖掘應(yīng)用系統(tǒng)的研究與初步設(shè)計

上傳人:xue****ang 文檔編號:253251055 上傳時間:2024-12-10 格式:PPT 頁數(shù):36 大?。?17.50KB
收藏 版權(quán)申訴 舉報 下載
科學(xué)數(shù)據(jù)挖掘應(yīng)用系統(tǒng)的研究與初步設(shè)計_第1頁
第1頁 / 共36頁
科學(xué)數(shù)據(jù)挖掘應(yīng)用系統(tǒng)的研究與初步設(shè)計_第2頁
第2頁 / 共36頁
科學(xué)數(shù)據(jù)挖掘應(yīng)用系統(tǒng)的研究與初步設(shè)計_第3頁
第3頁 / 共36頁

下載文檔到電腦,查找使用更方便

9.9 積分

下載資源

還剩頁未讀,繼續(xù)閱讀

資源描述:

《科學(xué)數(shù)據(jù)挖掘應(yīng)用系統(tǒng)的研究與初步設(shè)計》由會員分享,可在線閱讀,更多相關(guān)《科學(xué)數(shù)據(jù)挖掘應(yīng)用系統(tǒng)的研究與初步設(shè)計(36頁珍藏版)》請在裝配圖網(wǎng)上搜索。

1、單擊此處編輯母版標(biāo)題樣式,,單擊此處編輯母版文本樣式,,第二級,,第三級,,第四級,,第五級,,,*,單擊此處編輯母版標(biāo)題樣式,,單擊此處編輯母版文本樣式,,第二級,,第三級,,第四級,,第五級,,,*,科學(xué)數(shù)據(jù)挖掘應(yīng)用系統(tǒng)的研究與初步設(shè)計,周園春,,,,2006年9月3日,,目 錄,,,背景,,數(shù)據(jù)挖掘系統(tǒng)的發(fā)展現(xiàn)狀,,科學(xué)數(shù)據(jù)挖掘應(yīng)用系統(tǒng),,科學(xué)數(shù)據(jù)庫,,中國科學(xué)院作為中國自然科學(xué)的研究中心,在長期的科學(xué)研究實踐中,通過觀測、考察、試驗、計算等多種途徑產(chǎn)生和積累了大量具有重要科學(xué)價值和實用意義的科學(xué)數(shù)據(jù)和資料,,科學(xué)數(shù)據(jù)的用途,,科研人員研究的成果和積累,,支持他們做更為復(fù)雜的創(chuàng)新研究不

2、可替代的資源,,科學(xué)數(shù)據(jù)庫,,始建于1983年,45個研究所,,,幾百個專業(yè)數(shù)據(jù)庫,幾十幾百TB的數(shù)據(jù)量,,數(shù)據(jù)庫的內(nèi)容覆蓋了化學(xué)、生物、天文、材料、高能物理、光學(xué)機械、自然資源、生態(tài)、遙感、大氣等數(shù)據(jù),,科學(xué)數(shù)據(jù)庫系統(tǒng)平臺,,各領(lǐng)域的專業(yè)人員可能還開發(fā)了各種不同的專業(yè)數(shù)據(jù)庫數(shù)學(xué)模型和專家系統(tǒng),形成了不同專業(yè)的專業(yè)咨詢系統(tǒng)、科研過程和生產(chǎn)過程模擬系統(tǒng),,缺點:獨立的、分散的,,學(xué)科的交叉融合、新型交叉學(xué)科的出現(xiàn)和跨學(xué)科領(lǐng)域的大型科學(xué)問題的研究:共享和集成,,運用先進信息技術(shù)來支撐科學(xué)數(shù)據(jù)庫的發(fā)展和應(yīng)用的軟硬件綜合平臺,,其總體目標(biāo)是:硬件上滿足科學(xué)數(shù)據(jù)庫的需求的存儲、計算、通信和服務(wù)能力;軟件

3、上實現(xiàn)對科學(xué)數(shù)據(jù)庫中大規(guī)模、分布式、異構(gòu)的海量數(shù)據(jù)進行整合,實現(xiàn)科學(xué)數(shù)據(jù)資源的共享,,存在的問題,,只是對數(shù)據(jù)的共享和協(xié)同,還沒有對數(shù)據(jù)進行深加工或者分析,,隨著科學(xué)數(shù)據(jù)庫中數(shù)據(jù)的不斷積累,數(shù)據(jù)的加工處理,從數(shù)據(jù)中獲取有用的知識,充分挖掘數(shù)據(jù)資源的價值,變得越來越重要,,數(shù)據(jù)量大而且復(fù)雜,完全人工去分析或者查看是不現(xiàn)實也是不可能的,,科學(xué)數(shù)據(jù)庫中開發(fā)數(shù)據(jù)挖掘應(yīng)用的問題,,首先,數(shù)據(jù)挖掘過程往往與數(shù)據(jù)挖掘模型、具體挖掘算法緊密關(guān)聯(lián),這就帶來了技術(shù)上和應(yīng)用推廣上的困難,,其次,數(shù)據(jù)挖掘與具體應(yīng)用結(jié)合,就會導(dǎo)致應(yīng)用范圍窄,靈活性差,增加數(shù)據(jù)挖掘應(yīng)用開發(fā)的難度,,能否建立一個,,科學(xué)數(shù)據(jù)挖掘應(yīng)用系統(tǒng)?

4、,,目 錄,,背景,,,數(shù)據(jù)挖掘系統(tǒng)的發(fā)展現(xiàn)狀,,科學(xué)數(shù)據(jù)挖掘應(yīng)用系統(tǒng),,什么是數(shù)據(jù)挖掘?,,數(shù)據(jù)挖掘是從數(shù)據(jù)集中識別出有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程,,,數(shù)據(jù)挖掘的過程,,,數(shù)據(jù)挖掘到數(shù)據(jù)挖掘系統(tǒng),,研究重點的轉(zhuǎn)移,,從發(fā)現(xiàn)方法到系統(tǒng)應(yīng)用,注重多種發(fā)現(xiàn)策略和技術(shù)的集成,以及多學(xué)科之間的相互滲透。,,理論和應(yīng)用的結(jié)合,,數(shù)據(jù)挖掘是面向應(yīng)用的多學(xué)科交叉領(lǐng)域,應(yīng)用推動了數(shù)據(jù)挖掘技術(shù)和理論的研究。而數(shù)據(jù)挖掘系統(tǒng)是數(shù)據(jù)挖掘研究和應(yīng)用的橋梁,對數(shù)據(jù)挖掘技術(shù)的推廣起到很大的作用,,數(shù)據(jù)挖掘系統(tǒng),,數(shù)據(jù)挖掘是一個交叉學(xué)科領(lǐng)域,受多個學(xué)科影響,包括數(shù)據(jù)庫系統(tǒng)、統(tǒng)計學(xué)、機器學(xué)習(xí)、

5、可視化和信息科學(xué) 。,,數(shù)據(jù)挖掘系統(tǒng),,如何將現(xiàn)有的算法集中在一個統(tǒng)一的框架下,并且與特定的領(lǐng)域相結(jié)合,構(gòu)造出能被各種層次的用戶所接受的數(shù)據(jù)挖掘應(yīng)用系統(tǒng),是數(shù)據(jù)挖掘系統(tǒng)研究需要迫切解決的問題之一,,分類:,,橫向的數(shù)據(jù)挖掘工具,,縱向的數(shù)據(jù)挖掘工具,,,橫向的數(shù)據(jù)挖掘工具,數(shù)據(jù)挖掘軟件需要和以下三個方面緊密結(jié)合,,數(shù)據(jù)庫和數(shù)據(jù)倉庫,,多種類型的數(shù)據(jù)挖掘算法,,數(shù)據(jù)清洗、轉(zhuǎn)換等預(yù)處理工作,,“工具集”的數(shù)據(jù)挖掘軟件(1995年),,對各個領(lǐng)域提供多種數(shù)據(jù)挖掘算法,,包括數(shù)據(jù)的轉(zhuǎn)換和可視化,,并非面向特定的應(yīng)用,是通用的算法集合,所以稱之為橫向的數(shù)據(jù)挖掘工具 。,,典型的系統(tǒng)有IBM的Intell

6、igent Miner、SAS Enterprise Miner、SPSS Clmentine、SGI的MineSet、Oracle Darwin等,,缺點,,只有精通數(shù)據(jù)挖掘算法的專家才能熟練使用,如果對算法不了解,難以得出好的模型,,縱向的數(shù)據(jù)挖掘工具,1999年開始就出現(xiàn)縱向的數(shù)據(jù)挖掘解決方案,即基于工具集,針對特定的應(yīng)用提供完整的數(shù)據(jù)挖掘方案,,典型應(yīng)用,,KDI(主要用于零售業(yè))、Options&Choice(主要用于保險業(yè))、HNC(欺詐行為偵測)和Unica Model(主要用于市場),,特點,,很強的針對性,能夠滿足特定的應(yīng)用需求,,用戶能專注于具體的應(yīng)用問題,對具體算法無須了

7、解。,,缺點,,應(yīng)用范圍是縱向的,過于狹窄,靈活性不夠。比如為某個銀行定制的信用卡數(shù)據(jù)挖掘方案可能不適合其他銀行。,,數(shù)據(jù)挖掘系統(tǒng),,縱向的還是橫向的數(shù)據(jù)挖據(jù)應(yīng)用系統(tǒng),都很少考慮到科學(xué)數(shù)據(jù)挖掘,大多都是應(yīng)用于商業(yè)、金融等領(lǐng)域,,目 錄,,背景,,數(shù)據(jù)挖掘系統(tǒng)的發(fā)展現(xiàn)狀,,,科學(xué)數(shù)據(jù)挖掘應(yīng)用系統(tǒng),,科學(xué)數(shù)據(jù)挖掘應(yīng)用系統(tǒng)的目標(biāo),,希望在“十五”的基礎(chǔ)上形成的大規(guī)模的科學(xué)數(shù)據(jù)資源上,結(jié)合現(xiàn)有的元數(shù)據(jù)定義的規(guī)范,為各個建庫單位提供統(tǒng)一的、良好可擴展性和靈活性的科學(xué)數(shù)據(jù)挖掘平臺,,各建庫單位根據(jù)自身數(shù)據(jù)的特征來定制領(lǐng)域模型,平臺根據(jù)這些業(yè)務(wù)模型來實現(xiàn)對科學(xué)數(shù)據(jù)進行分析和挖掘,最后以可視化的形式把結(jié)果呈

8、現(xiàn)給科研人員和科研管理人員,使得科研人員能夠從數(shù)據(jù)的背后進行更加深入科研的活動,同時也為科研管理人員提供決策的資料來源,,科學(xué)數(shù)據(jù)挖掘應(yīng)用系統(tǒng)的目標(biāo),,使科學(xué)家可以從桌面電腦上訪問大量的數(shù)據(jù)和計算資源,,符合e-Science的首要的挑戰(zhàn),,從數(shù)據(jù)的“雪崩”中有效地抽取、集成、探測、分析和表達知識使得科學(xué)家能夠利用數(shù)據(jù)的潛能,,引發(fā)的不同領(lǐng)域的需求,,數(shù)據(jù)資源集成到一起的計算基礎(chǔ)設(shè)施——軟件工程師,,數(shù)據(jù)挖掘算法——計算機科學(xué)家,,定義元數(shù)據(jù)標(biāo)準(zhǔn)和提出挖掘的目標(biāo) ——各個領(lǐng)域的專家,,科學(xué)數(shù)據(jù)挖掘系統(tǒng)的設(shè)計目標(biāo),,從多種數(shù)據(jù)存貯資源中抽取數(shù)據(jù),以及跨數(shù)據(jù)源的集成功能;,,管理和維護數(shù)據(jù)庫和數(shù)據(jù)

9、倉庫,包括數(shù)據(jù)存儲的優(yōu)化及數(shù)據(jù)的增量維護;,,支持多種數(shù)據(jù)訪問接口,包括ODBC、JDBC、OLE DB、Web Service等;,,集成多種數(shù)據(jù)挖掘算法,通過靈活的科學(xué)數(shù)據(jù)挖掘網(wǎng)格服務(wù)的方式,提供處理各種數(shù)據(jù)挖掘任務(wù)的功能;并提供開放的接口,提供擴展用戶自定義算法的功能。,,提供多種可視化方法顯示各種數(shù)據(jù)和數(shù)據(jù)挖掘結(jié)果的功能。,,科學(xué)數(shù)據(jù)挖掘系統(tǒng)的體系結(jié)構(gòu),,,各層主要功能,,數(shù)據(jù)選擇層,,數(shù)據(jù)選擇層的功能是把預(yù)處理后的數(shù)據(jù)表示成多維模型的形式,,簡單的查詢,比如SQL語言的條件選擇或分組操作;基于聯(lián)機分析處理的數(shù)據(jù)立方體模型;無監(jiān)督的數(shù)據(jù)分割技術(shù),比如聚類,,數(shù)據(jù)挖掘?qū)樱?,從數(shù)據(jù)選擇層

10、獲取數(shù)據(jù),執(zhí)行數(shù)據(jù)挖掘任務(wù),產(chǎn)生數(shù)據(jù)挖掘模型。,,算法參數(shù)和算法執(zhí)行,,數(shù)據(jù)和模式表示層,,多維數(shù)據(jù)的可視化、多維數(shù)據(jù)挖掘任務(wù)的可視化、模式可視化、模式比較和趨勢分析可視化。,,科學(xué)數(shù)據(jù)挖掘應(yīng)用系統(tǒng)的系統(tǒng)框架,,,科學(xué)數(shù)據(jù)挖掘系統(tǒng)的具體流程,,1)利用通用數(shù)據(jù)預(yù)處理工具對需要挖掘的數(shù)據(jù)進行預(yù)處理;,,2)基于系統(tǒng)領(lǐng)域模型,進行簡單定制或進一步開發(fā),完成領(lǐng)域模型的定制;,,3)執(zhí)行數(shù)據(jù)挖掘,并將挖掘結(jié)果進行可視化顯示;,,4)評價挖掘結(jié)果,如果有必要,可重復(fù)2)、3)步,重新定制領(lǐng)域模型參數(shù),進行再次挖掘。,,科學(xué)數(shù)據(jù)的預(yù)處理,,科學(xué)數(shù)據(jù)的預(yù)處理就是按照科學(xué)數(shù)據(jù)的規(guī)律把各種形式的科學(xué)數(shù)據(jù)(關(guān)系數(shù)

11、據(jù)庫/XML/空間格式數(shù)據(jù)等)經(jīng)過一定的處理轉(zhuǎn)化成數(shù)據(jù)挖掘的標(biāo)準(zhǔn)化形式,,科學(xué)數(shù)據(jù)的預(yù)處理,,,異常數(shù)據(jù),,空缺數(shù)據(jù),,冗余或者重復(fù)數(shù)據(jù),,格式標(biāo)準(zhǔn)化,,數(shù)據(jù)歸約/壓縮,,……,,,領(lǐng)域模型庫,,各建庫單位都有一些各自典型的數(shù)學(xué)模型或者業(yè)務(wù)邏輯,把這些數(shù)學(xué)模型或者業(yè)務(wù)邏輯綜合起來組成一個領(lǐng)域模型庫,作為科研人員定制領(lǐng)域模型的來源,它是一個開放的庫,隨時可以補充新領(lǐng)域模型,,需要各個領(lǐng)域的專家參與,,,數(shù)據(jù)挖掘算法庫,,科學(xué)數(shù)據(jù)挖掘應(yīng)用系統(tǒng)的核心,,主要包含一些具體的數(shù)據(jù)挖掘算法,如關(guān)聯(lián)規(guī)則、序列模式發(fā)現(xiàn)、決策樹、聚類、神經(jīng)元網(wǎng)絡(luò)、異常檢測等,而且還可以增加開發(fā)人員針對不同應(yīng)用改進的一些挖掘算法

12、,,目的是供領(lǐng)域模型所調(diào)用,,數(shù)據(jù)挖掘算法庫,,,數(shù)據(jù)挖掘模塊,,該模塊主要包括挖掘算法的選擇和具體的數(shù)據(jù)挖掘過程,,挖掘算法的選擇:現(xiàn)有很多數(shù)據(jù)挖掘系統(tǒng)都是需要用戶自己選擇挖掘算法,在該系統(tǒng)中,挖掘算法的選擇是根據(jù)科研人員選擇的領(lǐng)域模型和預(yù)處理后的數(shù)據(jù)來自動選擇挖掘算法,,數(shù)據(jù)挖掘:利用選擇好的算法對預(yù)處理后的科學(xué)數(shù)據(jù)進行分析和挖掘,并產(chǎn)生結(jié)果信息,,科學(xué)數(shù)據(jù)挖掘信息的可視化,,科學(xué)數(shù)據(jù)挖掘信息的可視化技術(shù)拓寬了傳統(tǒng)的圖表功能,使用戶對數(shù)據(jù)的剖析更清楚。例如把數(shù)據(jù)庫中多維的數(shù)據(jù)變成多種圖形,這對于揭示數(shù)據(jù)中的狀況,內(nèi)在本質(zhì)以及規(guī)律性起到很強的作用,,目的是讓用戶能夠交互瀏覽數(shù)據(jù)、挖掘過程等,

13、,數(shù)據(jù)挖掘結(jié)果的可視化,將數(shù)據(jù)挖掘后得到的知識和結(jié)果用可視化的形式表示出來,比如二維的(圓、表格、樹等)或者三維的(立方體等),,數(shù)據(jù)挖掘過程的可視化,用可視化的形式描述挖掘過程,從中用戶可以看出數(shù)據(jù)從哪個數(shù)據(jù)倉庫或數(shù)據(jù)庫中抽取出來,怎樣抽取以及怎樣預(yù)處理,怎樣挖掘等,,科學(xué)數(shù)據(jù)挖掘系統(tǒng)的具體應(yīng)用,,它是科學(xué)數(shù)據(jù)挖掘系統(tǒng)應(yīng)用的具體實施層,它根據(jù)挖掘后的信息和各個建庫單位提供的相關(guān)背景知識,能夠?qū)ο乱徊降目蒲谢顒雍蜎Q策咨詢提供一些參考性的建議。比如說根據(jù)對黃河流水的水土流失數(shù)據(jù)的挖掘,能夠為這一地區(qū)的植樹的密度提供一些數(shù)據(jù)上的參考等,,科學(xué)數(shù)據(jù)挖掘系統(tǒng)的具體應(yīng)用,,“黃河流域水文泥沙數(shù)據(jù)庫”和“

14、黃土高原地區(qū)數(shù)據(jù)庫”,,黃河流域水文泥沙數(shù)據(jù)庫數(shù)據(jù)庫介紹,,來源:黃河流域水文泥沙監(jiān)測站,,數(shù)據(jù)的時間范圍:50年代初~80年代末,,數(shù)據(jù)的空間范圍:黃河流域的主要水文觀測站,,數(shù)據(jù)項目:逐日流量(133個站的資料)、逐日泥沙含量(128個站的資料)、逐日降雨量(177個站的資料)、逐日蒸發(fā)量(70個站的資料)、逐月河流懸移質(zhì)顆粒級配(70個站的資料)。,,科學(xué)數(shù)據(jù)挖掘系統(tǒng)的具體應(yīng)用,,,黃土高原地區(qū)數(shù)據(jù)庫介紹,,來源:國家氣象局,,時間范圍:1950年~2000年,,數(shù)據(jù)的空間范圍:黃土高原地區(qū)/黃河流域9個省市自治區(qū)以縣氣象站為單元的氣候數(shù)據(jù),,數(shù)據(jù)項目:氣壓、氣溫(平均、最高、最低)、相

15、對濕度、風(fēng)速、降水量、蒸發(fā)量、日照時數(shù)、0厘米地溫和輻射(總、凈、直)的日值資料以及分層地溫的月值資料。,,科學(xué)數(shù)據(jù)挖掘系統(tǒng)的具體應(yīng)用,,,統(tǒng)計功能,,關(guān)于時間的統(tǒng)計,,計算某一時間,不同觀測站觀測值的算術(shù)平均值、最大值、最小值,,計算一個時間段內(nèi),不同觀測站觀測值的算術(shù)平均值、最大值、最小值,,關(guān)于地點的統(tǒng)計,,按照流域界限劃分,既計算某流域界限之內(nèi)各觀測站觀測值的算術(shù)平均值、最大值、最小值,,按照行政界限劃分,既計算某行政界限之內(nèi)各觀測站觀測值的算術(shù)平均值、最大值、最小值,,按照生態(tài)類型區(qū)界限劃分,既計算某生態(tài)類型區(qū)界限之內(nèi)各觀測站觀測值的算術(shù)平均值、最大值、最小值,,科學(xué)數(shù)據(jù)挖掘系統(tǒng)的具體應(yīng)用,,數(shù)據(jù)挖掘功能,,利用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)算法發(fā)現(xiàn)屬性之間的關(guān)系,例如黃土高原地區(qū)氣候數(shù)據(jù)庫中各種氣候?qū)傩灾g的關(guān)系,,利用聚類算法在黃河流域水文泥沙數(shù)據(jù)庫中發(fā)現(xiàn)水文特征相似的觀測站的集合,在黃土高原地區(qū)氣候數(shù)據(jù)庫中發(fā)現(xiàn)氣候特征相似的觀測站的集合,,利用序列模式發(fā)現(xiàn)算法發(fā)現(xiàn)屬性值的變化規(guī)律,,利用預(yù)測算法預(yù)測水文特征和氣候特征演變的規(guī)律和發(fā)展的趨勢,,黃河流域的水土流失的防治(需要相關(guān)的背景知識),,水文參數(shù)和氣候特征的分析預(yù)測,,謝謝!,請?zhí)岢鰧氋F的建議和意見,,

展開閱讀全文
溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

相關(guān)資源

更多
正為您匹配相似的精品文檔
關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  sobing.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號:ICP2024067431-1 川公網(wǎng)安備51140202000466號


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺,本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請立即通知裝配圖網(wǎng),我們立即給予刪除!