數(shù)據(jù)挖掘原理與算法課件



《數(shù)據(jù)挖掘原理與算法課件》由會員分享,可在線閱讀,更多相關《數(shù)據(jù)挖掘原理與算法課件(54頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、,Click to edit Master,Click to edit Master text styles Click to edit Master Click to edit Master,Second level,Third level,Fourth level,Fifth level,*,*,第八章 空間挖掘,,,,,內(nèi)容提要,引言,,空間數(shù)據(jù)概要,空間數(shù)據(jù)挖掘基礎,空間統(tǒng)計學,泛化與特化,空間規(guī)則,空間分類算法,空間聚類算法,空間挖掘的其他問題,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹,空間數(shù)據(jù)挖掘的研究現(xiàn)狀與發(fā)展方向,其他,2024/12/13,1,第八章 空間挖掘,空間挖掘技術概述,大量的空
2、間數(shù)據(jù)是從遙感、地理信息系統(tǒng)(,GIS,)、多媒體系統(tǒng)、醫(yī)學和衛(wèi)星圖像等多種應用中收集而來,收集到的數(shù)據(jù)遠遠超過了人腦分析的能力。日益發(fā)展的空間數(shù)據(jù)基礎設施為空間數(shù)據(jù)的自動化處理提出了新的課題。,空間數(shù)據(jù)的最常用的數(shù)據(jù)組織形式是空間數(shù)據(jù)庫??臻g數(shù)據(jù)庫必須保存空間實體,這些空間實體是用空間數(shù)據(jù)類型和實體的空間關系來表示出來的??臻g數(shù)據(jù)庫,不同于關系數(shù)據(jù)庫,它一般具有空間拓撲或距離信息,通常需要以復雜的多維空間索引結構組織。,空間挖掘(,Spatial Mining,)或被稱作空間數(shù)據(jù)挖掘,/,空間數(shù)據(jù)庫的知識發(fā)現(xiàn),是數(shù)據(jù)挖掘技術在空間數(shù)據(jù)方面的應用。簡言之,空間數(shù)據(jù)挖掘,就是從空間數(shù)據(jù)庫中抽取隱
3、含的知識、空間關系或非顯式地存儲在空間數(shù)據(jù)庫中的其他模式,用于理解空間數(shù)據(jù)、發(fā)現(xiàn)數(shù)據(jù)間(空間或非空間)的關系。,由于空間數(shù)據(jù)的復雜性及其應用的專業(yè)性,在一般的數(shù)據(jù)挖掘的基本概念的基礎上,需要研究空間數(shù)據(jù)挖掘特有的理論、方法和應用。,2024/12/13,2,空間挖掘技術概述 大量的空間數(shù)據(jù)是從遙感、地理信息系統(tǒng)(GI,第八章 空間挖掘,,,,,內(nèi)容提要,引言,空間數(shù)據(jù)概要,空間數(shù)據(jù)挖掘基礎,空間統(tǒng)計學,泛化與特化,空間規(guī)則,空間分類算法,空間聚類算法,空間挖掘的其他問題,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹,空間數(shù)據(jù)挖掘的研究現(xiàn)狀與發(fā)展方向,其他,2024/12/13,3,第八章 空間挖掘,空間數(shù)據(jù)的
4、主要特點,空間數(shù)據(jù)是指與二維、三維或更高維空間的空間坐標及空間范圍相關的數(shù)據(jù),例如地圖上的經(jīng)緯度、湖泊、城市等。,訪問空間數(shù)據(jù)要比訪問非空間數(shù)據(jù)更復雜。對空間數(shù)據(jù)的訪問要使用專門的操作和數(shù)據(jù)結構??臻g數(shù)據(jù)可以用包含著諸如“接近、南、北、包含于”等空間操作符的查詢來訪問。,空間數(shù)據(jù)存放在記錄著實體的空間性數(shù)據(jù)和非空間性數(shù)據(jù)的空間數(shù)據(jù)庫里。由于空間數(shù)據(jù)關聯(lián)著距離信息,所以空間數(shù)據(jù)庫通常用使用距離或拓撲信息的空間數(shù)據(jù)結構或者索引來存儲。就數(shù)據(jù)挖掘而論,這些距離信息提供了所需的相似性度量的基礎。,2024/12/13,4,空間數(shù)據(jù)的主要特點空間數(shù)據(jù)是指與二維、三維或更高維空間的空間,空間數(shù)據(jù)的復雜性特
5、征,空間數(shù)據(jù)的復雜性特征主要表現(xiàn)在以下幾個方面:,空間屬性之間的非線性關系:,空間屬性之間的非線性關系是空間系統(tǒng)復雜性的重要標志,被作為空間數(shù)據(jù)挖掘的主要任務之一。,空間數(shù)據(jù)的多尺度特征:,空間數(shù)據(jù)的多尺度性是指空間數(shù)據(jù)在不同觀察層次上所遵循的規(guī)律以及體現(xiàn)出的特征不盡相同。多尺度特征是空間數(shù)據(jù)復雜性的又一表現(xiàn)形式。,空間信息的模糊性:,模糊性幾乎存在于各種類型的空間信息中,如空間位置的模糊性、空間相關性的模糊性以及模糊的屬性值等等。,空間維數(shù)的增高:,空間數(shù)據(jù)的屬性增加極為迅速,如在遙感領域,由于傳感器技術的飛速發(fā)展,波段的數(shù)目也由幾個增加到幾十甚至上百個,如何從幾十甚至幾百維空間中提取信息、
6、發(fā)現(xiàn)知識則成為研究中的又一難題。,空間數(shù)據(jù)的缺值:,數(shù)據(jù)的缺值現(xiàn)象源自由于某種不可抗拒的外力而使數(shù)據(jù)無法獲得或發(fā)生丟失。如何對丟失數(shù)據(jù)進行恢復并估計數(shù)據(jù)的固有分布參數(shù),成為解決數(shù)據(jù)復雜性的難點。,,2024/12/13,5,空間數(shù)據(jù)的復雜性特征空間數(shù)據(jù)的復雜性特征主要表現(xiàn)在以下幾個方,空間查詢問題,查詢是挖掘的技術,空間查詢及其操作的主要特點有:,空間操作相對復雜和不精確:,傳統(tǒng)的訪問非空間數(shù)據(jù)的選擇查詢使用的是標準的比較操作符:,>,,,<,,≤,≥,≠。而空間選擇是一種在空間數(shù)據(jù)上的選擇查詢,要用到空間操作符,包括接近、東、西、南、北、包含、重疊或相交等。下面是幾個空間選擇查詢的例子:,例
7、如,“查找北海公園,附近,的房子”。,空間連接(,Spatial Join,)問題:,在兩個空間關系上的一個空間性連接操作被稱為空間連接(,Spatial Join,)。在空間連接中,關系都是空間性的,需要與空間連接對應的條件描述。,例如, “相交”關系用于多邊形;“相鄰”關系用于點。,相同的地理區(qū)域經(jīng)常有不同的視圖:,一個區(qū)域不同的視圖(如基礎設施、城市規(guī)劃、綠化等)保存在單獨的,GIS,文件中,融合這些數(shù)據(jù),通常需要一個稱為“地圖覆蓋”(,Map Overlay,)的操作來實現(xiàn)。,,一個空間實體可用空間和非空間的屬性來描述。當其空間屬性用一些空間數(shù)據(jù)結構存儲起來之后,非空間屬性就可以存儲在
8、一個關系數(shù)據(jù)庫里。對空間數(shù)據(jù)庫來說,不同的空間實體經(jīng)常是和不同的位置相關聯(lián)的,而且在不同的實體之間進行空間性操作的時候,經(jīng)常需要在屬性之間進行一些轉(zhuǎn)換。,2024/12/13,6,空間查詢問題查詢是挖掘的技術,空間查詢及其操作的主要特點有:,空間數(shù)據(jù)結構,由于空間數(shù)據(jù)的獨特性質(zhì),有很多數(shù)據(jù)結構專門被設計用來存儲或索引空間數(shù)據(jù)。這些結構有的考慮的是空間實體的輪廓表示,有的是空間數(shù)據(jù)的索引方法。,空間實體表示的最常用方法是“最小包圍矩形”。,空間索引技術大多是基于對空間目標的近似技術,例如,,空間映射法,(,1,)采用低維空間向高維空間映射的方式:,k維空間具有n個頂點的目標可以映射成n*k維空間
9、的點。映射后,可以直接采用點索引技術。,(,2,)直接向一維空間映射:,通常數(shù)據(jù)空間被劃分成大小相同的網(wǎng)格單元,通過給這些網(wǎng)格單元編碼形成一維目標,用傳統(tǒng)的一維的索引結構(如B,+,樹等)索引。,分割方法,(,1,)采用不允許空間重疊的索引方法:,將所在的數(shù)據(jù)空間按某種方法(如二叉樹劃分、四叉樹劃分、格網(wǎng)劃分等)劃分成彼此不相交的子空間。,(,2,)采用允許空間重疊的索引法:,將索引空間劃分為多級的子空間,這些子空間允許重疊,但是一個空間實體完全包含在某一子空間中。,2024/12/13,7,空間數(shù)據(jù)結構由于空間數(shù)據(jù)的獨特性質(zhì),有很多數(shù)據(jù)結構專門被設計,最小包圍矩形,通過完整包含一個空間實體的
10、最小包圍矩形(,MBR,:,Minimum Bounding Rectangle,)來表示該空間實體。例如,下圖顯示一湖泊的,MBR,:,,,,,,,如果用傳統(tǒng)坐標系統(tǒng)來對這個湖定向,水平軸表示東西方向,垂直軸表示南北方向,那么就可以把這個湖放在一個矩形里(中間圖所示),還可以通過一系列更小的矩形來表現(xiàn)這個湖(右圖所示),另一種更簡單的方法是用一對不相鄰的頂點坐標來表示一個,MBR,,如用,{(x1,,,y1),,,(x2,,,y2)},來表示(中間圖所示)。,2024/12/13,8,最小包圍矩形通過完整包含一個空間實體的最小包圍矩形(MBR:,空間索引技術,空間索引是指依據(jù)空間實體的位置和
11、形狀或空間實體之間的某種空間關系,按一定順序排列的一種數(shù)據(jù)結構,其中包含空間實體的概要信息。,空間索引的性能優(yōu)劣直接影響空間數(shù)據(jù)庫和地理信息系統(tǒng)的整體性能,也對空間數(shù)據(jù)挖掘的效率有影響。,幾種比較有代表性的空間數(shù)據(jù)索引結構技術:,網(wǎng)格文件,四叉樹,R-,樹,k-D,樹,2024/12/13,9,空間索引技術空間索引是指依據(jù)空間實體的位置和形狀或空間實體之,網(wǎng)格文件,根據(jù)正交的網(wǎng)格劃分k維的數(shù)據(jù)空間。k維數(shù)據(jù)空間的網(wǎng)格由k個一維數(shù)組表示,這些數(shù)組稱為刻度,將其保存在主存??潭鹊拿恳贿吔鐦嫵桑?-1,維的超平面。整個數(shù)據(jù)空間被所有的邊界劃分成許多k維的矩形子空間,這些矩形子空間稱為網(wǎng)格目錄,用k維
12、的數(shù)組表示,將其保存在硬盤上。網(wǎng)格目錄的每一網(wǎng)格單元包含一外存頁的地址,這一外存頁存儲了該網(wǎng)格單元內(nèi)的數(shù)據(jù)目標,稱為數(shù)據(jù)頁。一數(shù)據(jù)頁允許存儲多個相鄰網(wǎng)格單元的目標。網(wǎng)格文件的查找簡單,查找效率較高,適用于點目標的索引。,,,,,,2024/12/13,10,網(wǎng)格文件根據(jù)正交的網(wǎng)格劃分k維的數(shù)據(jù)空間。k維數(shù)據(jù)空間的網(wǎng)格,四叉樹,四叉樹通過把空間按等級分解成為區(qū)域(單元)來表示空間實體。四叉樹實際上每一節(jié)點有,4,個子樹,用于對空間點的表示與索引。,如二維空間的四叉樹,每個子節(jié)點對應一個矩形,用四種方位西北(NW),東北(NE),西南(SW),東南(SE)表示,空間區(qū)域被分為,n,層,四叉樹中的每
13、級對應一個層次級別,層的數(shù)量,n,是依賴于所需要的精確度的。例如,,,,,2024/12/13,11,四叉樹四叉樹通過把空間按等級分解成為區(qū)域(單元)來表示空間實,R-樹,R,-,樹是B,-,樹在多維空間的擴展,其葉子節(jié)點包含多個形式為(,OI,,,MBR,)的實體,,OI,為空間目標標志,,MBR,為該目標在k維空間中的最小包圍矩形。,非葉子節(jié)點包含多個形式為(,CP,,,MBR,)的實體。,CP,為指向子樹根節(jié)點的指針,,MBR,為包圍其子節(jié)點中所有,MBR,的最小包圍矩形。,R,-,樹必須滿足如下特性:,若根節(jié)點不是葉子節(jié)點,則至少有兩棵子樹;,除根之外的所有中間節(jié)點至多有M棵子樹,至少
14、有m棵子樹;,每個葉子節(jié)點均包含m至M個數(shù)據(jù)項;,所有的葉子節(jié)點都出現(xiàn)在同一層次;,所有節(jié)點都需要同樣的存儲空間(一個磁盤頁)。,,,2024/12/13,12,R-樹R-樹是B-樹在多維空間的擴展2023/9/2012,k-D樹,k-D,樹被設計用來對多屬性的數(shù)據(jù)進行索引,而不是必要的空間數(shù)據(jù)。,k-D,樹是二叉樹的一個變種,樹中的每一層用來索引一個屬性。樹中的每個結點表示這個空間基于一個分割點被分割成兩個子集。,和,R-,樹一樣,每個最低級別的區(qū)間只有一個實體。但是,分割不是用,MBR,來進行的。它首先按照一個維分割,然后按照另一個維分割,直到每個區(qū)間只有一個實體。,2024/12/13,
15、13,k-D樹k-D樹被設計用來對多屬性的數(shù)據(jù)進行索引,而不是必要,第八章 空間挖掘,,,,,內(nèi)容提要,引言,空間數(shù)據(jù)概要,空間數(shù)據(jù)挖掘基礎,空間統(tǒng)計學,泛化與特化,空間規(guī)則,空間分類算法,空間聚類算法,空間挖掘的其他問題,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹,空間數(shù)據(jù)挖掘的研究現(xiàn)狀與發(fā)展方向,其他,2024/12/13,14,第八章 空間挖掘,空間數(shù)據(jù)庫的操作是數(shù)據(jù)挖掘的基礎,假定,A,和,B,是二維空間中的兩個空間實體。每個實體由空間中的點的集合組成:,
16、nt,) :,A,與,B,分離,表示,B,中任何點都不在,A,中,反之亦然。,重疊,/,相交:,A,與,B,重疊或相交表示至少有一個點既在,A,里也在,B,里。,等價:,A,與,B,這兩個實體的所有點都是共有的。,包含于:,A,包含于,B,,表示,A,的所有點都在,B,里。反之不一定。,覆蓋,/,包含:,A,覆蓋或包含,B,,當且僅當,B,包含于,A,。,根據(jù)實體在空間中的位置,可以定義方向,通常采用的是傳統(tǒng)的地圖方向:像東、南、西、北等等。,空間謂詞有三種形式:,表示拓撲關系的謂詞,如相交、覆蓋等;,表示空間方向的謂詞,如東、西、左、右等;,表示距離的謂詞,如接近、遠離等。,2024/12/
17、13,15,空間數(shù)據(jù)庫的操作是數(shù)據(jù)挖掘的基礎假定A 和B是二維空間中的兩,實體之間的距離的定義,常用的兩個空間實體之間的距離有:,最小值方法:,定義實體,A,和,B,的距離為,A,中的所有點與和,B,中的所有點之間的歐氏或曼哈頓距離中最小的,即,,最大值方法:,定義實體,A,和,B,的距離為,A,中的所有點與和,B,中的所有點之間的歐氏或曼哈頓距離中最大的,即,,平均值方法:,定義實體,A,和,B,的距離為,A,中的所有點與和,B,中的所有點之間的歐氏或曼哈頓距離的平均值,即,,中心方法:,定義實體,A,和,B,的距離為,A,中的中心點與和,B,中的中心點之間的歐氏或曼哈頓距離的平均值,即,,
18、,,,,,2024/12/13,16,實體之間的距離的定義常用的兩個空間實體之間的距離有:2023,空間統(tǒng)計學,空間統(tǒng)計學(,Spatial Statistics,)是依靠有序的模型來描述無序事件,根據(jù)不確定性和有限的信息來分析、評價和預測空間數(shù)據(jù)。,基于足夠多的樣本,在統(tǒng)計空間實體的幾何特征量的最小值、最大值、均值、方差、眾數(shù)或直方圖的基礎上,可以得到空間實體特征的先驗概率,進而根據(jù)領域知識發(fā)現(xiàn)共性的幾何知識。,空間統(tǒng)計學具有較強的理論基礎和大量的成熟算法??臻g統(tǒng)計學是基本的數(shù)據(jù)挖掘技術,特別是多元統(tǒng)計分析(如判別分析、主成分分析、因子分析、相關分析、多元回歸分析等)。,統(tǒng)計方法是分析空間數(shù)
19、據(jù)的最常用的方法。統(tǒng)計方法能夠有效處理數(shù)值型數(shù)據(jù),其主要方法是基于統(tǒng)計不相關假設的。在空間數(shù)據(jù)庫中許多空間數(shù)據(jù)通常是相關的,即空間對象受其鄰近對象的影響,難以滿足這種假設,這樣就會引起問題。它是空間統(tǒng)計學向著實用的挖掘技術發(fā)展的一個重要研究課題。,統(tǒng)計方法對非線性規(guī)劃不能很好建模,難以處理不完全或不確定性數(shù)據(jù),而且運算的代價較高。它是空間統(tǒng)計學向著實用的挖掘技術發(fā)展的另一個研究課題。,2024/12/13,17,空間統(tǒng)計學空間統(tǒng)計學(Spatial Statistics),第八章 空間挖掘,,,,,內(nèi)容提要,引言,空間數(shù)據(jù)概要,空間數(shù)據(jù)挖掘基礎,空間統(tǒng)計學,泛化與特化,空間規(guī)則,空間分類算法
20、,空間聚類算法,空間挖掘的其他問題,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹,空間數(shù)據(jù)挖掘的研究現(xiàn)狀與發(fā)展方向,其他,2024/12/13,18,第八章 空間挖掘,空間數(shù)據(jù)的蘊含著豐富的概念,眾所周知,概念層次的使用顯示了數(shù)據(jù)間關系的層次。應用空間數(shù)據(jù)特性,概念層次承認了層級中不同層次規(guī)則和關系的發(fā)展。,從空間數(shù)據(jù)中挖掘所蘊含的概念是空間挖掘的重要任務之一。,泛化與特化是概念歸納的主要手段,它對空間數(shù)據(jù)挖掘也是如此。,2024/12/13,19,空間數(shù)據(jù)的蘊含著豐富的概念眾所周知,概念層次的使用顯示了數(shù)據(jù),逐步求精的分層技術,逐步求精(,Progressive Refinement,)的分層是基于空間關系的
21、,因此空間關系可以應用在一個更粗糙或者更精細的層次上。,由于空間應用的數(shù)據(jù)量十分龐大,在尋求更多精確響應之前要先做出一些近似響應。,MBR,就是一個近似物體形狀的辦法。四叉樹、,R-,樹和其他大多數(shù)空間索引技術都采用了一種逐步求精的方式。,逐步求精可以看作是對處理問題無用的數(shù)據(jù)所做的過濾。,2024/12/13,20,逐步求精的分層技術逐步求精(Progressive Refi,泛化,數(shù)據(jù)庫中的數(shù)據(jù)和對象在原始的概念層次包含有詳細的信息,經(jīng)常需要將大量數(shù)據(jù)的集合進行概括并以較高的概念層次展示,即對數(shù)據(jù)進行泛化。,基于泛化的數(shù)據(jù)挖掘方法假定背景知識以概念層次的形式存在。概念層次可由專家提供,或借
22、助數(shù)據(jù)分析自動生成。,空間數(shù)據(jù)庫中可以定義兩種類型的概念層次:,空間概念層:地理區(qū)域之間空間關系的概念層次。,非空間概念層:非空間屬性所聯(lián)系的非空間數(shù)據(jù)對應的概念層次。,空間數(shù)據(jù)應用的歸納可以被分為兩種子類:,空間數(shù)據(jù)支配泛化:空間數(shù)據(jù)支配泛化做的是基于空間位置的聚類(所有靠近的實體被分在一組中)。,非空間數(shù)據(jù)支配泛化:根據(jù)非空間屬性值的相似性做聚類。,2024/12/13,21,泛化數(shù)據(jù)庫中的數(shù)據(jù)和對象在原始的概念層次包含有詳細的信息,經(jīng),空間數(shù)據(jù)支配泛化算法,在空間數(shù)據(jù)支配泛化算法中,首先對空間數(shù)據(jù)進行歸納:歸納進行至區(qū)域的數(shù)量達到閾值為止。然后對相關的非空間屬性做相應地更改。,例如,要知
23、道我國西北部地區(qū)的平均降雨量,可以在空間層次中尋找西北部所有省,再對非空間屬性(降雨量)進行比較,或者歸納(平均降雨量多、中等、少量等)。,典型的空間數(shù)據(jù)支配泛化算法描述,:,算法,8-1,空間數(shù)據(jù)支配泛化算法,輸入:空間數(shù)據(jù)庫,D,;空間層次,H,;概念層次,C,;查詢,Q,。,輸出:所需一般特征的規(guī)則,r,。,(,1,),D’←,從數(shù)據(jù)庫,D,中按查詢,Q,獲得的數(shù)據(jù)集合;,(,2,)根據(jù),H,的結構,把數(shù)據(jù)合并到區(qū)域中,直到區(qū)域的數(shù)目達到所需的閾值,或者已經(jīng)到達,H,中所要求的層次;,(,3,),FOR each,所找的區(qū)域,DO BEGIN,(,4,) 對非空間屬性執(zhí)行面向?qū)?/p>
24、性的歸納;,(,5,) 產(chǎn)生并輸出所找到的泛化規(guī)則;,(,6,),END.,2024/12/13,22,空間數(shù)據(jù)支配泛化算法在空間數(shù)據(jù)支配泛化算法中,首先對空間數(shù)據(jù),非空間數(shù)據(jù)支配泛化算法,算法首先對非空間屬性作面向?qū)傩缘臍w納,將其泛化至更高的概念層次。然后,將具有相同的泛化屬性值的相鄰區(qū)域合并在一起,可用鄰近方法忽略具有不同非空間描述的小區(qū)域。,查詢的結果生成包含少量區(qū)域的地圖,這些區(qū)域共享同一層次的非空間描述。,,2024/12/13,23,非空間數(shù)據(jù)支配泛化算法算法首先對非空間屬性作面向?qū)傩缘臍w納,,統(tǒng)計信息網(wǎng)格方法,STING,介紹,統(tǒng)計學信息網(wǎng)格方法(,STatistical
25、 INformation Grid-based method—STING,),使用了一種類似四叉樹的分層技術,把空間區(qū)域分成矩形單元。對空間數(shù)據(jù)庫掃描一次,可以找到每個單元的統(tǒng)計參數(shù)(平均數(shù),變化性,分布類型)。網(wǎng)格結構中的每個結點概括了該網(wǎng)格中所含內(nèi)部屬性的信息。通過獲取這些信息,很多數(shù)據(jù)挖掘請求(包括聚類)都可以通過檢驗單元統(tǒng)計得到響應。,STING,方法可以看作是一種層次聚類技術。層級的頂層的組成就是整體空間。最低層是代表每個最小單元的葉子結點。如果使用一個單元在下一層中擁有四個子單元(網(wǎng)格)的話,單元的分割與四叉樹中是一樣的。,2024/12/13,24,統(tǒng)計信息網(wǎng)格方法STING介紹
26、統(tǒng)計學信息網(wǎng)格方法(STati,第八章 空間挖掘,,,,,內(nèi)容提要,引言,空間數(shù)據(jù)概要,空間數(shù)據(jù)挖掘基礎,空間統(tǒng)計學,泛化與特化,空間規(guī)則,空間分類算法,空間聚類算法,空間挖掘的其他問題,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹,空間數(shù)據(jù)挖掘的研究現(xiàn)狀與發(fā)展方向,其他,2024/12/13,25,第八章 空間挖掘,空間規(guī)則的主要類型,空間規(guī)則可以概括對空間實體的結構及其之間關系的描述。在空間數(shù)據(jù)挖掘中有三種類型的規(guī)則:,空間特性規(guī)則:描述數(shù)據(jù),如北京市家庭平均年收入為,30000,元。,空間判別規(guī)則:描述不同種類數(shù)據(jù)間的差異,依靠它們能夠區(qū)分不同種類的特點。如北京市家庭平均年收入為,30000,元,而上海
27、的家庭平均年收入為,35000,元。,空間關聯(lián)規(guī)則:是兩個數(shù)據(jù)集合之間的關聯(lián)。如在北京市、住在國貿(mào)附近的家庭的平均收入為,50000,元。,所有這些規(guī)則都可以被看作是對空間類型的描述,而描述是一種為數(shù)據(jù)庫或者其中一些子集找到一個表示的方法。特性規(guī)則是一種最簡化的形式。,2024/12/13,26,空間規(guī)則的主要類型空間規(guī)則可以概括對空間實體的結構及其之間關,空間關聯(lián)規(guī)則,空間關聯(lián)規(guī)則是空間數(shù)據(jù)實體之間的關聯(lián),有:,非空間的先決條件和空間性的結果:如在北京、所有的重點學校都是位于老住宅區(qū),附近,。,空間性先決條件和非空間的結果:如在北京、房子在國貿(mào),附近,,就比較貴。,空間性先決條件和空間性結果
28、:如在北京、所有,市區(qū),的房子都在三環(huán),以內(nèi),。,空間關聯(lián)規(guī)則挖掘是傳統(tǒng)關聯(lián)規(guī)則挖掘的延伸,常用最小支持度和最小可信度來作為基本的統(tǒng)計參數(shù),由于空間數(shù)據(jù)的特點,往往是在多層概念上進行歸納。,挖掘空間關聯(lián)規(guī)則的有效方法是自上而下、逐步加深的搜索技術。首先在高的概念層次進行搜索,在較粗的精度級別查找頻繁發(fā)生的模式和在這些模式中較強的隱含關系;然后,對頻繁發(fā)生的模式加深搜索至較低的概念層次,這種處理持續(xù)到找不到頻繁發(fā)生的模式為止。,2024/12/13,27,空間關聯(lián)規(guī)則空間關聯(lián)規(guī)則是空間數(shù)據(jù)實體之間的關聯(lián),有:202,空間關聯(lián)規(guī)則基本步驟,典型的五步算法:,步驟,1,:通過給定的查詢抽取出相關的數(shù)
29、據(jù)。,步驟,2,:應用一個粗的空間運算方法,計算整個相關數(shù)據(jù)的集合。,步驟,3,:過濾出那些支持度小于最小支持度閾值的,1,階謂詞。,步驟,4,:應用一個細化的空間計算方法,從所導出的粗的謂詞集合中計算謂詞。,步驟,5,:向低層深入,在多個概念層次上找到關聯(lián)規(guī)則的完整集合。,,,,,算法,8-4,,空間關聯(lián)規(guī)則算法,輸入:空間數(shù)據(jù)庫,D,;概念層次,C,;層次的最小支持度和可信度,s,和,α,;尋找感興趣實體的查詢,q,;感興趣的拓撲關系,p,。,輸出:空間關聯(lián)規(guī)則,R,。,(,1,),D’=q(D),;,(,2,)在,D’,中應用粗糙謂詞,建造,CP,;,// CP,是由滿足,D’,中實體對
30、的粗糙謂詞組成的,(,3,)通過尋找滿足,s,的粗糙謂詞來找到頻繁粗糙謂詞,FCP,;,(,4,)從,FCP,中找到頻繁精確謂詞,FFP,;,(,5),尋找所有的頻繁精確謂詞得到,R,,然后歸納準則,.,2024/12/13,28,空間關聯(lián)規(guī)則基本步驟典型的五步算法:算法8-4 空間關聯(lián)規(guī),第八章 空間挖掘,,,,,內(nèi)容提要,引言,空間數(shù)據(jù)概要,空間數(shù)據(jù)挖掘基礎,空間統(tǒng)計學,泛化與特化,空間規(guī)則,空間分類算法,空間聚類算法,空間挖掘的其他問題,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹,空間數(shù)據(jù)挖掘的研究現(xiàn)狀與發(fā)展方向,其他,2024/12/13,29,第八章 空間挖掘,空間分類方法,空間分類方法用來對空
31、間實體的集合進行分類。給空間實體分類,可以通過非空間屬性或空間屬性或二者結合,并可利用概念層次來進行取樣。對于樣本數(shù)據(jù)的訓練可以通過改造傳統(tǒng)的分類算法來完成,例如,對ID3算法擴展。,2024/12/13,30,空間分類方法空間分類方法用來對空間實體的集合進行分類。給空間,空間決策樹,建造一個決策樹,有五個主要步驟:,根據(jù)已知的分類,從數(shù)據(jù),D,中找到例子,S,。,確定最佳謂詞,p,用來分類。一般首先在較粗的層次中尋找相關謂詞,然后再在較為細化的層次。,找到最佳的緩沖區(qū)大小和形狀。對于取樣中的每個實體,它周圍的區(qū)域被稱為緩沖區(qū)。目標是選擇一個能產(chǎn)生對測試集中的類型進行最不同的緩沖區(qū)。,使用,p
32、,和,C,,對每個緩沖區(qū)歸納謂詞。,使用泛化的謂詞和,ID3,建造二叉樹,T,。,算法,8-5,,空間決策樹算法,輸入:空間數(shù)據(jù)庫,D,;概念層次,C,;預定的類別。,輸出:二叉決策樹,T,。,(,1,)根據(jù)預定的類別,從數(shù)據(jù),D,中找到例子,S,;,(,2,)確定最佳謂詞,p,用來分類;,(,3,)找到最佳的緩沖區(qū)大小和形狀;,(,4,)使用,p,和,C,,對每個緩沖區(qū)歸納謂詞;,(,5,)使用泛化的謂詞和,ID3,建造二叉樹,T.,2024/12/13,31,空間決策樹建造一個決策樹,有五個主要步驟:算法8-5 空間,第八章 空間挖掘,,,,,內(nèi)容提要,引言,空間數(shù)據(jù)概要,空間數(shù)據(jù)挖掘
33、基礎,空間統(tǒng)計學,泛化與特化,空間規(guī)則,空間分類算法,空間聚類算法,空間挖掘的其他問題,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹,空間數(shù)據(jù)挖掘的研究現(xiàn)狀與發(fā)展方向,其他,2024/12/13,32,第八章 空間挖掘,空間聚類,空間聚類算法必須在大型多維數(shù)據(jù)庫上有效工作,而且應該能夠探測到不同形狀的聚類。因此,難度和挑戰(zhàn)性要比傳統(tǒng)數(shù)據(jù)要大。,空間聚類找到的聚類不應該依賴于檢驗空間中的點的順序,而且聚類也不應該受不相干的點影響。,傳統(tǒng)的聚類算法可以通過改造來實現(xiàn)空間數(shù)據(jù)聚類。,2024/12/13,33,空間聚類空間聚類算法必須在大型多維數(shù)據(jù)庫上有效工作,而且應該,基于隨機搜索的聚類方法CLARANS擴展,CL
34、ARANS,算法可以表示為查找一個圖,圖中的每個節(jié)點都是潛在的解決方案。在替換一個中心點后獲得的聚類稱為當前聚類的鄰居。隨意測試的鄰居的數(shù)目由參數(shù),maxneighbor,限制。如果找到一個更好的鄰居,將中心點移至鄰居節(jié)點,重新開始上述過程,否則在當前的聚類中生成一個局部最優(yōu)。找到一個局部最優(yōu)后,再任意選擇一個新的節(jié)點重新尋找新的局部最優(yōu)。局部最優(yōu)的數(shù)目被參數(shù),numlocal,限制。,CLARANS,并不搜索遍所有的求解空間,也不限制在任何具體的采樣中。,CLARANS,每次迭代的計算復雜度與對象的數(shù)量基本呈線性關系。,基于,CLARANS,的空間數(shù)據(jù)聚類算法有兩種:空間支配算法,SD,(,
35、CLARANS,)和非空間支配算法,NSD,(,CLARANS,)。,2024/12/13,34,基于隨機搜索的聚類方法CLARANS擴展 CLARANS算法,DBCLASD算法,一種大型空間數(shù)據(jù)庫基于距離分布的聚類算法,叫做,DBCLASD,(,Distribution Based Clustering of Large Spatial Databases,),它是,DBSCAN,的擴展。假定聚類中的項目是均勻分布的,算法嘗試確定滿足最近鄰居距離的分布。只要最近的鄰居距離滿足均一分布的假設,那么這個元素就被加入聚類。,算法,8-7,DBCLASD,算法,輸入:要被聚類的空間實體,D,;輸出:
36、聚類集合,K,。,(,1,),K←0,;,//,初始化,沒有聚類,(,2,),c←Ф,;,//,初始化候選集合為空,(,3,),FOR each point p in D DO BEGIN,(,4,),IF p is not in a cluster THEN BEGIN,(,5,),,創(chuàng)建一個新的聚類,C,,并把,p,加入,C,;,(,6,),,把,p,臨近的點加入,C,;,(,7,),END,(,8,),FOR each point q in C DO BEGIN,(,9,),,把,C,中沒有處理過的點,q,的鄰居點加入,C,;,(,10,),K←K∪{C},(,11,),END.,20
37、24/12/13,35,DBCLASD算法一種大型空間數(shù)據(jù)庫基于距離分布的聚類算法,,BANG,算法,BANG,方法使用了一種類似,k-D,樹的網(wǎng)格結構。這個結構為適應屬性的分布而做了一定調(diào)整,使密集的區(qū)域具有大量的更小的網(wǎng)格,而不夠密集的區(qū)域只有少量的更大的網(wǎng)格。接著按照網(wǎng)格(塊)的密度排序,也就是按照區(qū)域分割的網(wǎng)格里的項目數(shù)量。,根據(jù)期望的聚類數(shù)量,那些密度最大的網(wǎng)格被選為聚類的中心。對于每個選定的網(wǎng)格,只要它們的密度小于或者等于當前這個聚類的中心,就把這個臨近的網(wǎng)格加入。,2024/12/13,36,BANG算法BANG方法使用了一種類似k-D樹的網(wǎng)格結構。這,小波聚類,用小波聚類歸納空
38、間聚類的方法是把數(shù)據(jù)看作像,STING,那樣的信號,小波聚類使用的是網(wǎng)格。歸納聚類的時間復雜度是,O(n),,并且不受外界影響。,與一些方法不同,小波聚類可以找到任意形狀的聚類,而且不需要知道期望的聚類個數(shù)。,n,維空間的空間實體集合可看作是一個信號。聚類的邊界與高頻相應。聚類本身是低頻率高振幅的。可以使用信號處理技術尋找空間中低頻的部分。,可以使用小波變換來尋找聚類。小波變換是用來找出信號中的頻譜的。一個空間實體的小波變換分解維空間圖像的層次。它們可以用來把一個圖像縮放為不同的大小。,2024/12/13,37,小波聚類用小波聚類歸納空間聚類的方法是把數(shù)據(jù)看作像STING,使用近似值來確定聚
39、類的特性,一旦找到了空間聚類,可以使用近似值來確定這些聚類的特性:通過確定聚類附近的特征實現(xiàn)的。例如,一個聚類“靠近學?!?。,通常更多地用復雜的近似多邊形表示,而非指用簡單的,MBR,。,聚合鄰近,定義為衡量一個聚類(或者元素群)與一個特征(或者空間中某個實體)接近的程度。聚合鄰近距離可以由聚類中所有點的距離總和來度量。,CRH,算法是典型的確定聚合鄰近關系方法。它使用三種幾何形狀來界定一個聚類:,內(nèi)接矩形,R,:包含了一系列點的,MBR,。矩形邊緣與坐標軸平行。,外接圓,C,:包圍一系列點的圓周;以內(nèi)接矩形的對角線為直徑。,凸多邊形,H,:包含點的集合的最小邊界。,,CRH,首先使用一個外接
40、圓來接近給定的類;,其次使用內(nèi)接矩形來表示特征,并根據(jù)特征與聚類的接近程度來進行排序;,最后使用凸多邊形來評估前面所有最接近的特征。,2024/12/13,38,使用近似值來確定聚類的特性一旦找到了空間聚類,可以使用近似值,第八章 空間挖掘,,,,,內(nèi)容提要,引言,空間數(shù)據(jù)概要,空間數(shù)據(jù)挖掘基礎,空間統(tǒng)計學,泛化與特化,空間規(guī)則,空間分類算法,空間聚類算法,空間挖掘的其他問題,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹,空間數(shù)據(jù)挖掘的研究現(xiàn)狀與發(fā)展方向,其他,2024/12/13,39,第八章 空間挖掘,空間挖掘的其他問題,1,.,空間在線分析挖掘,空間在線分析挖掘(,SOLAM,:,Spatial Onl
41、ine Analytical Mining,)建立在多維視圖基礎之上,是基于網(wǎng)絡的驗證型空間數(shù)據(jù)挖掘和分析工具。,空間在線分析挖掘通過數(shù)據(jù)分析與報表模塊的查詢和分析工具(,OLAP,、決策分析、數(shù)據(jù)挖掘)完成對信息和知識的提取,以滿足決策的需要。它建立在客戶,/,服務器的結構之上,由用戶驅(qū)動,支持多維數(shù)據(jù)分析,在用戶的指導下驗證設定的假設。,美國,BusinessObjects,公司的,BusinessObjects,(,BO,)就是采用,Data,W,arehouse+OLAP+DataMining,方案推出的第一個集多數(shù)據(jù)源查詢、任意報表生成和,OLAP,及數(shù)據(jù)挖掘技術為一體的決策支持工具
42、軟件包。,2024/12/13,40,空間挖掘的其他問題1.空間在線分析挖掘2023/9/2040,空間挖掘的其他問題,2,.挖掘圖像數(shù)據(jù)庫的方法,,圖像數(shù)據(jù)庫是一類特殊的空間數(shù)據(jù)庫,其數(shù)據(jù)幾乎全部是圖像或圖片。圖像數(shù)據(jù)庫用于遙感、醫(yī)學圖像等應用,通常以柵格形式表示,柵格代表一個或多個光譜范圍的圖像密度。,,圖像數(shù)據(jù)庫的挖掘可以看成是空間數(shù)據(jù)挖掘的一部分,其主要問題在于如何區(qū)分圖像。以下列出對這方面問題的一些研究。,Magellan,研究,恒星分類,POSS-II,(,Second Palomar Observatory Sky Survey,),基于內(nèi)容的時空查詢,CONQUEST,,,20
43、24/12/13,41,空間挖掘的其他問題2.挖掘圖像數(shù)據(jù)庫的方法2023/9/20,空間挖掘的其他問題,3,.基于,Rough,集方法,Rough,集理論被廣泛研究并應用于不精確、不確定、不完全的信息的分類分析和知識獲取中。,Rough,集理論為空間數(shù)據(jù)的屬性分析和知識發(fā)現(xiàn)開辟了一條新途徑,可用于空間數(shù)據(jù)庫屬性表的一致性分析、屬性的重要性、屬性依賴、屬性表簡化、最小決策和分類算法生成等。,Rough,集方法與其他知識發(fā)現(xiàn)方法相結合,可以在數(shù)據(jù)庫中數(shù)據(jù)不確定情況下獲取多種知識。,4,.基于云理論挖掘方法,云理論是由李德毅等提出的一種用于處理不確定性的新理論,由云模型、不確定性推理和云變換三大支
44、柱構成。云理論將模糊性和隨機性結合起來,解決了作為模糊集理論基石的隸屬函數(shù)概念的固有缺陷,為,KDD,中定量與定性相結合的處理方法奠定了基礎,可以用于處理,GIS,中融隨機性和模糊性為一體的屬性不確定性。,2024/12/13,42,空間挖掘的其他問題3.基于Rough集方法2023/9/20,空間挖掘的其他問題,5,.探測性的數(shù)據(jù)分析(,EDA,),探測性的數(shù)據(jù)分析,簡稱,EDA,,采用動態(tài)統(tǒng)計圖形和動態(tài)鏈接窗口技術將數(shù)據(jù)及其統(tǒng)計特征顯示出來,可發(fā)現(xiàn)數(shù)據(jù)中非直觀的數(shù)據(jù)特征及異常數(shù)據(jù)。,EDA,技術在知識發(fā)現(xiàn)中用于選取感興趣的數(shù)據(jù)子集,即數(shù)據(jù)聚焦,并可初步發(fā)現(xiàn)隱含在數(shù)據(jù)中的某些特征和規(guī)律。,6
45、,.可視化,現(xiàn)代的數(shù)據(jù)可視化(,Data Visualization,)技術是指運用計算機圖形學和圖像處理技術,將數(shù)據(jù)轉(zhuǎn)換為圖形或圖像在屏幕上顯示出來,并進行交互處理的理論、方法和技術。它涉及到計算機圖形學、圖像處理、計算機輔助設計、計算機視覺及人機交互技術等多個領域。數(shù)據(jù)可視化概念首先來自科學計算可視化。,2024/12/13,43,空間挖掘的其他問題5.探測性的數(shù)據(jù)分析(EDA)2023/9,第八章 空間挖掘,,,,,內(nèi)容提要,引言,空間數(shù)據(jù)概要,空間數(shù)據(jù)挖掘基礎,空間統(tǒng)計學,泛化與特化,空間規(guī)則,空間分類算法,空間聚類算法,空間挖掘的其他問題,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹,空間數(shù)據(jù)挖掘的研
46、究現(xiàn)狀與發(fā)展方向,其他,2024/12/13,44,第八章 空間挖掘,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹,,加拿大,Simon Fraser,大學開發(fā)的空間數(shù)據(jù)挖掘系統(tǒng)原型,GeoMiner,很有代表性。該系統(tǒng)包含有三大模塊:空間數(shù)據(jù)立方體構建模塊,空間聯(lián)機分析處理(,OLAP,)模塊和空間數(shù)據(jù)挖掘模塊,采用的空間數(shù)據(jù)挖掘語言是,GMQL,。目前已能挖掘三種類型的規(guī)則:特征規(guī)則、判別規(guī)則和關聯(lián)規(guī)則。,GeoMiner,的體系結構如圖,8-12,所示,包含四個部分:,圖形用戶界面,用于進行交互式地挖掘并顯示挖掘結果;,發(fā)現(xiàn)模塊集合,含有上述三個已實現(xiàn)的知識發(fā)現(xiàn)模塊以及四個計劃實現(xiàn)的模塊(分別用實線框和虛
47、線框表示);,空間數(shù)據(jù)庫服務器,包括,MapInfo,、,ESRI/Oracle SDE,、,Informix-Illustra,以及其他空間數(shù)據(jù)庫引擎;,存儲非空間數(shù)據(jù)、空間數(shù)據(jù)和概念層次的數(shù)據(jù)庫和知識庫。,2024/12/13,45,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹 加拿大Simon Frase,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹,,空間數(shù)據(jù),,圖形用戶界面,GeoMiner,:知識發(fā)現(xiàn)模塊,空間數(shù)據(jù)庫服務器和數(shù)據(jù)立方體,非空間數(shù)據(jù),概念層次,,空間特征規(guī)則發(fā)現(xiàn)模塊,空間關聯(lián)規(guī)則發(fā)現(xiàn)模塊,空間預測模塊,空間模式分析模塊,空間比較規(guī)則發(fā)現(xiàn)模塊,空間分類規(guī)則發(fā)現(xiàn)模塊,空間聚類分析模塊,未來的空間發(fā)現(xiàn)模塊,
48、2024/12/13,46,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹 空間數(shù)據(jù)圖形用戶界面GeoM,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹,到目前為止,尚沒有對空間數(shù)據(jù)挖掘查詢語言,SDMQL,(,Spatial Data Mining Query Language,)的定義。,Han,等人為了挖掘地理空間數(shù)據(jù)庫設計了一種地理數(shù)據(jù)挖掘查詢語言,GMQL,(,Geo-Mining Query Language,),它是對空間,SQL,的擴展,并成功地應用于空間數(shù)據(jù)挖掘系統(tǒng)原型,GeoMiner,中。,GMQL,可作為制定,SDMQL,的基礎,以進一步界定,SDMQL,語言的基本原語。,SDMQL,的設計指導原則主要有:
49、,在空間數(shù)據(jù)挖掘請求中應說明用于挖掘的相關數(shù)據(jù)集。,在空間數(shù)據(jù)挖掘請求中應說明想要挖掘的知識的種類。,挖掘過程中應該可能運用相關的背景知識。,挖掘結果應該能用較概括的或多層次概念的術語來表述。,應能夠說明各種各樣的閾值,使得可以靈活地過濾掉那些不是很令人感興趣的知識。,應采用類似,SQL,的語法以適應在高級語言的水平上進行數(shù)據(jù)挖掘并與關系查詢語言,SQL,保持自然的融合。,2024/12/13,47,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹到目前為止,尚沒有對空間數(shù)據(jù)挖掘查詢,第八章 空間挖掘,,,,,內(nèi)容提要,引言,空間數(shù)據(jù)概要,空間數(shù)據(jù)挖掘基礎,空間統(tǒng)計學,泛化與特化,空間規(guī)則,空間分類算法,空間聚類算
50、法,空間挖掘的其他問題,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹,空間數(shù)據(jù)挖掘的研究現(xiàn)狀與發(fā)展方向,其他,2024/12/13,48,第八章 空間挖掘,空間數(shù)據(jù)挖掘的研究現(xiàn)狀,空間數(shù)據(jù)挖掘的研究比一般的關系型數(shù)據(jù)庫和事務數(shù)據(jù)庫的研究要晚,但近幾年己經(jīng)引起廣泛的興趣。目前國內(nèi)外都己經(jīng)開展了地球空間數(shù)據(jù)挖掘與知識發(fā)現(xiàn)方面的研究。,加拿大西蒙弗雷澤大學、德國慕尼黑大學、芬蘭赫爾辛基大學以及美國、澳大利亞等國家的許多大學和研究所,都有空間數(shù)據(jù)挖掘的成果報道。,,目前,在空間數(shù)據(jù)挖掘系統(tǒng)的開發(fā)方面,國際上有代表性的通用,SDM,系統(tǒng)有:,GeoMiner,,,Descartes,和,ArcView GIS,的,S-P
51、LUS,接口。,在國內(nèi),目前已經(jīng)開展空間數(shù)據(jù)挖掘的單位主要有:北京大學、武漢大學、中科院軟件所、中科院地理所資源與環(huán)境信息系統(tǒng)國家重點實驗室、中科院遙感所、中國測繪科學研究院等。,2024/12/13,49,空間數(shù)據(jù)挖掘的研究現(xiàn)狀 空間數(shù)據(jù)挖掘的研究比一般的關系型數(shù)據(jù),空間數(shù)據(jù)挖掘的研究與發(fā)展方向,空間數(shù)據(jù)挖掘是一個非常年輕而富有前景的領域,有很多研究問題需要深入探討,這也是該領域的研究與發(fā)展方向。,,1,.在面向?qū)ο蟮目臻g數(shù)據(jù)庫中進行數(shù)據(jù)挖掘,2,.進行不確定性挖掘,3,.多邊形聚類技術,4,.模糊空間關聯(lián)規(guī)則的挖掘,5,.挖掘空間數(shù)據(jù)的偏離和演變規(guī)則,6,.多維規(guī)則可視化,7,.多技術結合
52、,8,.高效的分類算法,9,.空間數(shù)據(jù)挖掘查詢語言,10,.帶空間誤差的數(shù)據(jù)挖掘,11,.遙感影像的挖掘,12,.智能,GIS,方法,13,.并行數(shù)據(jù)挖掘,14,.其他,,2024/12/13,50,空間數(shù)據(jù)挖掘的研究與發(fā)展方向 空間數(shù)據(jù)挖掘是一個非常年輕而富,第八章 空間挖掘,,,,,內(nèi)容提要,引言,空間數(shù)據(jù)概要,空間數(shù)據(jù)挖掘基礎,空間統(tǒng)計學,泛化與特化,空間規(guī)則,空間分類算法,空間聚類算法,空間挖掘的其他問題,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹,空間數(shù)據(jù)挖掘的研究現(xiàn)狀與發(fā)展方向,其他,2024/12/13,51,第八章 空間挖掘,空間數(shù)據(jù)挖掘與相關學科的關系,空間數(shù)據(jù)挖掘與空間數(shù)據(jù)庫,空間數(shù)據(jù)庫
53、存儲了大量與空間有關的數(shù)據(jù),例如數(shù)字地圖、預處理后的遙感或醫(yī)學圖像數(shù)據(jù)等等,空間數(shù)據(jù)庫有許多與關系型數(shù)據(jù)庫所不同的顯著特征。,,空間數(shù)據(jù)挖掘與空間數(shù)據(jù)倉庫,空間數(shù)據(jù)倉庫(,Spatial Data Warehouse,,,SDW,)是近幾年在數(shù)據(jù)倉庫基礎上提出的一個新的概念和新的技術,空間數(shù)據(jù)倉庫是一個面向主題的、集成的、隨時間變化的并且非易失性的空間和非空間數(shù)據(jù)的集合,用于支持空間數(shù)據(jù)挖掘和與空間數(shù)據(jù)有關的決策過程。,空間數(shù)據(jù)挖掘與空間聯(lián)機分析處理,空間聯(lián)機分析處理(,Spatial Online Analytical Processing,,,SOLAP,)是針對特定問題的聯(lián)機空間數(shù)據(jù)訪問
54、和分析,適合以空間數(shù)據(jù)倉庫為基礎的數(shù)據(jù)分析處理。,,空間數(shù)據(jù)挖掘與地理信息系統(tǒng),數(shù)字地球,,,2024/12/13,52,空間數(shù)據(jù)挖掘與相關學科的關系 空間數(shù)據(jù)挖掘與空間數(shù)據(jù)庫202,第八章 空間挖掘,,,,,內(nèi)容提要,引言,空間數(shù)據(jù)概要,空間數(shù)據(jù)挖掘基礎,空間統(tǒng)計學,泛化與特化,空間規(guī)則,空間分類算法,空間聚類算法,空間挖掘的其他問題,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹,空間數(shù)據(jù)挖掘的研究現(xiàn)狀與發(fā)展方向,其他,2024/12/13,53,第八章 空間挖掘,http://www.cs.sfu.ca/~han,Thank you !!!,2024/12/13,54,http://www.cs.sfu.ca/~hanThank,
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 專題黨課講稿:以高質(zhì)量黨建保障國有企業(yè)高質(zhì)量發(fā)展
- 廉政黨課講稿材料:堅決打好反腐敗斗爭攻堅戰(zhàn)持久戰(zhàn)總體戰(zhàn)涵養(yǎng)風清氣正的政治生態(tài)
- 在新錄用選調(diào)生公務員座談會上和基層單位調(diào)研座談會上的發(fā)言材料
- 總工會關于2025年維護勞動領域政治安全的工作匯報材料
- 基層黨建工作交流研討會上的講話發(fā)言材料
- 糧食和物資儲備學習教育工作部署會上的講話發(fā)言材料
- 市工業(yè)園區(qū)、市直機關單位、市紀委監(jiān)委2025年工作計劃
- 檢察院政治部關于2025年工作計劃
- 辦公室主任2025年現(xiàn)實表現(xiàn)材料
- 2025年~村農(nóng)村保潔員規(guī)范管理工作方案
- 在深入貫徹中央8項規(guī)定精神學習教育工作部署會議上的講話發(fā)言材料4篇
- 開展深入貫徹規(guī)定精神學習教育動員部署會上的講話發(fā)言材料3篇
- 在司法黨組中心學習組學習會上的發(fā)言材料
- 國企黨委關于推動基層黨建與生產(chǎn)經(jīng)營深度融合工作情況的報告材料
- 副書記在2025年工作務虛會上的發(fā)言材料2篇