《搜索引擎原理》由會員分享,可在線閱讀,更多相關(guān)《搜索引擎原理(39頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,*,搜索引擎原理,基于東搜,DSpider,描述,搜索引擎原理,搜索引擎簡史,搜索引擎的構(gòu)成要素,“東搜”的基本介紹,關(guān)于搜索引擎的未來展望,搜索引擎簡史,Archie(1990),World Wide Web Wanderer(1993),Lycos(1994),其他引擎?zhèn)?Google(1998),Baidu(1999),總目錄,Archie(1990),最早的幾百個網(wǎng)站出現(xiàn)于,1993,年,大部分在大學(xué)里,但是很久之后才有了,Archie,。最早出現(xiàn)的,搜索引擎,叫,Archie,,是,1991,年由,A
2、lan,Emtage,,一個蒙特利爾的,McGill,大學(xué)的學(xué)生創(chuàng)造的。,總目錄,簡史,WWW Wanderer,(,1993,),不久,網(wǎng)絡(luò)上第一個機(jī)器人出現(xiàn)了。在,1993,年,6,月,,Matthew Gray,引入了萬維網(wǎng)漫游者。他最初想要測量網(wǎng)絡(luò)的增長,并且創(chuàng)建這個機(jī)器人來計算活動的網(wǎng)絡(luò)服務(wù)器數(shù)量。不久他將這個機(jī)器人升級為計算實際,URL,數(shù)量。他的數(shù)據(jù)庫叫,Wandex,。,總目錄,簡史,Lycos(1994),Lycos,是下一代搜索的主要發(fā)展,它是,1994,年,7,月在卡內(nèi)基梅隆大學(xué)設(shè)計的。到,1994,年,8,月,,Lycos,識別了,394000,個文件,比其他搜索引擎都
3、多。在,1994,年,10,月,在,Netscape,列出的搜索引擎里,,Lycos,排名第一。,總目錄,簡史,其他引擎?zhèn)?總目錄,簡史,Google(1998),谷歌中國,,即,Google,中國,,是,中國大陸,使用率第二大的搜索引擎。谷歌中國成立于,2006,年,4,月,,服務(wù)器置于,北京,,是唯一一個服務(wù)器設(shè)在美國以外地區(qū)的,Google,本地化版本。,總目錄,簡史,Baidu(1999),百度,1999,年,由,李彥宏,以及其好友,徐勇,在,美國,創(chuàng)辦,截至,2006,年,,百度是目前大陸訪問使用量最高的,搜索引擎,(,64.5%,),公司名稱“百度”二字源自,宋代,詞人,辛棄疾,的
4、,青玉案,的一句詞:“眾里尋他千百度”。截至,2009,年,3,月,百度在,Alexa,互聯(lián)網(wǎng)排名中排名,11,。,總目錄,簡史,搜索引擎的構(gòu)成要素,搜索器,索引器,檢索器,/,用戶接口,總目錄,搜索器,高強(qiáng)度爬蟲程序:,Baiduspider,,,Yahoo!Slurp,,,iaskspider/2.0,,,Sogou,web spider/3.0,中等強(qiáng)度爬蟲程序:,Googlebot/2.1,,,YodaoBot/1.0,開源爬蟲程序:,Heritrix,Nutch,Larbin,總目錄,構(gòu)成要素,索引器,Lucene,:,全世界都知道,http:/,lucene.apache.org,
5、/,Xapian:C,+,開發(fā)的概率信息檢索庫,功能強(qiáng)大,.http:/,www.xapian.org,/,ICTCLAS:,全球最受歡迎的漢語分詞開源系統(tǒng),獲得首屆國際分詞大賽綜合排名第一,國家,973,評測第一名。,http:/ictclas.org/index.html,(Institute of Computing Technology,Chinese Lexical Analysis System),總目錄,構(gòu)成要素,“東搜”的基本介紹,搜索器,DSpider,索引器,Lucene(CJKAnalyzer,),檢索器,/,用戶接口,用,JSP,實現(xiàn),總目錄,搜索器,DSpider,m
6、ini,drank,indexer,image,video,music,download,web,js,總目錄,基本介紹,DSpider_mini,數(shù)據(jù)庫統(tǒng)一接口,爬蟲算法,網(wǎng)頁內(nèi)容獲取,字符編碼檢測,線程管理,數(shù)據(jù)挖掘,程序運(yùn)行日志,總目錄,基本介紹,數(shù)據(jù)庫統(tǒng)一接口,總目錄,基本介紹,DSpider_mini,爬蟲算法,總目錄,基本介紹,DSpider_mini,爬蟲算法,總目錄,基本介紹,DSpider_mini,等待隊列,運(yùn)行隊列,成功隊列,失敗隊列,網(wǎng)頁內(nèi)容獲取,總目錄,基本介紹,DSpider_mini,1.,請求行:請求行由三個標(biāo)記組成:請求方法、請求,URI,和,HTTP,版本,
7、它們用空格分隔。例如:,GET/,index.html,HTTP/1.1,2.,請求頭標(biāo):由關(guān)鍵字,/,值對組成,每行一對,關(guān)鍵字和值用冒號(,:,)分隔。請求頭標(biāo)通知服務(wù)器有關(guān)于客戶端的功能和標(biāo)識,典型的請求頭標(biāo)有:,User-Agent,客戶端廠家和版本,Accept,客戶端可識別的內(nèi)容類型列表,Content-Length,附加到請求的數(shù)據(jù)字節(jié)數(shù),網(wǎng)頁內(nèi)容獲取,-,百度首頁測試,總目錄,基本介紹,DSpider_mini,客戶端發(fā)送請求,:,GET/HTTP/1.0,HOST:,ACCEPT:*/*,服務(wù)器返回頭信息,:,HTTP/1.1 200 OK,date=sun,22 mar 2
8、009 12:02:25,gmt,server=bws/1.0,content-length=3596,content-type=text/html,cache-control=private,expires=sun,22 mar 2009 12:02:25,gmt,set-cookie=,baiduid,=879623fc024528e897342282be7ac796:fg=1;expires=sun,22-mar-39 12:02:25,gmt,;path=/;domain=.,,p3p=cp=,oti,dsp,cor,iva,our,ind,com“,網(wǎng)頁正文內(nèi)容,.,字符編碼檢測,總
9、目錄,基本介紹,DSpider_mini,服務(wù)器返回頭信息,Content-Type,i.e.content-type=text/html;,charset,=utf-8,HTML,標(biāo)簽中的元標(biāo)簽信息,i.e.,檢測開頭三字節(jié),(,可能存儲著編碼信息,),i.e.UTF-8,編碼格式的文本文件,其前,3,個字節(jié)的值就是,-17,、,-69,、,-65,字符編碼檢測,總目錄,基本介紹,DSpider_mini,線程管理,總目錄,基本介紹,DSpider_mini,總經(jīng)理,-Spider,類,負(fù)責(zé)線程調(diào)度,工作分配,員工,-,SpiderWorker,類,負(fù)責(zé)完成分配的任務(wù),總經(jīng)理,-Spider
10、,類,總目錄,基本介紹,DSpider_mini,員工,-,SpiderWorker,類,總目錄,基本介紹,DSpider_mini,數(shù)據(jù)挖掘,總目錄,基本介紹,DSpider_mini,超鏈接的挖掘,(extraction),圖片的挖掘,音頻文件的挖掘,視頻文件的挖掘,超鏈接的挖掘,總目錄,基本介紹,DSpider_mini,程序運(yùn)行日志,總目錄,基本介紹,DSpider_mini,索引器,Lucene,doIndex,doImageIndex,doMusicIndex,doResourceIndex,doVideoIndex,總目錄,基本介紹,doIndex,總目錄,基本介紹,檢索器,/,
11、用戶接口,網(wǎng)頁,圖片,音樂,視頻,資源,詞典,個人,書簽,總目錄,基本介紹,檢索網(wǎng)頁,總目錄,基本介紹,檢索器,/,用戶接口,檢索圖片,總目錄,基本介紹,檢索器,/,用戶接口,檢索音樂,總目錄,基本介紹,檢索器,/,用戶接口,檢索視頻,總目錄,基本介紹,檢索器,/,用戶接口,檢索資源,總目錄,基本介紹,檢索器,/,用戶接口,檢索詞典,總目錄,基本介紹,檢索器,/,用戶接口,搜索引擎的未來展望,整合搜索多元的信息做很聰明的、相關(guān)度的排序,用時間地點來整合它,也可以跨語言整合它,移動搜索會根據(jù)你不同的地域給你一個智能的判斷,智能搜索能否用語音和形象做一些搜索,人性化搜索今天我們更多是人來找信息,但是以后很多的時候可能是信息找到你,總目錄,謝謝關(guān)注,!,Thank You!,