搜索引擎原理

上傳人:fgh****35 文檔編號:253049558 上傳時間:2024-11-28 格式:PPT 頁數(shù):39 大小:1.39MB
收藏 版權(quán)申訴 舉報 下載
搜索引擎原理_第1頁
第1頁 / 共39頁
搜索引擎原理_第2頁
第2頁 / 共39頁
搜索引擎原理_第3頁
第3頁 / 共39頁

下載文檔到電腦,查找使用更方便

15 積分

下載資源

還剩頁未讀,繼續(xù)閱讀

資源描述:

《搜索引擎原理》由會員分享,可在線閱讀,更多相關(guān)《搜索引擎原理(39頁珍藏版)》請在裝配圖網(wǎng)上搜索。

1、單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,*,搜索引擎原理,基于東搜,DSpider,描述,搜索引擎原理,搜索引擎簡史,搜索引擎的構(gòu)成要素,“東搜”的基本介紹,關(guān)于搜索引擎的未來展望,搜索引擎簡史,Archie(1990),World Wide Web Wanderer(1993),Lycos(1994),其他引擎?zhèn)?Google(1998),Baidu(1999),總目錄,Archie(1990),最早的幾百個網(wǎng)站出現(xiàn)于,1993,年,大部分在大學(xué)里,但是很久之后才有了,Archie,。最早出現(xiàn)的,搜索引擎,叫,Archie,,是,1991,年由,A

2、lan,Emtage,,一個蒙特利爾的,McGill,大學(xué)的學(xué)生創(chuàng)造的。,總目錄,簡史,WWW Wanderer,(,1993,),不久,網(wǎng)絡(luò)上第一個機(jī)器人出現(xiàn)了。在,1993,年,6,月,,Matthew Gray,引入了萬維網(wǎng)漫游者。他最初想要測量網(wǎng)絡(luò)的增長,并且創(chuàng)建這個機(jī)器人來計算活動的網(wǎng)絡(luò)服務(wù)器數(shù)量。不久他將這個機(jī)器人升級為計算實際,URL,數(shù)量。他的數(shù)據(jù)庫叫,Wandex,。,總目錄,簡史,Lycos(1994),Lycos,是下一代搜索的主要發(fā)展,它是,1994,年,7,月在卡內(nèi)基梅隆大學(xué)設(shè)計的。到,1994,年,8,月,,Lycos,識別了,394000,個文件,比其他搜索引擎都

3、多。在,1994,年,10,月,在,Netscape,列出的搜索引擎里,,Lycos,排名第一。,總目錄,簡史,其他引擎?zhèn)?總目錄,簡史,Google(1998),谷歌中國,,即,Google,中國,,是,中國大陸,使用率第二大的搜索引擎。谷歌中國成立于,2006,年,4,月,,服務(wù)器置于,北京,,是唯一一個服務(wù)器設(shè)在美國以外地區(qū)的,Google,本地化版本。,總目錄,簡史,Baidu(1999),百度,1999,年,由,李彥宏,以及其好友,徐勇,在,美國,創(chuàng)辦,截至,2006,年,,百度是目前大陸訪問使用量最高的,搜索引擎,(,64.5%,),公司名稱“百度”二字源自,宋代,詞人,辛棄疾,的

4、,青玉案,的一句詞:“眾里尋他千百度”。截至,2009,年,3,月,百度在,Alexa,互聯(lián)網(wǎng)排名中排名,11,。,總目錄,簡史,搜索引擎的構(gòu)成要素,搜索器,索引器,檢索器,/,用戶接口,總目錄,搜索器,高強(qiáng)度爬蟲程序:,Baiduspider,,,Yahoo!Slurp,,,iaskspider/2.0,,,Sogou,web spider/3.0,中等強(qiáng)度爬蟲程序:,Googlebot/2.1,,,YodaoBot/1.0,開源爬蟲程序:,Heritrix,Nutch,Larbin,總目錄,構(gòu)成要素,索引器,Lucene,:,全世界都知道,http:/,lucene.apache.org,

5、/,Xapian:C,+,開發(fā)的概率信息檢索庫,功能強(qiáng)大,.http:/,www.xapian.org,/,ICTCLAS:,全球最受歡迎的漢語分詞開源系統(tǒng),獲得首屆國際分詞大賽綜合排名第一,國家,973,評測第一名。,http:/ictclas.org/index.html,(Institute of Computing Technology,Chinese Lexical Analysis System),總目錄,構(gòu)成要素,“東搜”的基本介紹,搜索器,DSpider,索引器,Lucene(CJKAnalyzer,),檢索器,/,用戶接口,用,JSP,實現(xiàn),總目錄,搜索器,DSpider,m

6、ini,drank,indexer,image,video,music,download,web,js,總目錄,基本介紹,DSpider_mini,數(shù)據(jù)庫統(tǒng)一接口,爬蟲算法,網(wǎng)頁內(nèi)容獲取,字符編碼檢測,線程管理,數(shù)據(jù)挖掘,程序運(yùn)行日志,總目錄,基本介紹,數(shù)據(jù)庫統(tǒng)一接口,總目錄,基本介紹,DSpider_mini,爬蟲算法,總目錄,基本介紹,DSpider_mini,爬蟲算法,總目錄,基本介紹,DSpider_mini,等待隊列,運(yùn)行隊列,成功隊列,失敗隊列,網(wǎng)頁內(nèi)容獲取,總目錄,基本介紹,DSpider_mini,1.,請求行:請求行由三個標(biāo)記組成:請求方法、請求,URI,和,HTTP,版本,

7、它們用空格分隔。例如:,GET/,index.html,HTTP/1.1,2.,請求頭標(biāo):由關(guān)鍵字,/,值對組成,每行一對,關(guān)鍵字和值用冒號(,:,)分隔。請求頭標(biāo)通知服務(wù)器有關(guān)于客戶端的功能和標(biāo)識,典型的請求頭標(biāo)有:,User-Agent,客戶端廠家和版本,Accept,客戶端可識別的內(nèi)容類型列表,Content-Length,附加到請求的數(shù)據(jù)字節(jié)數(shù),網(wǎng)頁內(nèi)容獲取,-,百度首頁測試,總目錄,基本介紹,DSpider_mini,客戶端發(fā)送請求,:,GET/HTTP/1.0,HOST:,ACCEPT:*/*,服務(wù)器返回頭信息,:,HTTP/1.1 200 OK,date=sun,22 mar 2

8、009 12:02:25,gmt,server=bws/1.0,content-length=3596,content-type=text/html,cache-control=private,expires=sun,22 mar 2009 12:02:25,gmt,set-cookie=,baiduid,=879623fc024528e897342282be7ac796:fg=1;expires=sun,22-mar-39 12:02:25,gmt,;path=/;domain=.,,p3p=cp=,oti,dsp,cor,iva,our,ind,com“,網(wǎng)頁正文內(nèi)容,.,字符編碼檢測,總

9、目錄,基本介紹,DSpider_mini,服務(wù)器返回頭信息,Content-Type,i.e.content-type=text/html;,charset,=utf-8,HTML,標(biāo)簽中的元標(biāo)簽信息,i.e.,檢測開頭三字節(jié),(,可能存儲著編碼信息,),i.e.UTF-8,編碼格式的文本文件,其前,3,個字節(jié)的值就是,-17,、,-69,、,-65,字符編碼檢測,總目錄,基本介紹,DSpider_mini,線程管理,總目錄,基本介紹,DSpider_mini,總經(jīng)理,-Spider,類,負(fù)責(zé)線程調(diào)度,工作分配,員工,-,SpiderWorker,類,負(fù)責(zé)完成分配的任務(wù),總經(jīng)理,-Spider

10、,類,總目錄,基本介紹,DSpider_mini,員工,-,SpiderWorker,類,總目錄,基本介紹,DSpider_mini,數(shù)據(jù)挖掘,總目錄,基本介紹,DSpider_mini,超鏈接的挖掘,(extraction),圖片的挖掘,音頻文件的挖掘,視頻文件的挖掘,超鏈接的挖掘,總目錄,基本介紹,DSpider_mini,程序運(yùn)行日志,總目錄,基本介紹,DSpider_mini,索引器,Lucene,doIndex,doImageIndex,doMusicIndex,doResourceIndex,doVideoIndex,總目錄,基本介紹,doIndex,總目錄,基本介紹,檢索器,/,

11、用戶接口,網(wǎng)頁,圖片,音樂,視頻,資源,詞典,個人,書簽,總目錄,基本介紹,檢索網(wǎng)頁,總目錄,基本介紹,檢索器,/,用戶接口,檢索圖片,總目錄,基本介紹,檢索器,/,用戶接口,檢索音樂,總目錄,基本介紹,檢索器,/,用戶接口,檢索視頻,總目錄,基本介紹,檢索器,/,用戶接口,檢索資源,總目錄,基本介紹,檢索器,/,用戶接口,檢索詞典,總目錄,基本介紹,檢索器,/,用戶接口,搜索引擎的未來展望,整合搜索多元的信息做很聰明的、相關(guān)度的排序,用時間地點來整合它,也可以跨語言整合它,移動搜索會根據(jù)你不同的地域給你一個智能的判斷,智能搜索能否用語音和形象做一些搜索,人性化搜索今天我們更多是人來找信息,但是以后很多的時候可能是信息找到你,總目錄,謝謝關(guān)注,!,Thank You!,

展開閱讀全文
溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

相關(guān)資源

更多
正為您匹配相似的精品文檔

相關(guān)搜索

關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號:ICP2024067431-1 川公網(wǎng)安備51140202000466號


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺,本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請立即通知裝配圖網(wǎng),我們立即給予刪除!