搜索引擎原理

上傳人:fgh****35 文檔編號:253049558 上傳時間:2024-11-28 格式:PPT 頁數(shù):39 大?。?.39MB
收藏 版權(quán)申訴 舉報 下載
搜索引擎原理_第1頁
第1頁 / 共39頁
搜索引擎原理_第2頁
第2頁 / 共39頁
搜索引擎原理_第3頁
第3頁 / 共39頁

下載文檔到電腦,查找使用更方便

15 積分

下載資源

還剩頁未讀,繼續(xù)閱讀

資源描述:

《搜索引擎原理》由會員分享,可在線閱讀,更多相關(guān)《搜索引擎原理(39頁珍藏版)》請在裝配圖網(wǎng)上搜索。

1、單擊此處編輯母版標題樣式,單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,*,搜索引擎原理,基于東搜,DSpider,描述,搜索引擎原理,搜索引擎簡史,搜索引擎的構(gòu)成要素,“東搜”的基本介紹,關(guān)于搜索引擎的未來展望,搜索引擎簡史,Archie(1990),World Wide Web Wanderer(1993),Lycos(1994),其他引擎?zhèn)?Google(1998),Baidu(1999),總目錄,Archie(1990),最早的幾百個網(wǎng)站出現(xiàn)于,1993,年,大部分在大學里,但是很久之后才有了,Archie,。最早出現(xiàn)的,搜索引擎,叫,Archie,,是,1991,年由,A

2、lan,Emtage,,一個蒙特利爾的,McGill,大學的學生創(chuàng)造的。,總目錄,簡史,WWW Wanderer,(,1993,),不久,網(wǎng)絡(luò)上第一個機器人出現(xiàn)了。在,1993,年,6,月,,Matthew Gray,引入了萬維網(wǎng)漫游者。他最初想要測量網(wǎng)絡(luò)的增長,并且創(chuàng)建這個機器人來計算活動的網(wǎng)絡(luò)服務(wù)器數(shù)量。不久他將這個機器人升級為計算實際,URL,數(shù)量。他的數(shù)據(jù)庫叫,Wandex,。,總目錄,簡史,Lycos(1994),Lycos,是下一代搜索的主要發(fā)展,它是,1994,年,7,月在卡內(nèi)基梅隆大學設(shè)計的。到,1994,年,8,月,,Lycos,識別了,394000,個文件,比其他搜索引擎都

3、多。在,1994,年,10,月,在,Netscape,列出的搜索引擎里,,Lycos,排名第一。,總目錄,簡史,其他引擎?zhèn)?總目錄,簡史,Google(1998),谷歌中國,,即,Google,中國,,是,中國大陸,使用率第二大的搜索引擎。谷歌中國成立于,2006,年,4,月,,服務(wù)器置于,北京,,是唯一一個服務(wù)器設(shè)在美國以外地區(qū)的,Google,本地化版本。,總目錄,簡史,Baidu(1999),百度,1999,年,由,李彥宏,以及其好友,徐勇,在,美國,創(chuàng)辦,截至,2006,年,,百度是目前大陸訪問使用量最高的,搜索引擎,(,64.5%,),公司名稱“百度”二字源自,宋代,詞人,辛棄疾,的

4、,青玉案,的一句詞:“眾里尋他千百度”。截至,2009,年,3,月,百度在,Alexa,互聯(lián)網(wǎng)排名中排名,11,。,總目錄,簡史,搜索引擎的構(gòu)成要素,搜索器,索引器,檢索器,/,用戶接口,總目錄,搜索器,高強度爬蟲程序:,Baiduspider,,,Yahoo!Slurp,,,iaskspider/2.0,,,Sogou,web spider/3.0,中等強度爬蟲程序:,Googlebot/2.1,,,YodaoBot/1.0,開源爬蟲程序:,Heritrix,Nutch,Larbin,總目錄,構(gòu)成要素,索引器,Lucene,:,全世界都知道,http:/,lucene.apache.org,

5、/,Xapian:C,+,開發(fā)的概率信息檢索庫,功能強大,.http:/,www.xapian.org,/,ICTCLAS:,全球最受歡迎的漢語分詞開源系統(tǒng),獲得首屆國際分詞大賽綜合排名第一,國家,973,評測第一名。,http:/ictclas.org/index.html,(Institute of Computing Technology,Chinese Lexical Analysis System),總目錄,構(gòu)成要素,“東搜”的基本介紹,搜索器,DSpider,索引器,Lucene(CJKAnalyzer,),檢索器,/,用戶接口,用,JSP,實現(xiàn),總目錄,搜索器,DSpider,m

6、ini,drank,indexer,image,video,music,download,web,js,總目錄,基本介紹,DSpider_mini,數(shù)據(jù)庫統(tǒng)一接口,爬蟲算法,網(wǎng)頁內(nèi)容獲取,字符編碼檢測,線程管理,數(shù)據(jù)挖掘,程序運行日志,總目錄,基本介紹,數(shù)據(jù)庫統(tǒng)一接口,總目錄,基本介紹,DSpider_mini,爬蟲算法,總目錄,基本介紹,DSpider_mini,爬蟲算法,總目錄,基本介紹,DSpider_mini,等待隊列,運行隊列,成功隊列,失敗隊列,網(wǎng)頁內(nèi)容獲取,總目錄,基本介紹,DSpider_mini,1.,請求行:請求行由三個標記組成:請求方法、請求,URI,和,HTTP,版本,

7、它們用空格分隔。例如:,GET/,index.html,HTTP/1.1,2.,請求頭標:由關(guān)鍵字,/,值對組成,每行一對,關(guān)鍵字和值用冒號(,:,)分隔。請求頭標通知服務(wù)器有關(guān)于客戶端的功能和標識,典型的請求頭標有:,User-Agent,客戶端廠家和版本,Accept,客戶端可識別的內(nèi)容類型列表,Content-Length,附加到請求的數(shù)據(jù)字節(jié)數(shù),網(wǎng)頁內(nèi)容獲取,-,百度首頁測試,總目錄,基本介紹,DSpider_mini,客戶端發(fā)送請求,:,GET/HTTP/1.0,HOST:,ACCEPT:*/*,服務(wù)器返回頭信息,:,HTTP/1.1 200 OK,date=sun,22 mar 2

8、009 12:02:25,gmt,server=bws/1.0,content-length=3596,content-type=text/html,cache-control=private,expires=sun,22 mar 2009 12:02:25,gmt,set-cookie=,baiduid,=879623fc024528e897342282be7ac796:fg=1;expires=sun,22-mar-39 12:02:25,gmt,;path=/;domain=.,,p3p=cp=,oti,dsp,cor,iva,our,ind,com“,網(wǎng)頁正文內(nèi)容,.,字符編碼檢測,總

9、目錄,基本介紹,DSpider_mini,服務(wù)器返回頭信息,Content-Type,i.e.content-type=text/html;,charset,=utf-8,HTML,標簽中的元標簽信息,i.e.,檢測開頭三字節(jié),(,可能存儲著編碼信息,),i.e.UTF-8,編碼格式的文本文件,其前,3,個字節(jié)的值就是,-17,、,-69,、,-65,字符編碼檢測,總目錄,基本介紹,DSpider_mini,線程管理,總目錄,基本介紹,DSpider_mini,總經(jīng)理,-Spider,類,負責線程調(diào)度,工作分配,員工,-,SpiderWorker,類,負責完成分配的任務(wù),總經(jīng)理,-Spider

10、,類,總目錄,基本介紹,DSpider_mini,員工,-,SpiderWorker,類,總目錄,基本介紹,DSpider_mini,數(shù)據(jù)挖掘,總目錄,基本介紹,DSpider_mini,超鏈接的挖掘,(extraction),圖片的挖掘,音頻文件的挖掘,視頻文件的挖掘,超鏈接的挖掘,總目錄,基本介紹,DSpider_mini,程序運行日志,總目錄,基本介紹,DSpider_mini,索引器,Lucene,doIndex,doImageIndex,doMusicIndex,doResourceIndex,doVideoIndex,總目錄,基本介紹,doIndex,總目錄,基本介紹,檢索器,/,

11、用戶接口,網(wǎng)頁,圖片,音樂,視頻,資源,詞典,個人,書簽,總目錄,基本介紹,檢索網(wǎng)頁,總目錄,基本介紹,檢索器,/,用戶接口,檢索圖片,總目錄,基本介紹,檢索器,/,用戶接口,檢索音樂,總目錄,基本介紹,檢索器,/,用戶接口,檢索視頻,總目錄,基本介紹,檢索器,/,用戶接口,檢索資源,總目錄,基本介紹,檢索器,/,用戶接口,檢索詞典,總目錄,基本介紹,檢索器,/,用戶接口,搜索引擎的未來展望,整合搜索多元的信息做很聰明的、相關(guān)度的排序,用時間地點來整合它,也可以跨語言整合它,移動搜索會根據(jù)你不同的地域給你一個智能的判斷,智能搜索能否用語音和形象做一些搜索,人性化搜索今天我們更多是人來找信息,但是以后很多的時候可能是信息找到你,總目錄,謝謝關(guān)注,!,Thank You!,

展開閱讀全文
溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

相關(guān)資源

更多
正為您匹配相似的精品文檔

相關(guān)搜索

關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號:ICP2024067431-1 川公網(wǎng)安備51140202000466號


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺,本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請立即通知裝配圖網(wǎng),我們立即給予刪除!