畢業(yè)設計論文搜索引擎

上傳人：仙*** 文檔編號：28088694 上傳時間：2021-08-23 格式：DOC 頁數(shù)：68 大?。?.28MB

收藏版權申訴舉報下載

第1頁 / 共68頁

第2頁 / 共68頁

第3頁 / 共68頁

下載文檔到電腦，查找使用更方便

15 積分

下載資源

還剩頁未讀，繼續(xù)閱讀

資源描述：

《畢業(yè)設計論文搜索引擎》由會員分享，可在線閱讀，更多相關《畢業(yè)設計論文搜索引擎（68頁珍藏版）》請在裝配圖網上搜索。

1、目錄第一章課題背景知識 .(1) 第一節(jié) 搜索引擎原理 .(1) 第二節(jié) 搜索引擎分類 .(2) 第三節(jié) 搜索引擎技術的發(fā)展歷史 .(4) 第四節(jié) 搜索引擎現(xiàn)狀 .(5) 第五節(jié) 搜索引擎展望 .(6) 第二章技術詮釋 .(10) 第一節(jié) HTTP 及 HTML .(10) 第二節(jié) 網絡蜘蛛 .(11) 第三節(jié) 網頁噪聲 .(13) 第四節(jié) 頁面分析 .(13) 第五節(jié) 中文分詞 .(16) 第六節(jié) 布爾代數(shù) .(19) 第七節(jié) CGI.(19) 第八節(jié) SOCKECT 網絡編程 .(20) 第三章 TOKING 海量網頁搜索系統(tǒng)體系結構及實現(xiàn) .(21) 第一節(jié) 結構設計 .(21)

2、第二節(jié) 數(shù)據流圖 .(22) 第三節(jié) 網頁抓取部分 .(31) 第四節(jié) 網頁預處理部分 .(35) 第五節(jié) 信息查詢服務部分 .(42) 第六節(jié) 用戶反饋 .(46) 第七節(jié) 功能拓展 .(46) 第八節(jié) 優(yōu)化用戶感受 .(50) 第四章系統(tǒng)測評 .(52) 第一節(jié) 抓取速度 .(52) 第二節(jié) 分詞效率 .(52) 第三節(jié) 搜索評價 .(53) 參考文獻 .(54) 致謝 .(55) 附錄 .(56) 本科生畢業(yè)設計 1 第一章課題背景知識 70 年代中期，美國國防部高級研究計劃局 DARPA (Defense Advanced Research Projects Agency)開

3、始了互聯(lián)網技術的研究。而 WWW (World Wide Web)自 1989 年誕生以來，近二十年來發(fā)展迅猛，它已成為人類社會信息資源中的一個重要組成部分，越來越多的社會信息資源實體開始選擇 Web 作為其載體。著名的 netcraft(via Digg)剛剛完成了最新的互聯(lián)網調查，結果顯示到 2006 年 3 月 31 日止，互聯(lián)網上一共有 80655993 個網站。而單是在 06 年 3 月這一個月里，世界上的網站數(shù)量就增長了 310 萬個。而在 2003 年 8 月所得的調查結果為 4000 萬個，這說明了互聯(lián)網上的網站數(shù)量在過去的 3 年里就已經翻了一番，增長速度十分驚人

4、。著名的網站排名的國際網站在 2007 年 4 月更是收錄了全球大約有 34762836735 個網址。由此，人們在信息海洋中搜索自己所需要的信息的能力顯得愈發(fā)重要，搜索引擎成了人們在網上檢索信息的必要工具。第一節(jié) 搜索引擎原理搜索引擎，應該被定位成一個計算機應用軟件系統(tǒng)，或者一個網絡應用軟件系統(tǒng)。從網絡用戶的角度看，它根據用戶提交的類自然語言查詢詞或者短語，返回一系列很可能與該查詢相關的網頁信息，供用戶進一步判斷和選取。為了有效地做到這一點，它大致上被分成三個子系統(tǒng)；即網頁搜集，網頁預處理和查詢服務。網頁搜集主要負責網頁的抓取，由 URL 服務器、爬行器、存儲器、分析器和

5、 URL 解析器組成，爬行器是該部分的核心；網頁預處理主要負責對網頁內容進行分析，對文檔進行標引并存儲到數(shù)據庫里，由標引器和分類器組成，該模塊涉及許多文件和數(shù)據，有關于桶的操作是該部分的核心；查詢服務主要負責分析用戶輸入的檢索表達式，匹配相關文檔，把檢索結果返回給用戶，由查詢器和網頁級別評定器組成，其中網頁等級的計算是該部分的核心。搜索引擎的主要工作流程是：首先從蜘蛛開始，蜘蛛程序每隔一定的時間自動啟動并讀取網頁URL服務器上的URL列表，按深度優(yōu)先或廣度優(yōu)先算法，抓取各 URL所指定的網站，將抓取的網頁分配一個唯一文檔，存入文檔數(shù)據庫。并將當前頁上的所的超連接存入到URL服務

6、器中。在進行抓取的同時，切詞器和索引器將已經抓取的網頁文檔進行切詞處理，并按詞在網頁中出現(xiàn)的位置和頻率計算權值，然后將切詞結果存入索引數(shù)據庫。整個抓取工作和索引工作完成后更新整個索引數(shù)據庫和文檔數(shù)據庫，這樣用戶就可以查詢最新的網頁信息。查詢器首先對用戶輸入的本科生畢業(yè)設計 2 信息進行切詞處理，并檢索出所有包含檢索詞的記錄，通過計算網頁權重和級別對查詢記錄進行排序并進行集合運算，最后從文檔數(shù)據庫中提取各網頁的摘要信息反饋給查詢用戶。 URL服務器爬行器存儲服務器資源庫頁級別評定器 URL解析器標引器查詢器分類器錨庫詞

7、典庫索引庫鏈接庫桶桶桶桶桶桶 Web 頁搜索標引入庫用戶查詢圖 1-1-1 搜索引擎通用總體系統(tǒng)結構圖第二節(jié) 搜索引擎分類搜索引擎按其工作方式主要可分為三種，分別是全文搜索引擎（Full Text Search Engine）、目錄索引類搜索引擎（Search Index/Directory）和元搜索引擎（Meta Search Engine）。一、全文搜索引擎全文搜索引擎是名副其實的搜索引擎，國外具代表性的有 Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma 、WiseNut 等，國內著名的有百

8、度（Baidu）。它們都是通過從互聯(lián)網上提取的各個網站的信息（以網頁文字為主）而建立的數(shù)據庫中，檢索與用戶查詢條件匹配的相關記錄，然后按一定的排列順序將結果返回給用戶，因此他們是真正的搜索引擎。本科生畢業(yè)設計 3 圖 1-2-1 全球著名全文搜索引擎 LOGO 二、目錄索引目錄索引雖然有搜索功能，但在嚴格意義上算不上是真正的搜索引擎，僅僅是按目錄分類的網站鏈接列表而已。用戶完全可以不用進行關鍵詞（Keywords）查詢，僅靠分類目錄也可找到需要的信息。目錄索引中最具代表性的莫過于大名鼎鼎的 Yahoo 雅虎。其他著名的還有 Open Directory Project（DMOZ

9、）、 LookSmart、 About 等。國內的搜狐、新浪、網易搜索也都屬于這一類。圖 1-2-2 全球著名目錄索引 LOGO 三、元搜索引擎 (META Search Engine) 元搜索引擎在接受用戶查詢請求時，同時在其他多個引擎上進行搜索，并將結果返回給用戶。著名的元搜索引擎有 InfoSpace、Dogpile、Vivisimo 等，中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索結果排列方面，有的直接按來源引擎排列搜索結果，如 Dogpile，有的則按自定的規(guī)則將結果重新排列組合，如 Vivisimo。四、其他除上述三大類引擎外，還有以下幾種非主流形式：（一）集合

10、式搜索引擎：如 HotBot 在 2002 年底推出的引擎。該引擎類似 META 搜索引擎，但區(qū)別在于不是同時調用多個引擎進行搜索，而是由用戶從提供的 4 個引擎當中選擇，因此叫它“集合式” 搜索引擎更確切些。（二）門戶搜索引擎：如 AOL Search、MSN Search 等雖然提供搜索服務，但自身即沒有分類目錄也沒有網頁數(shù)據庫，其搜索結果完全來自其他引擎。（三）免費鏈接列表（Free For All Links，簡稱 FFA）：這類網站一般只簡單地滾動排列鏈接條目，少部分有簡單的分類目錄，不過規(guī)模比起 Yahoo 等目錄索引來要小得多。（四）垂直搜索引擎：有針對性的搜索引擎

11、。一次搜索的結果可能有成千上萬條，而在這過于龐大的信息群中，有用信息只是其中的小部分。通用搜索引擎的弊端在網絡信息的急劇膨脹下突顯起來，搜索越來越難以控制，用戶需求和市場服務本科生畢業(yè)設計 4 間的巨大反差產生了強大的“搜索噪音” ，垂直搜索引擎的應運而生，成為搜索引擎發(fā)展史上的一塊里程碑。第三節(jié) 搜索引擎技術的發(fā)展歷史在互聯(lián)網發(fā)展初期，網站相對較少，信息查找比較容易。然而伴隨互聯(lián)網爆炸性的發(fā)展，普通網絡用戶想找到所需的資料簡直如同大海撈針，這時為滿足大眾信息檢索需求的專業(yè)搜索網站便應運而生了。現(xiàn)代意義上的搜索引擎的祖先，是 1990 年由蒙特利爾大學學生 Alan Emta

12、ge 發(fā)明的 Archie。雖然當時 World Wide Web 還未出現(xiàn)，但網絡中文件傳輸還是相當頻繁的，而且由于大量的文件散布在各個分散的 FTP 主機中，查詢起來非常不便，因此 Alan Emtage 想到了開發(fā)一個可以以文件名查找文件的系統(tǒng)，于是便有了 Archie。 Archie 工作原理與現(xiàn)在的搜索引擎已經很接近，它依靠腳本程序自動搜索網上的文件，然后對有關信息進行索引，供使用者以一定的表達式查詢。由于 Archie 深受用戶歡迎，受其啟發(fā)，美國內華達 System Computing Services 大學于 1993 年開發(fā)了另一個與之非常相似的搜索工具，不過此時的搜

13、索工具除了索引文件外，已能檢索網頁。當時， “機器人 ”一詞在編程者中十分流行。電腦 “機器人”（Computer Robot）是指某個能以人類無法達到的速度不間斷地執(zhí)行某項任務的軟件程序。由于專門用于檢索信息的“ 機器人” 程序象蜘蛛一樣在網絡間爬來爬去，因此，搜索引擎的“機器人”程序也被稱為 “蜘蛛”程序。世界上第一個用于監(jiān)測互聯(lián)網發(fā)展規(guī)模的“機器人” 程序是 Matthew Gray 開發(fā) 的 World wide Web Wanderer。剛開始它只用來統(tǒng)計互聯(lián)網上的服務器數(shù)量，后來則發(fā)展為能夠檢索網站域名。與 Wanderer 相對應，Martin Koster 于

14、1993 年 10 月創(chuàng)建了 ALIWEB，它是 Archie 的 HTTP 版本。ALIWEB 不使用“機器人” 程序，而是靠網站主動提交信息來建立自己的鏈接索引，類似于現(xiàn)在我們熟知的 Yahoo。隨著互聯(lián)網的迅速發(fā)展，使得檢索所有新出現(xiàn)的網頁變得越來越困難，因此，在 Matthew Gray 的 Wanderer 基礎上，一些編程者將傳統(tǒng)的 “蜘蛛”程序工作原理作了些改進。其設想是，既然所有網頁都可能有連向其他網站的鏈接，那么從跟蹤一個網站的鏈接開始，就有可能檢索整個互聯(lián)網。到 1993 年底，一些基于此原理的搜索引擎開始紛紛涌現(xiàn)，其中以 JumpStation、The Wor

15、ld Wide Web Worm（Goto 本科生畢業(yè)設計 5 的前身，也就是今天 Overture），和 Repository-Based Software Engineering (RBSE) spider 最負盛名。然而 JumpStation 和 WWW Worm 只是以搜索工具在數(shù)據庫中找到匹配信息的先后次序排列搜索結果，因此毫無信息關聯(lián)度可言。而 RBSE 是第一個在搜索結果排列中引入關鍵字串匹配程度概念的引擎。最早現(xiàn)代意義上的搜索引擎出現(xiàn)于 1994 年 7 月。當時 Michael Mauldin 將 John Leavitt 的蜘蛛程序接入到其索引程序中，創(chuàng)建了大家

16、現(xiàn)在熟知的 Lycos。同年 4 月，斯坦福（Stanford ）大學的兩名博士生， David Filo 和美籍華人楊致遠（Gerry Yang）共同創(chuàng)辦了超級目錄索引 Yahoo，并成功地使搜索引擎的概念深入人心。從此搜索引擎進入了高速發(fā)展時期。目前，互聯(lián)網上有名有姓的搜索引擎已達數(shù)百家，其檢索的信息量也與從前不可同日而語。比如 Yahoo 號稱收錄的網頁達到 200 億。隨著互聯(lián)網規(guī)模的急劇膨脹，一家搜索引擎光靠自己單打獨斗已無法適應目前的市場狀況，因此現(xiàn)在搜索引擎之間開始出現(xiàn)了分工協(xié)作，并有了專業(yè)的搜索引擎技術和搜索數(shù)據庫服務提供商。象國外的 Inktomi（已被 Yah

17、oo 收購），它本身并不是直接面向用戶的搜索引擎，但像包括 Overture（原 GoTo，已被 Yahoo 收購）、 LookSmart、 MSN、HotBot 等在內的其他搜索引擎提供全文網頁搜索服務。國內的百度也屬于這一類，搜狐和新浪用的就是它的技術。因此從這個意義上說，它們是搜索引擎的搜索引擎。第四節(jié) 搜索引擎現(xiàn)狀隨著網絡信息內容的爆炸式增長和形式的不斷翻新，搜索引擎越來越不能滿足網絡使用者的各種信息需求。從 1996 年起，搜索引擎技術開始注重網頁質量與相關性的結合，這主要是通過三種手段：是對網上的超鏈結構進行分析，如 INFOSEEK 和 GOOGLE；是對用

18、戶的點擊行為進行分析，如 DIRECTHIT(被 ASK JEEVES 收購)；是與網站目錄相結合。最新的趨勢則是搜索的個性化、本地化和垂直化。個性化：入門網站的個性化已經比較成熟了，但是搜索引擎的個性化并沒有得到解決，不同的人使用相同的檢索詞得到的結果是相同的。也就是說搜索引擎沒有考慮人的地域、性別、年齡等方面的差別。DIRECTHIT 等公司一年前開始了個性化方面的研發(fā)工作，但至今沒有推出任何產品。垂直化：垂直搜索引擎這種高度目標化、專業(yè)化的搜索引擎的優(yōu)勢在于:針對本科生畢業(yè)設計 6 性強，對特定范圍的網絡信息的覆蓋率相對較高，具有可靠的技術和信息資源保障，有明確的檢索目標

19、定位，有效地彌補了通用綜合性搜索引擎對專門領域及特定主題信息覆蓋率過低的問題。根據 CNNIC 的調查結果，2005 年，使用百度和 Google 的用戶達到總量的 90%;而 2006 年這一數(shù)值下降到 87.4%，這其中就有垂直搜索的分流作用。本地化：本地化是一個比個性化更明顯的趨勢。隨著互聯(lián)網在全球的迅速普及，綜合性的搜索引擎已經不能滿足很多非美國網民的信息需求。近來， YAHOO!、INKTOMI、LYCOS 等公司不斷推出各國、各地區(qū)的本地搜索網站，搜索的本地化已經是勢不可擋。第五節(jié) 搜索引擎展望一、技術展望各大公司都把下一代搜索引擎的查詢方式的創(chuàng)新性，作為自己競爭的

20、籌碼，以下是對下一代搜索引擎技術的一些構想。未來，搜索引擎技術將重點發(fā)展在以下幾個方面：（一）自然語言理解技術自然語言理解是計算機科學中的一個富有挑戰(zhàn)性的課題。從計算機科學特別是從人工智能的觀點看，自然語言理解的任務是建立一種計算機模型，這種計算機模型能夠給出像人那樣理解、分析并回答自然語言。以自然語言理解技術為基礎的新一代搜索引擎，我們稱之為智能搜索引擎。由于它將信息檢索從目前基于關鍵詞層面提高到基于知識(或概念)層面，對知識有一定的理解與處理能力，能夠實現(xiàn)分詞技術、同義詞技術、概念搜索、短語識別以及機器翻譯技術等。因而這種搜索引擎具有信息服務的智能化、人性化特征，允許網

21、民采用自然語言進行信息的檢索，為他們提供更方便、更確切的搜索服務。（二）P2P P2P 是 peer-to-peer 的縮寫，意為對等網絡。其宗旨在于加強網絡上人與人的交流、在文件交換、分布計算等方面大有前途。長久以來，人們習慣的互聯(lián)網是以服務器為中心，人們向服務器發(fā)送請求，然后瀏覽服務器回應的信息。而 P2P 所包含的技術就是使聯(lián)網電腦能夠進行數(shù)據交換，但數(shù)據是存儲在每臺電腦里，而不是存儲在既昂貴又容易受到攻擊的服務器里。網絡成員可以在網絡數(shù)據庫里自由搜索、更新、回答和傳送數(shù)據。所有人都共享了他們認為最有價值的東西，這將使互聯(lián)網上信息的價值得到極大的提升。本科生畢業(yè)設計 7

22、（三）移動搜索引擎隨著手機接入互聯(lián)網的能力越來越強，以及移動業(yè)務日益傾向于內容驅動，搜索引擎的移動化也成為不可避免的趨勢。許多運營商已經在其內容網站上使用當?shù)?搜索引擎來幫助消費者找到所需信息，一些主要的搜索引擎公司如 Google、百度、愛問等已著力于移動搜索，其搜索引擎的移動化版本已經問世并開始運營。（四）垂直搜索服務及本地化垂直搜索引擎的搜索器只搜索特定的主題信息，按預先己經定義好的專題有選擇地收集相關的網頁。這樣大大降低了收集信息的難度，提高了信息的質量。由于所收集的學科領域小，信息量相對較少，可以采用“ 專家分類標引” 的方法對收集到的信息進行組織整理，進一步提高信

23、息的質量，建立一個高質量的、專業(yè)信息收集全的數(shù)據庫。每一種行業(yè)都可以做一個垂直搜索。目前搜索領域才剛剛起步，尤其是垂直搜索，還有很大的空間。比如說家電、建材、家居、醫(yī)療健康等等方面，甚至還可以在更細的領域做更加深的搜索。美國去年第四季度出現(xiàn)了專門給老年人服務的搜索引擎。本地搜索前景也很好，面臨的挑戰(zhàn)就是把全中國所有的店家信息收集上來需要很多投入。賽迪顧問執(zhí)行總裁李峻預測，垂直搜索、本地搜索等未來搜索引擎市場仍將保持 30%左右的增長速度。一些垂直搜索將會成為值得深度挖掘的方向，如旅游搜索、求職搜索等行業(yè)細分的搜索引擎，而且搜索引擎技術和渠道的創(chuàng)新核心還在于商業(yè)模式的不斷完善。

24、（五）多媒體搜索引擎隨著寬帶技術的發(fā)展，未來的互聯(lián)網是多媒體數(shù)據的時代。開發(fā)出可查尋圖像、聲音、圖片和電影的搜索引擎是一個新的方向。目前瑞典一家公司已經研制推出被稱作“第五代搜索引擎 ”的動態(tài)的和有聲的多媒體搜索引擎。圖像、視頻將很快取代文本成為互聯(lián)網上主要的信息。二、市場展望 iResearch 預測到 2007 年中國搜索引擎市場規(guī)模將達到 56.2 億元人民幣，未來 3 年的年增長率平均保持在 55%以上 1。中國本土的搜索引擎：百度、中搜、搜狗、一搜等相繼推出后，都取得了不錯的反響，特別是百度在 2005 年 8 月 5 日正式在納斯達克上市，上市首日股票瘋狂上漲：最高

25、達 151 美元，把搜索引擎的市值推到了高潮。微軟對搜索引擎的研發(fā)也伴隨著大規(guī)模的招兵買馬，微軟亞洲研究院也成立了專門的搜索小組。李開復先生加盟 Google 后，讓很多人預測 Google 一定會吃掉中文搜索引擎這個巨大的市場。而李開復先生在閃電加盟后，在“開復學生網” 上發(fā)表了一篇題為“Google 和中國 -追隨我心的選擇”，Google 的搜索文化對技術人員本科生畢業(yè)設計 8 的吸引可見一斑，等等數(shù)字和事件表明，搜索引擎在互聯(lián)網上有著強勁的生命力和發(fā)展?jié)摿?，同時也是互聯(lián)網公司豐厚利潤的來源之一。圖 1-5-1 2002-2006 年中國搜索引擎市場規(guī)模及增長 2 2005

26、年 8 月，法國總統(tǒng)希拉克大張旗鼓地發(fā)布了“Quaero”計劃，它很快被顯現(xiàn)為一種歐洲的決心推出與 Google 搜索競爭的相同產品。這款名為“Quaero”的搜索引擎，不僅能搜索文本，而且還能搜索圖片和視頻。Quaero 的拉丁文語義是 “我搜索”，該項目獲得了 2.5 億歐元資助(3.3 億美元 )，法德兩國主要技術公司參加了開發(fā)。而在德國，一些德國企業(yè)將參加另外的德國版搜索引擎“Theseus”的開發(fā)，該引擎更加集中于文本分析。法德兩國開發(fā)商將在合作、競爭及互補的環(huán)境下實施歐洲新一代搜索引擎的開發(fā)計劃。和其他許多國家一樣，在日本提起搜索引擎，人們首先想到的是谷歌，此外還有

27、雅虎和微軟麾下的 MSN。根據今年 3 月的一項調查，在日本檢索服務利用率排名中居首位的是雅虎，其利用率達 64.5%，其次是谷歌和 MSN，日本開發(fā)的 GOO 雖然名列第四，但實際利用率只有 5.5%，與前三名的差距很明顯。中國百度也已經進入日本市場，欲與群雄共逐鹿。其實日本著手開發(fā)搜索引擎要早于美國，日本電信電話公司、日本電氣公司和東芝公司等都曾擁有過各自獨立的搜索引擎。直到 20 世紀 90 年代后期，這些日本國產搜索引擎還在相互競爭。但隨著美國谷歌的出現(xiàn)，互聯(lián)網信息檢索業(yè)界的格局在 2000 年前后發(fā)生了劇變。谷歌高精確度的檢索服務使日本眾多門戶網站形成了這樣的共識“ 搜

28、索引擎依靠谷歌就足夠了 ”，因此日本國產搜索引擎全線敗退。搜索引擎是遨游網絡世界的必備工具，而其中的基干技術掌握在外國企業(yè)手中。一些日本業(yè)界專家認為，長此以往日本互聯(lián)網搜索業(yè)務未來有可能被外國企業(yè)控制。本科生畢業(yè)設計 9 抱著同樣的危機感，日本政府把國產下一代搜索引擎項目提上了議事日程。經濟產業(yè)省 2005 年 12 月設立了企業(yè)、研究機構和政府部門共同參與的網絡搜索引擎研究小組，負責整理與搜索技術開發(fā)相關的資料，2006 年 7 月末由大學和 52 家企業(yè)參與的合作項目“ 信息大航海計劃 ”正式啟動，準備用 3 年時間開發(fā)出下一代互聯(lián)網搜索引擎，挑戰(zhàn)谷歌等搜索引擎的市場霸主地位

29、，并打算在 2007 年度預算中申請 50 億日元(約合 4300 萬美元)作為研發(fā)費用，爭取 5 年后使下一代搜索引擎進入實用階段。據日本媒體報道，日本下一代搜索引擎不僅能像現(xiàn)在一樣依靠關鍵詞從互聯(lián)網上的信息海洋中提取所需信息，運用現(xiàn)在逐漸普及的電子標簽，還可以及時掌握有關全球產品的信息，或者以從視頻資料中剪輯的錄音為基礎，檢索音頻資料。日本下一代搜索引擎的終端設備不僅有電腦，還可能是電視機、手機、汽車導航儀等。今后只要操縱遙控器就能通過新搜索引擎找到電視節(jié)目中出現(xiàn)過的人物或某個地區(qū) 的資料，查詢并購買電視中出現(xiàn)過的某款商品等。業(yè)內人士指出，雅虎、谷歌、MSN 每年分別投資數(shù)億

30、美元用于技術研發(fā)，這帶來問題是在目前體制下怎樣才能超越上述企業(yè)的技術水準。谷歌等搜索引擎霸主的戰(zhàn)略也包含將檢索對象從文本擴展到視頻和音頻資料，此外日本及歐洲大型企業(yè) 的不少資深技術人員常跳槽到谷歌和雅虎，這可能有助于谷歌等開發(fā)下一代搜索引擎終端設備。因此像法國的 “Quaero”計劃和日本的 “信息大航海計劃”等等的實施能否取得預期效果現(xiàn)在很難準確預料。但不可否認的是：搜索引擎市場將進入一個群雄逐鹿的瘋狂競爭時代。隨著搜索經濟的崛起，人們開始越加關注全球各大搜索引擎的性能、技術和日流量。作為企業(yè)，會根據搜索引擎的知名度以及日流量來選擇是否要投放廣告等。對于消費者而言，使用互聯(lián)網

31、搜索引擎是進入網絡世界的一個重要入口，這意味著巨大的商機。微軟將 2007 財政年度的研發(fā)開支預算調高至 75 億美元，較預期高出約 13 億美元，此舉顯示出微軟與 Google、雅虎在互聯(lián)網搜索市場上一決高下的決心。搜索引擎也將不再是技術，而是經濟。本科生畢業(yè)設計 10 第一章技術詮釋第一節(jié) HTTP 及 HTML 超文本傳輸協(xié)議（HTTP）是應用層協(xié)議，由于其簡捷、快速的方式，適用于分布式和合作式超媒體信息系統(tǒng)。自 1990 年起， HTTP 就已經被應用于 WWW 全球信息服務系統(tǒng)。客戶進程建立一條同服務器進程的 TCP 連接，然后發(fā)出請求并讀取服務器進程的應答。服務器進

32、程關閉連接表示本次響應結束。服務器進程返回的內容包含兩個部分，一個“應答頭” （response header），一個“ 應答體” （response body），后者通常是一個 HTML 文件，我們稱之為“網頁”。通常 HTTP 消息包括客戶機向服務器的請求消息和服務器向客戶機的響應消息。這兩種類型的消息由一個起始行，一個或者多個頭域，一個只是頭域結束的空行和可選的消息體組成。HTTP 的頭域包括通用頭，請求頭，響應頭和實體頭四個部分。每個頭域由一個域名，冒號（:）和域值三部分組成。域名是大小寫無關的，域值前可以添加任何數(shù)量的空格符，頭域可以被擴展為多行，在每行開始處，使用至

33、少一個空格或制表符。 HTTP 協(xié)議采用了請求/響應模型。客戶端向服務器發(fā)送一個請求，請求頭包含請求的方法、URI、協(xié)議版本、以及包含請求修飾符、客戶信息和內容的類似于 MIME 的消息結構。服務器以一個狀態(tài)行作為響應，相應的內容包括消息協(xié)議的版本，成功或者錯誤編碼加上包含服務器信息、實體元信息以及可能的實體內容。 Web 服務器的 HTTP 應答一般由以下幾項構成：一個狀態(tài)行，一個或多個應答頭，一個空行，內容文檔。設置 HTTP 應答頭往往和設置狀態(tài)行中的狀態(tài)代碼結合起來。典型的請求消息： GET http:/class/download.microtool.de:80/some

34、data.exe Host:download.microtool.de Accept:*/* Pragma:no-cache Cache-Control:no-cache Referer:http:/class/download.microtool.de/ User-Agent:Mozilla/4.04en(Win95;I;Nav) Range:bytes=554554- 典型的響應消息： HTTP/1.0200OK 本科生畢業(yè)設計 11 Date:Mon,31Dec200104:25:57GMT Server:Apache/1.3.14(Unix) Content-type:text/htm

35、l Last-modified:Tue,17Apr200106:46:28GMT Etag:a030f020ac7c01:1e9f Content-length:39725426 Content-range:bytes554554-40279979/40279980 一個完整的 HTML 文檔以開始，以結束。大部分的 HTML 命令都像這樣成對出現(xiàn)。HTML 文檔含有以開始、以結束的首部和以開始、以結束的主體部分。標題通常由客戶程序顯示在窗口的頂部。第二節(jié) 網絡蜘蛛網絡蜘蛛即 Web Spider，是一個很形象的名字。把互聯(lián)網比喻成一個蜘蛛網，那么 Spider 就是在網上爬來爬

36、去的蜘蛛。網絡蜘蛛是通過網頁的鏈接地址來尋找網頁，從網站某一個頁面（通常是首頁）開始，讀取網頁的內容，找到在網頁中的其它鏈接地址，然后通過這些鏈接地址尋找下一個網頁，這樣一直循環(huán)下去，直到把這個網站所有的網頁都抓取完為止。如果把整個互聯(lián)網當成一個網站，那么網絡蜘蛛就可以用這個原理把互聯(lián)網上所有的網頁都抓取下來。首先蜘蛛讀取抓取站點的 URL 列表，取出一個站點 URL，將其放入未訪問的 URL 列表（UVURL 列表）中，如果 UVURL 不為空剛從中取出一個 URL 判斷是否已經訪問過，若沒有訪問過則讀取此網頁，并進行超鏈分析及內容分析，并將些頁存入文檔數(shù)據庫，并將些 URL

37、放入已訪問 URL 列表（VURL 列表），直到 UVRL 為空為止，此時再抓取其他站點，依次循環(huán)直到所有的站點 URL 列表都抓取完為止。對于搜索引擎來說，要抓取互聯(lián)網上所有的網頁幾乎是不可能的，從目前公布的數(shù)據來看，容量最大的搜索引擎也不過是抓取了整個網頁數(shù)量的百分之四十左右。這其中的原因一方面是抓取技術的瓶頸，無法遍歷所有的網頁，有許多網頁無法從其它網頁的鏈接中找到；另一個原因是存儲技術和處理技術的問題，如果按照每個頁面的平均大小為 20K 計算（包含圖片），100 億網頁的容量是 1002000G 字節(jié)，即使能夠存儲，下載也存在問題（按照一臺機器每秒下載 20K 計算

38、，需要 340 臺機器不停的下載一年時間，才能把所有網頁下載完畢）。同時，由于數(shù)據量太大，在提供搜索時也會有效率方面的影響。因此，許多搜索引擎的網絡蜘蛛只是抓取那本科生畢業(yè)設計 12 些重要的網頁，而在抓取的時候評價重要性主要的依據是某個網頁的鏈接深度。在抓取網頁的時候，網絡蜘蛛一般有兩種策略：廣度優(yōu)先和深度優(yōu)先（如下圖所示）。廣度優(yōu)先是指網絡蜘蛛會先抓取起始網頁中鏈接的所有網頁，然后再選擇其中的一個鏈接網頁，繼續(xù)抓取在此網頁中鏈接的所有網頁。這是最常用的方式，因為這個方法可以讓網絡蜘蛛并行處理，提高其抓取速度。深度優(yōu)先是指網絡蜘蛛會從起始頁開始，一個鏈接一個鏈接跟蹤下去，

39、處理完這條線路之后再轉入下一個起始頁，繼續(xù)跟蹤鏈接。這個方法有個優(yōu)點是網絡蜘蛛在設計的時候比較容易。網絡蜘蛛在訪問網站網頁的時候，經常會遇到加密數(shù)據和網頁權限的問題，有些網頁是需要會員權限才能訪問。當然，網站的所有者可以通過協(xié)議讓網絡蜘蛛不去抓取，但對于一些出售報告的網站，他們希望搜索引擎能搜索到他們的報告，但又不能完全免費的讓搜索者查看，這樣就需要給網絡蜘蛛提供相應的用戶名和密碼。網絡蜘蛛可以通過所給的權限對這些網頁進行網頁抓取，從而提供搜索。而當搜索者點擊查看該網頁的時候，同樣需要搜索者提供相應的權限驗證。網絡蜘蛛需要抓取網頁，不同于一般的訪問，如果控制不好，則會引起網站服

40、務器負擔過重。有多種方法可以讓網站和網絡蜘蛛進行交流。一方面讓網站管理員了解網絡蜘蛛都來自哪兒，做了些什么，另一方面也告訴網絡蜘蛛哪些網頁不應該抓取，哪些網頁應該更新。每個網絡蜘蛛都有自己的名字，在抓取網頁的時候，都會向網站標明自己的身份。網絡蜘蛛在抓取網頁的時候會發(fā)送一個請求，這個請求中就有一個字段為 Useragent，用于標識此網絡蜘蛛的身份。例如 Google 網絡蜘蛛的標識為 GoogleBot，Baidu 網絡蜘蛛的標識為 BaiDuSpider，Yahoo 網絡蜘蛛的標識為 Inktomi Slurp。如果在網站上有訪問日志記錄，網站管理員就能知道，哪些搜索引擎的網絡

41、蜘蛛過來過，什么時候過來的，以及讀了多少數(shù)據等等。如果網站管理員發(fā)現(xiàn)某個蜘蛛有問題，就通過其標識來和其所有者聯(lián)系。網絡蜘蛛進入一個網站，一般會訪問一個特殊的文本文件 Robots.txt，這個文件一般放在網站服務器的根目錄下，如： http:/ 。網站管理員可以通過 robots.txt 來定義哪些目錄網絡蜘蛛不能訪問，或者哪些目錄對于某些特定的網絡蜘蛛不能訪問。例如有些網站的可執(zhí)行文件目錄和臨時文件目錄不希望被搜索引擎搜索到，那么網站管理員就可以把這些目錄定義為拒絕訪問目錄。 Robots.txt 語法很簡單，例如如果對目錄沒有任何限制，可以用以下兩行來描述： User-agen

42、t: * Disallow: 當然，Robots.txt 只是一個協(xié)議，如果網絡蜘蛛的設計者不遵循這個協(xié)議，網站管理員也無法阻止網絡蜘蛛對于某些頁面的訪問，但一般的網絡蜘蛛都會遵循這本科生畢業(yè)設計 13 些協(xié)議，而且網站管理員還可以通過其它方式來拒絕網絡蜘蛛對某些網頁的抓取。第三節(jié) 網頁噪聲當 Web 中獲取所需信息的同時，會常?？匆姶罅亢退P心內容無關的導航條、廣告信息、版權信息以及調查問卷等，稱之為“噪聲 ”內容。在某些情況下，可能從這些噪音內容中得到一些意外的驚喜；但多數(shù)時候，因這些噪聲消耗掉了很多的注意力。同時，噪聲內容通常伴隨著相關的超鏈。因此，噪聲會導致相互鏈接的網頁

43、常常并無內容相關性。這樣，網頁內容的混亂不僅給基于網頁內容的研究工作帶來困難，也給基于網頁超鏈指向的研究工作帶來困難。另外，隨著 Web 各種研究與應用的深入發(fā)展，僅僅是原始網頁內容已經不能滿足需求，還要求能夠提供便于計算機處理的元數(shù)據信息，例如關鍵詞、摘要、網頁內容類別等。然而，現(xiàn)在大部分網頁仍然是普通 HTML 網頁，并不包含必要的元數(shù)據。因此，本節(jié)討論一個網頁表示模型建立和實現(xiàn)的方法，這一方面使我們能夠自動從網頁中提取相關的元數(shù)據，另一方面也去除了和網頁主題內容無關的噪音內容，進而在原始 Web 上搭建一個噪聲小、描述清晰、更易于處理和利用的網頁信息平臺。在網頁分類領域

44、，由于噪聲內容與主題無關，訓練集中的噪聲內容會導致各個類別的特征不夠明顯，而待分類網頁中的噪聲內容則會導致該網頁類別不明確，因而影響了網頁自動分類的效果。因此提出了通過去掉網頁中的噪聲內容來提高網頁分類質量的方法。在網頁信息提取領域，自動識別模式的方法必須要從整個網頁中提取模式，而不是只針對主題內容提取。因此，在凈化后的網頁上作信息提取不僅可以排除噪聲信息對信息提取的干擾，提高信息提取的準確性，而且可以使得網頁中的結構簡單化，提高信息提取的效率。上述分析我們看到，網頁噪聲對基于網頁的研究工作的影響是普遍而嚴重的，雖然各個領域采用的方法各不相同，但處理的目的都是為了去除網頁中的

45、噪聲內容，得到真正的主題內容。第四節(jié) 頁面分析由于WWW網上的信息主要是以HTML文檔的形式存放的，因此要根據HTML文檔的特點，對其進行掃描分析，以提取信息。 HTML文檔有五個定義好的組件: 本科生畢業(yè)設計 14 、文本、注釋、簡單標簽、起始標簽、結束標簽文本就是在HTML頁面上看到的詞句的內容。除了腳本代碼，HTML文檔中的所有數(shù)據，只要不是標簽的組成部分，都被認為是文本。文本是格式化的，并且受包圍它的標簽的控制。就像前面所提到的那樣，如果數(shù)據位于文本之外，將不會被看作文本。但是程序在理解HTML頁面時，腳本代碼具有與文本相似的特性。腳本代碼包含在標簽和之間。確

46、保搜索引擎程序不會將腳本代碼與文本數(shù) 據混淆是很重要的。文本實際上就是顯示在瀏覽器中的文字，其顯示方式由包圍它的標簽來網以決定。根據本課題的要求，文本無疑是我們所需要的重要的信息源之一。頁相關的主題是通過文本來表達的，所以文本信息必須被完全提取出來，便進一步處理。注釋表示HTML文檔中不會顯示給用戶的那部分內容。他們通常是HTML程序員所做的說明，這些說明通常是表達編程思路的，所以這類數(shù)據對本課題來說是毫無用處。因此在解析HTML文檔時，將注釋忽略。簡單標簽是由單個表示的HTML標簽。最普遍的簡單標簽是行中斷符()標簽和圖像標簽( )，它們都沒有相應的結束標簽。簡單標簽主要是用

47、來控制顯示格式或使用圖像美化界面用的。大多數(shù)HTML標簽都是由開始標簽和結束標簽組成的。開始標簽非常像簡單標簽。開始標簽與簡單標簽直接的唯一區(qū)別是:開始標簽有一個相應的結束標簽，該結束標簽出現(xiàn)在后面。開始標簽和結束標簽用來控制其所包含的HTML代碼的功能。在所有的開始和結束標簽中，標簽是最有用的。標簽在HTML中叫做鏈接標簽，它決定了當在瀏覽器中點擊該標簽的文本時所要打開的網頁的 URL。下面是一個例子: Click Here 從上面的例子中我們可以看出，標識它所鏈接的URL是該標簽的href屬性決定， href的值就代表了一個URL. Href屬性值有兩種表達方式:一種是絕對路徑，

48、也就是說它的值是一個完整的URL，程序可以直接使用它;另一種相對路徑，它的表示方式只有目錄或文件名，表示相對于木網頁的所在目錄的位置。使用相對路徑的目的是提高網頁的可移植性。標簽中的鏈接并不是唯一將用戶帶到其它頁面的基礎結構標簽。Web站點還能建立圖像映像，當用戶點擊它們時，也能將用戶帶到相應的新頁面。圖像映像由客戶端和服務器圖像映像組成，但是服務器圖像映像幾乎本科生畢業(yè)設計 15 完全被客戶端所取代。這是因為服務器端的圖像映像，需要一個服務器插件來注冊用戶點擊的圖像區(qū)域。而這在客戶端圖像映像中是完全包含在HTML文件中 3。客戶端圖像映像不需要服務器端的腳本表示來解釋可多處點

49、擊的圖像的 hot”區(qū)。實際上，客戶端圖像映像比服務器端圖像映像更為有效，而且還允許訪問者在Web瀏覽器的狀態(tài)區(qū)中看到映像區(qū)域真正關聯(lián)的URL。該狀態(tài)文本還會在用戶鼠標在圖像映像區(qū)域移動的時候出現(xiàn)?？蛻舳擞诚駡D像將包含一個如下所示的映像。該映像將每個圖像區(qū)域鏈接到一個URL: 在該HTML文件的后面，該映像以類似于下面的方式使用: 通過以上分析圖像映像當中的超級鏈接可以由圖像的簡單標簽中的href 屬性得到。除了以上兩種情況外，框架中的src屬性也可以設置超級鏈接?？蚣軜?簽屬于開始標簽和結束標簽，下面是一個例子。在上面的例子中可以看出，該標簽中有一個名為src的屬性，代表了該框架中

50、應顯示的網頁鏈接，在網頁中搜索鏈接時，不應遺漏此類鏈接。需要說明的是，窗體、腳本語言代碼和網頁中嵌入式對象也可以提供鏈接功能。但是，它們主要是提供一些特殊領域的特殊功能的應用。窗體主要是用來收集用戶信息，用戶信息是瀏覽網頁的人根據自己的實際情況填寫，例如，用戶名和密碼等。在這些用戶信息不全的情況下，返回的網頁通常顯示的是錯誤的信息的頁面。這對本文所研究的垂直搜索引擎來說是毫無意義的，因此，我們對表單不作處理。至于腳本語言代碼，通常是網頁編寫者按照自己的意愿和邏輯，用腳本語言寫的一段代碼，它也可以返回一個網頁。然而不幸的是，除非搜索引擎能正確理解腳本代碼，才一能得到正確的返回頁面

51、的URL。否則，應該回避。對于網頁中的嵌入式對象，比如ActiveX控件， Java Applet等，他們都是已編譯好的程序。要對它們中的鏈接進行識別的話，必須全面深入其二進制代碼內部結構，難度極大。本科生畢業(yè)設計 16 第五節(jié) 中文分詞眾所周知，英文是以詞為單位的，詞和詞之間是靠空格隔開，而中文是以字為單位，句子中所有的字連起來才能描述一個意思。例如，英文句子 I am a student，用中文則為：“ 我是一個學生 ”。計算機可以很簡單通過空格知道 student 是一個單詞，但是不能很容易明白“學” 、 “生”兩個字合起來才表示一個詞。把中文的漢字序列切分成有意義的詞，就

52、是中文分詞，有些人也稱為切詞。我是一個學生，分詞的結果是：我/是/一個/學生。中文分詞是其他中文信息處理的基礎，搜索引擎只是中文分詞的一個應用。其他的比如機器翻譯（MT）、語音合成、自動分類、自動摘要、自動校對等等，都需要用到分詞。一、分詞方法概述現(xiàn)有的分詞算法可分為三大類：基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法。（一）基于字符串匹配的分詞方法這種方法又叫做機械分詞方法，它是按照一定的策略將待分析的漢字串與一個 “充分大的”機器詞典中的詞條進行配，若在詞典中找到某個字符串，則匹配成功（識別出一個詞）。按照掃描方向的不同，串匹配分詞方法可以分為正

53、向匹配和逆向匹配；按照不同長度優(yōu)先匹配的情況，可以分為最大（最長）匹配和最?。ㄗ疃蹋?匹配；按照是否與詞性標注過程相結合，又可以分為單純分詞方法和分詞與標注相結合的一體化方法。常用的幾種機械分詞方法如下：正向最大匹配法（由左到右的方向）；逆向最大匹配法（由右到左的方向）；最少切分（使每一句中切出的詞數(shù)最?。?。還可以將上述各種方法相互組合，例如，可以將正向最大匹配方法和逆向最大匹配方法結合起來構成雙向匹配法。由于漢語單字成詞的特點，正向最小匹配和逆向最小匹配一般很少使用。一般說來，逆向匹配的切分精度略高于正向匹配，遇到的歧義現(xiàn)象也較少。統(tǒng)計結果表明，單純使用正向最大匹配的

54、錯誤率為 1/169，單純使用逆向最大匹配的錯誤率為 1/2454。但這種精度還遠遠不能滿足實際的需要。實際使用的分詞系統(tǒng)，都是把機械分詞作為一種初分手段，還需通過利用各種其它的語言信息來進一步提高切分的準確率。一種方法是改進掃描方式，稱為特征掃描或標志切分，優(yōu)先在待分析字符串中本科生畢業(yè)設計 17 識別和切分出一些帶有明顯特征的詞，以這些詞作為斷點，可將原字符串分為較小的串再來進機械分詞，從而減少匹配的錯誤率。另一種方法是將分詞和詞類標注結合起來，利用豐富的詞類信息對分詞決策提供幫助，并且在標注過程中又反過來對分詞結果進行檢驗、調整，從而極大地提高切分的準確率。對于機械分詞

55、方法，可以建立一個一般的模型，在這方面有專業(yè)的學術論文，這里不做詳細論述。（二）基于理解的分詞方法這種分詞方法是通過讓計算機模擬人對句子的理解，達到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析，利用句法信息和語義信息來處理歧義現(xiàn)象。它通常包括三個部分：分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。在總控部分的協(xié)調下，分詞子系統(tǒng)可以獲得有關詞、句子等的句法和語義信息來對分詞歧義進行判斷，即它模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和信息。由于漢語語言知識的籠統(tǒng)、復雜性，難以將各種語言信息組織成機器可直接讀取的形式，因此目前基于理解的分詞系統(tǒng)還處在試驗階

56、段。（三）基于統(tǒng)計的分詞方法從形式上看，詞是穩(wěn)定的字的組合，因此在上下文中，相鄰的字同時出現(xiàn)的次數(shù)越多，就越有可能構成一個詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度?？梢詫φZ料中相鄰共現(xiàn)的各個字的組合的頻度進行統(tǒng)計，計算它們的互現(xiàn)信息。定義兩個字的互現(xiàn)信息，計算兩個漢字 X、Y 的相鄰共現(xiàn)概率。互現(xiàn)信息體現(xiàn)了漢字之間結合關系的緊密程度。當緊密程度高于某一個閾值時，便可認為此字組可能構成了一個詞。這種方法只需對語料中的字組頻度進行統(tǒng)計，不需要切分詞典，因而又叫做無詞典分詞法或統(tǒng)計取詞方法。但這種方法也有一定的局限性，會經常抽出一些共現(xiàn)頻度高、但并不是詞的常用字

57、組，例如“這一” 、 “之一”、 “有的”、 “我的 ”、 “許多的” 等，并且對常用詞的識別精度差，時空開銷大。實際應用的統(tǒng)計分詞系統(tǒng)都要使用一部基本的分詞詞典（常用詞詞典）進行串匹配分詞，同時使用統(tǒng)計方法識別一些新的詞，即將串頻統(tǒng)計和串匹配結合起來，既發(fā)揮匹配分詞切分速度快、效率高的特點，又利用了無詞典分詞結合上下文識別生詞、自動消除歧義的優(yōu)點。到底哪種分詞算法的準確度更高，目前并無定論。對于任何一個成熟的分詞系統(tǒng)來說，不可能單獨依靠某一種算法來實現(xiàn)，都需要綜合不同的算法。筆者了解，海量科技的分詞算法就采用“復方分詞法” ，所謂復方，相當于用中藥中的復方概念，即用不同的藥才

58、綜合起來去醫(yī)治疾病，同樣，對于中文詞的識別，需要多種算法來處理不同的問題。本科生畢業(yè)設計 18 二、分詞中的難題有了成熟的分詞算法，是否就能容易的解決中文分詞的問題呢？事實遠非如此。中文是一種十分復雜的語言，讓計算機理解中文語言更是困難。在中文分詞過程中，有兩大難題一直沒有完全突破。（一）歧義識別歧義是指同樣的一句話，可能有兩種或者更多的切分方法。例如：表面的，因為“表面”和“面的 ”都是詞，那么這個短語就可以分成 “表面的” 和“表面的”。這種稱為交叉歧義。像這種交叉歧義十分常見，前面舉的“和服” 的例子，其實就是因為交叉歧義引起的錯誤。 “化妝和服裝 ”可以分成“化

59、妝/ 和/ 服裝”或者“ 化妝/ 和服/裝”。由于沒有人的知識去理解，計算機很難知道到底哪個方案正確。交叉歧義相對組合歧義來說是還算比較容易處理，組合歧義就必需根據整個句子來判斷了。例如，在句子“這個門把手壞了” 中， “把手”是個詞，但在句子“ 請把手拿開”中， “把手” 就不是一個詞；在句子“將軍任命了一名中將 ”中， “中將” 是個詞，但在句子“產量三年中將增長兩倍” 中， “中將”就不再是詞。這些詞計算機又如何去識別？如果交叉歧義和組合歧義計算機都能解決的話，在歧義中還有一個難題，是真歧義。真歧義意思是給出一句話，由人去判斷也不知道哪個應該是詞，哪個應該不是詞。例如：

60、“ 乒乓球拍賣完了 ”，可以切分成“乒乓/ 球拍/ 賣/完/ 了” 、也可切分成 “乒乓球/拍賣 /完/了” ，如果沒有上下文其他的句子，恐怕誰也不知道“ 拍賣”在這里算不算一個詞。（二）新詞識別新詞，專業(yè)術語稱為未登錄詞。也就是那些在字典中都沒有收錄過，但又確實能稱為詞的那些詞。最典型的是人名，人可以很容易理解句子“王軍虎去廣州了” 中， “王軍虎”是個詞，因為是一個人的名字，但要是讓計算機去識別就困難了。如果把 “王軍虎”做為一個詞收錄到字典中去，全世界有那么多名字，而且每時每刻都有新增的人名，收錄這些人名本身就是一項巨大的工程。即使這項工作可以完成，還是會存在問題，例如：在句

61、子“王軍虎頭虎腦的” 中， “王軍虎”還能不能算詞？新詞中除了人名以外，還有機構名、地名、產品名、商標名、簡稱、省略語等都是很難處理的問題，而且這些又正好是人們經常使用的詞，因此對于搜索引擎來說，分詞系統(tǒng)中的新詞識別十分重要。目前新詞識別準確率已經成為評價一個分詞系統(tǒng)好壞的重要標志之一。本科生畢業(yè)設計 19 第六節(jié) 布爾代數(shù) 布爾（George Boole) 是十九世紀英國一位小學數(shù)學老師。他生前沒有人認為他是數(shù)學家。布爾在工作之余，喜歡閱讀數(shù)學論著、思考數(shù)學問題。1854 年思維規(guī)律（An Investigation of the Laws of Thought, on whi

62、ch are founded the Mathematical Theories of Logic and Probabilities）一書，第一次向人們展示了如何用數(shù)學的方法解決邏輯問題 5。布爾代數(shù)運算的元素只有兩個 1 （TRUE ，真) 和 0（FALSE，假)?；镜?運算只有“與 ”（AND) 、 “或” (OR) 和“非”（NOT) 三種（后來發(fā)現(xiàn)，這三種運算都可以轉換成“ 與”“非” ANDNOT 兩種運算）。事實上在布爾代數(shù)提出后 80 多年里，它確實沒有什么像樣的應用，直到 1938 年香農在他的碩士論文中指出用布爾代數(shù)來實現(xiàn)開關電路，才使得布爾代數(shù) 成為數(shù)字

63、電路的基礎。所有的數(shù)學和邏輯運算，加、減、乘、除、乘方、開方等等，全部能轉換成二值的布爾運算。二進制和布爾運算是世界上最簡單的計數(shù)方法和運算。無論哪一個搜索引擎宣稱自己如何聰明、多么智能化，其實只要是追求效率，從根本上講都不可能離開布爾運算。ToKing 搜索引擎的倒排索引文件的實際方法將主要采用布爾代數(shù)。第七節(jié) CGI CGI 代表 Common Gateway Interface(通用網關界面），它使在網絡服務器下運行外部分應用程序（或網關）成為可能。CGI-BIN 目錄是存放 CGI 腳本的地方。這些腳本使 WWW 服務器和瀏覽器能運行外部程序，而無需啟動另一個原因程序。

64、它是運行在 Web 服務器上的一個程序，并由來自于瀏覽者的輸人觸發(fā)。CGI 是在 HTTP 服務器下運行外部程序（或網關）的一個接口，它能讓網絡用戶訪問遠程系統(tǒng)上的使用類型程序，就好像他們在實際使用那些遠程計算機一樣。 CGI 能夠讓瀏覽者與服務器進行交互，如果你曾經遇到過在網絡上填表或者進行搜索，就很有可能就是用的 CGI。盡管 CGI 易于使用，但是當大批人同時使用一個 CGI 應用程序是會反應較慢，網絡服務器速度也會受到很大影響。CGI 應用程序的優(yōu)點是可以獨立運行。 CGI 應用程序可以由大多數(shù)的編程語言編寫，如 Perl（Practical Extraction and

65、 Report Language)、CC+、Java 和 Visual Basic 等。不過對于那些沒有太多編程經驗的網頁制作人來說，實在是一個不小的難題。本科生畢業(yè)設計 20 CGI 應用程序的工作原理是這樣的： .瀏覽器通過 HTML 表單或超鏈接請求指上一個 CGI 應用程序的 URL。 .服務器收發(fā)到請求。 .服務器執(zhí)行指定所 CGI 應用程序。 .CGI 應用程序執(zhí)行所需要的操作，通常是基于瀏覽者輸人的內容。 .CGI 應用程序把結果格式化為網絡服務器和瀏覽器能夠理解的文檔（通常是 HTML 網頁）。 .網絡服務器把結果返回到瀏覽器中。自 CGI 產生以來，C 語言以其高效

66、性、靈活性和通用性一直是開發(fā)交互式 WEB 應用的最有吸引力的選擇。但近年來，能直接內嵌于 HTML 文檔中間的各種腳本工具，以其簡便性易用性使一部分用戶開始放棄了直接用 C 來開發(fā) CGI 腳本。但還有兩類用戶沒有放棄用 C 來開發(fā)它們的應用，一是對性能追求較高的高端開發(fā)者，二是嵌入式設備的開者。前者選擇 C 語言來開發(fā)它們的 WEB 應用，是因為 C 高效性、靈活性和通用性是各種腳本工具無法取代的。后者選擇 C 語言，是因嵌入式設備的特點（內存、CPU 等資源有限等，不可在設備上運行如 ASP，PHP，PERL 等的腳本的運行環(huán)境）決定的（另外，目前嵌入式設備主要以 C 語言開發(fā)為主）。第八節(jié) SOCKECT 網絡編程所謂 socket 通常也稱作套接字，用于描述 IP 地址和端口，是一個通信鏈的句柄。應用程序通常通過套接字向網絡發(fā)出請求或者應答網絡請求。網頁抓取部分就是采用的這種技術。本科生畢業(yè)設計 21 第二章 TOKING 海量網頁搜索系統(tǒng)體系結構及實現(xiàn) 第一節(jié) 結構設計搜索引擎的最基本的功能就是在一個可以接受的時間內返回一個和用戶查詢匹配的網頁

展開閱讀全文

溫馨提示:
1: 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 裝配圖網僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服 - 聯(lián)系我們

備案號:蜀ICP備2024067431號-1 川公網安備51140202000466號

本站為文檔C2C交易模式，即用戶上傳的文檔直接被用戶下載，本站只是中間服務平臺，本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對上載內容本身不做任何修改或編輯。若文檔所含內容侵犯了您的版權或隱私，請立即通知裝配圖網，我們立即給予刪除！

畢業(yè)設計論文搜索引擎

最新文檔

相關資源

相關搜索

畢業(yè)設計論文 搜索引擎

最新文檔

相關資源

相關搜索

畢業(yè)設計論文搜索引擎