WIKI使用導(dǎo)航
站長百科導(dǎo)航
站長專題
- 網(wǎng)站推廣
- 網(wǎng)站程序
- 網(wǎng)站賺錢
- 虛擬主機(jī)
- cPanel
- 網(wǎng)址導(dǎo)航專題
- 云計(jì)算
- 微博營銷
- 虛擬主機(jī)管理系統(tǒng)
- 開放平臺(tái)
- WIKI程序與應(yīng)用
- 美國十大主機(jī)
搜索引擎
搜索引擎:(Search Engine)指根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序搜集互聯(lián)網(wǎng)上的信息,在對(duì)信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù)的系統(tǒng)?;ヂ?lián)網(wǎng)象汪洋上的一個(gè)個(gè)小島,網(wǎng)頁鏈接是這些小島之間縱橫交錯(cuò)的橋梁,而搜索引擎,則為用戶繪制一幅一目了然的信息地圖,供用戶隨時(shí)查閱。
搜索引擎表現(xiàn)形式[ ]
從使用者的角度看,目前一般都是搜索引擎提供一個(gè)包含搜索框的頁面,在搜索框輸入詞語,通過瀏覽器提交給搜索引擎后,搜索引擎就會(huì)返回跟用戶輸入的內(nèi)容相關(guān)的信息列表。
搜索引擎工作過程[ ]
大致有以下幾個(gè)過程:
1、抓取網(wǎng)頁(搜索信息):此過程基本都是自動(dòng)完成的。每個(gè)獨(dú)立的搜索引擎都有自己的網(wǎng)頁抓取程序(又叫網(wǎng)絡(luò)蜘蛛或蜘蛛)。網(wǎng)絡(luò)蜘蛛會(huì)順著網(wǎng)頁中的鏈接,連續(xù)地抓取網(wǎng)頁。被抓取的網(wǎng)頁被稱之為網(wǎng)頁快照。由于互聯(lián)網(wǎng)中超鏈接的應(yīng)用很普遍,理論上,從一定范圍的網(wǎng)頁出發(fā),就能搜集到絕大多數(shù)的網(wǎng)頁。所以目前絕大多數(shù)的網(wǎng)站都會(huì)制作一個(gè)專門的頁面來詳細(xì)的介紹站點(diǎn)的版塊及結(jié)構(gòu)并附上鏈接以更好的讓搜索引擎順利的抓取站點(diǎn)的信息,這樣的頁面通常稱之為網(wǎng)站地圖。
2、處理網(wǎng)頁(建立索引):搜索引擎抓到網(wǎng)頁后,還要做大量的預(yù)處理工作,才能提供檢索服務(wù)。其中,最重要的就是提取關(guān)鍵詞,建立索引文件。其他還包括去除重復(fù)網(wǎng)頁、分析超鏈接、計(jì)算網(wǎng)頁的重要度等一系列用于評(píng)價(jià)網(wǎng)站的指標(biāo)(PageRank、Alexa排名、收錄數(shù)、鏈接數(shù)等)。
3、提供檢索服務(wù)(用戶查詢):用戶輸入關(guān)鍵詞進(jìn)行檢索,搜索引擎從索引數(shù)據(jù)庫中找到匹配該關(guān)鍵詞的網(wǎng)頁;目前,搜索引擎返回主要是以網(wǎng)頁鏈接的形式提供,通過這些鏈接,用戶便能到達(dá)含有自己所需資料的網(wǎng)頁。 為了用戶便于判斷,除了網(wǎng)頁標(biāo)題和URL外,還會(huì)提供一段來自網(wǎng)頁的摘要以及其他信息以幫助用戶判斷此網(wǎng)頁是否含有自己需要的內(nèi)容。
搜索引擎的分類[ ]
全文索引
全文搜索引擎是名副其實(shí)的搜索引擎,國外代表有Google,國內(nèi)則有著名的百度搜索。它們從互聯(lián)網(wǎng)提取各個(gè)網(wǎng)站的信息(以網(wǎng)頁文字為主),建立起數(shù)據(jù)庫,并能檢索與用戶查詢條件相匹配的記錄,按一定的排列順序返回結(jié)果。
根據(jù)搜索結(jié)果來源的不同,全文搜索引擎可分為兩類,一類擁有自己的檢索程序(Indexer),俗稱“蜘蛛”(Spider)程序或“機(jī)器人”(Robot)程序,能自建網(wǎng)頁數(shù)據(jù)庫,搜索結(jié)果直接從自身的數(shù)據(jù)庫中調(diào)用,上面提到的Google和百度就屬于此類;另一類則是租用其他搜索引擎的數(shù)據(jù)庫,并按自定的格式排列搜索結(jié)果,如Lycos搜索引擎。
目錄索引
目錄索引雖然有搜索功能,但嚴(yán)格意義上不能稱為真正的搜索引擎,只是按目錄分類的網(wǎng)站鏈接列表而已。用戶完全可以按照分類目錄找到所需要的信息,不依靠關(guān)鍵詞(Keywords)進(jìn)行查詢。目錄索引中最具代表性的莫過于大名鼎鼎的Yahoo、新浪分類目錄搜索。
元搜索引擎
元搜索引擎(META Search Engine)接受用戶查詢請(qǐng)求后,同時(shí)在多個(gè)搜索引擎上搜索,并將結(jié)果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、 Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索結(jié)果排列方面,有的直接按來源排列搜索結(jié)果,如Dogpile;有的則按自定的規(guī)則將結(jié)果重新排列組合,如Vivisimo。
其他非主流搜索引擎形式:
集合式搜索引擎:該搜索引擎類似元搜索引擎,區(qū)別在于它并非同時(shí)調(diào)用多個(gè)搜索引擎進(jìn)行搜索,而是由用戶從提供的若干搜索引擎中選擇,如HotBot在2002年底推出的搜索引擎。
門戶搜索引擎:AOL Search、MSN Search等雖然提供搜索服務(wù),但自身既沒有分類目錄也沒有網(wǎng)頁數(shù)據(jù)庫,其搜索結(jié)果完全來自其他搜索引擎。
免費(fèi)鏈接列表(Free For All Links簡稱FFA):一般只簡單地滾動(dòng)鏈接條目,少部分有簡單的分類目錄,不過規(guī)模要比Yahoo!等目錄索引小很多。
搜索引擎的組成[ ]
搜索引擎一般由搜索器、索引器、檢索器和用戶接口四個(gè)部分組成:
搜索器:其功能是在互聯(lián)網(wǎng)中漫游,發(fā)現(xiàn)和搜集信息;
索引器:其功能是理解搜索器所搜索到的信息,從中抽取出索引項(xiàng),用于表示文檔以及生成文檔庫的索引表;
檢索器:其功能是根據(jù)用戶的查詢?cè)谒饕龓熘锌焖贆z索文檔,進(jìn)行相關(guān)度評(píng)價(jià),對(duì)將要輸出的結(jié)果排序,并能按用戶的查詢需求合理反饋信息;
用戶接口:其作用是接納用戶查詢、顯示查詢結(jié)果、提供個(gè)性化查詢項(xiàng)。
搜索引擎發(fā)展歷程[ ]
- 1990年,加拿大麥吉爾大學(xué)(University of McGill)計(jì)算機(jī)學(xué)院的師生開發(fā)出Archie。當(dāng)時(shí),萬維網(wǎng)(World Wide Web)還沒有出現(xiàn),人們通過FTP來共享交流資源。Archie能定期搜集并分析FTP服務(wù)器上的文件名信息,提供查找分別在各個(gè)FTP主機(jī)中的文件。用戶必須輸入精確的文件名進(jìn)行搜索,Archie告訴用戶哪個(gè)FTP服務(wù)器能下載該文件。雖然Archie搜集的信息資源不是網(wǎng)頁(HTML文件),但和搜索引擎的基本工作方式是一樣的:自動(dòng)搜集信息資源、建立索引、提供檢索服務(wù)。所以,Archie被公認(rèn)為現(xiàn)代搜索引擎的鼻祖。
- 世界上第一個(gè)Spider程序,是MIT Matthew Gray的World wide Web Wanderer,用于追蹤互聯(lián)網(wǎng)發(fā)展規(guī)模。剛開始它只用來統(tǒng)計(jì)互聯(lián)網(wǎng)上的服務(wù)器數(shù)量,后來則發(fā)展為也能夠捕獲網(wǎng)址(URL) 。搜索引擎一般由以下三部分組成:爬行器(機(jī)器人、蜘蛛);索引生成器;查詢檢索器
- Excite 的歷史可以上溯到1993年2月,6個(gè)Stanford University(斯坦福大學(xué))大學(xué)生的想法是分析字詞關(guān)系,以對(duì)互聯(lián)網(wǎng)上的大量信息作更有效的檢索。到1993年中,這已是一個(gè)完全投資項(xiàng)目,他們還發(fā)布了一個(gè)供webmasters在自己網(wǎng)站上使用的搜索軟件版本,后來被叫做Excite for Web Servers。注:Excite后來曾以概念搜索聞名,2002年5月,被Infospace收購的Excite停止自己的搜索引擎,改用元搜索引擎 Dogpile
- 1994年4月,斯坦福大學(xué)的兩名博士生,美籍華人楊致遠(yuǎn)和David Filo共同創(chuàng)辦了Yahoo!。隨著訪問量和收錄鏈接數(shù)的增長,Yahoo目錄開始支持簡單的數(shù)據(jù)庫搜索。因?yàn)閅ahoo!的數(shù)據(jù)是手工輸入的,所以不能真正被歸為搜索引擎,事實(shí)上只是一個(gè)可搜索的目錄。Yahoo!中收錄的網(wǎng)站,因?yàn)槎几接泻喗樾畔?,所以搜索效率明顯提高。
注:Yahoo以后陸續(xù)有 Altavista、Inktomi、Google提供搜索引擎服務(wù)
- 1995年,一種新的搜索引擎形式出現(xiàn)了——元搜索引擎(Meta Search Engine)。用戶只需提交一次搜索請(qǐng)求,由元搜索引擎負(fù)責(zé)轉(zhuǎn)換處理后提交給多個(gè)預(yù)先選定的獨(dú)立搜索引擎,并將從各獨(dú)立搜索引擎返回的所有查詢結(jié)果,集中起來處理后再返回給用戶。第一個(gè)元搜索引擎,是Washington大學(xué)碩士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。元搜索引擎概念上好聽,但搜索效果始終不理想,所以沒有哪個(gè)元搜索引擎有過強(qiáng)勢(shì)地位。
- 1995年9月26日,加州伯克利分校助教Eric Brewer、博士生Paul Gauthier創(chuàng)立了Inktomi,1996年5月20日,Inktomi公司成立,強(qiáng)大的HotBot出現(xiàn)在世人面前。聲稱每天能抓取索引1千萬頁以上,所以有遠(yuǎn)超過其它搜索引擎的新內(nèi)容。HotBot也大量運(yùn)用cookie儲(chǔ)存用戶的個(gè)人搜索喜好設(shè)置。
- 1995年12月,DEC的正式發(fā)布AltaVista。AltaVista是第一個(gè)支持自然語言搜索的搜索引擎,第一個(gè)實(shí)現(xiàn)高級(jí)搜索語法的搜索引擎(如 AND、 OR、 NOT等)。用戶可以用AltaVista搜索新聞組(Newsgroups)的內(nèi)容并從互聯(lián)網(wǎng)上獲得文章,還可以搜索圖片名稱中的文字、搜索 Titles、搜索Java applets、搜索ActiveX objects。AltaVista也聲稱是第一個(gè)支持用戶自己向網(wǎng)頁索引庫提交或刪除URL的搜索引擎,并能在24小時(shí)內(nèi)上線。AltaVista最有趣的新功能之一,是搜索有鏈接指向某個(gè)URL的所有網(wǎng)站。在面向用戶的界面上,AltaVista也作了大量革新。它在搜索框區(qū)域下放了“tips”以幫助用戶更好的表達(dá)搜索式,這些小tip經(jīng)常更新,這樣,在搜索過幾次以后,用戶會(huì)看到很多他們可能從來不知道的的有趣功能。這系列功能,逐漸被其它搜索引擎廣泛采用。1997年,AltaVista發(fā)布了一個(gè)圖形演示系統(tǒng)LiveTopics,幫助用戶從成千上萬的搜索結(jié)果中找到想要的。
- 1997年8月,Northernlight搜索引擎正式現(xiàn)身。它曾是擁有最大數(shù)據(jù)庫的搜索引擎之一,它沒有Stop Words,它有出色的Current News、7100多出版物組成的Special Collection、良好的高級(jí)搜索語法,第一個(gè)支持對(duì)搜索結(jié)果進(jìn)行簡單的自動(dòng)分類。
- 1998年10月之前,Google只是斯坦福大學(xué)(Stanford University)的一個(gè)小項(xiàng)目BackRub。1995年博士生Larry Page開始學(xué)習(xí)搜索引擎設(shè)計(jì),于1997年9月15日注冊(cè)了google.com的域名,1997年底,在Sergey Brin和Scott Hassan、Alan Steremberg的共同參與下,BachRub開始提供Demo。1999年2月,Google完成了從Alpha版到Beta版的蛻變。 Google公司則把1998年9月27日認(rèn)作自己的生日。Google以網(wǎng)頁級(jí)別(Pagerank)為基礎(chǔ),判斷網(wǎng)頁的重要性,使得搜索結(jié)果的相關(guān)性大大增強(qiáng)。Google公司的奇客(Geek)文化氛圍、不作惡(Don’t be evil)的理念,為Google贏得了極高的口碑和品牌美譽(yù)。2006年4月,Google宣布其中文名稱“谷歌”,這是Google第一個(gè)在非英語國家起的名字。
- Openfind 創(chuàng)立于1998年1月,其技術(shù)源自臺(tái)灣中正大學(xué)吳升教授所領(lǐng)導(dǎo)的GAIS實(shí)驗(yàn)室。Openfind起先只做中文搜索引擎,鼎盛時(shí)期同時(shí)為三大著名門戶新浪、奇摩、雅虎提供中文搜索引擎,但2000年后市場逐漸被Baidu和Google瓜分。2002年6月,Openfind重新發(fā)布基于GAIS30 Project的Openfind搜索引擎Beta版,推出多元排序(PolyRankTM),宣布累計(jì)抓取網(wǎng)頁35億,開始進(jìn)入英文搜索領(lǐng)域。
- 2000年1月,兩位北大校友,超鏈分析專利發(fā)明人、前Infoseek資深工程師李彥宏與好友徐勇(加州伯克利分校博士后)在北京中關(guān)村創(chuàng)立了百度(Baidu)公司。2001年8月發(fā)布Baidu.com搜索引擎Beta版(此前Baidu只為其它門戶網(wǎng)站搜狐新浪Tom等提供搜索引擎),2001年10月22日正式發(fā)布Baidu搜索引擎,專注于中文搜索。
- 2003年12月23日,原慧聰搜索正式獨(dú)立運(yùn)做,成立了中國搜索。2004年2月,中國搜索發(fā)布桌面搜索引擎網(wǎng)絡(luò)豬1.0,2006年3月中搜將網(wǎng)絡(luò)豬更名為IG(Internet Gateway) 。
- 2005年6月,新浪正式推出自主研發(fā)的搜索引擎“愛問”。2007年起,新浪愛問使用google搜索引擎。
- 2007年7月1日全面采用網(wǎng)易自主研發(fā)的有道搜索技術(shù),并且合并了原來的綜合搜索和網(wǎng)頁搜索。有道網(wǎng)頁搜索、圖片搜索和博客搜索為網(wǎng)易搜索提供服務(wù)。其中網(wǎng)頁搜索使用了其自主研發(fā)的自然語言處理、分布式存儲(chǔ)及計(jì)算技術(shù);圖片搜索首創(chuàng)根據(jù)拍攝相機(jī)品牌、型號(hào),甚至季節(jié)等高級(jí)搜索功能;博客搜索相比同類產(chǎn)品具有抓取全面、更新及時(shí)的優(yōu)勢(shì),提供“文章預(yù)覽”,“博客檔案”等創(chuàng)新功能。
搜索引擎商業(yè)化[ ]
搜索引擎的商務(wù)是一種新的商業(yè)模式,越來越多的買家又或賣家通過搜索引擎來尋找自己的需要。現(xiàn)在搜索引擎的主流商務(wù)模式(百度的競價(jià)排名、Google的AdWords)都是在搜索結(jié)果頁面放置廣告,通過用戶的點(diǎn)擊向廣告主收費(fèi)。這種模式最早是比爾·格羅斯(Bill Gross)提出的。但有不少人認(rèn)為Google以其優(yōu)秀的搜索算法,不被競價(jià)排名所籠罩的口碑成為全世界最為出名的搜索引擎。
搜索引擎未來的預(yù)見[ ]
隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)上可以搜尋的網(wǎng)頁變得愈來愈多,而網(wǎng)頁內(nèi)容的質(zhì)素亦變得良莠不齊,沒有保證。所以,未來的搜索引擎將會(huì)朝著知識(shí)型搜索引擎的方向發(fā)展,期以為搜尋者提供更準(zhǔn)確及適用的資料。目前,網(wǎng)上的百科全書如雨后春筍般發(fā)展起來;另一方面,近年來亦有不少公司嘗試在搜尋方面改進(jìn),務(wù)求更符合用戶的要求。當(dāng)中諸如Copernic Agent之類的搜尋代理就是其中之一。