搜索引擎


搜索引擎 (简体)

本條目屬於網路搜索引擎系列
網路搜索引擎
元搜索引擎
知名搜索引擎
Google 谷歌
Yahoo! 雅虎!
Live Search
中文搜索引擎
蕃薯藤
百度
新浪
PChome Online
其他搜索引擎
AltaVista
Exalead
Mooter
Alexa Internet
其他連接

搜索引擎指自動從網際網路搜集信息,經過一定整理以後,提供給用戶進行查詢的系統。網際網路上的信息浩瀚萬千,而且毫無秩序,所有的信息象汪洋上的一個個小島,網頁連結是這些小島之間縱橫交錯的橋樑,而搜索引擎,則為用戶繪製一幅一目瞭然的信息地圖,供用戶隨時查閱。

目錄

搜索引擎的工作原理

搜索引擎的工作原理大致可以分為:

  1. 搜集信息:搜索引擎的信息搜集基本都是自動的。搜索引擎利用稱為網路蜘蛛的自動搜索機器人程序來連上每一個網頁上的超連結。機器人程序根據網頁鏈到其他中的超連結,就象日常生活中所說的「一傳十,十傳百……」一樣,從少數幾個網頁開始,連到數據庫上所有到其他網頁的連結。理論上,若網頁上有適當的超連結,機器人便可以遍歷絕大部分網頁。
  2. 整理信息:搜索引擎整理信息的過程稱為「建立索引」。搜索引擎不僅要保存搜集起來的信息,還要將它們按照一定的規則進行編排。這樣,搜索引擎根本不用重新翻查它所有保存的信息而迅速找到所要的資料。想象一下,如果信息是不按任何規則地隨意堆放在搜索引擎的資料庫中,那麼它每次找資料都得把整個資料庫完全翻查一遍,如此一來再快的計算機系統也沒有用。
  3. 接受查詢:用戶向搜索引擎發出查詢,搜索引擎接受查詢並向用戶返回資料。搜索引擎每時每刻都要接到來自大量用戶的幾乎是同時發出的查詢,它按照每個用戶的要求檢查自己的索引,在極短時間內找到用戶需要的資料,並返回給用戶。目前,搜索引擎返回主要是以網頁連結的形式提供的,這些通過這些連結,用戶便能到達含有自己所需資料的網頁。通常搜索引擎會在這些連結下提供一小段來自這些網頁的摘要信息以幫助用戶判斷此網頁是否含有自己需要的內容。

搜索引擎發展史

時間線
Note: "Launch" refers only to web
availability of original crawl-based
web search engine results. For full-list: 搜尋引擎列表
Year Engine Event
1993 Aliweb Launch
1994 WebCrawler Launch
Infoseek Launch
Lycos Launch
1995 AltaVista Launch (part of DEC)
Magellan Launch (The McKinley Group)
Excite Launch
SAPO Launch
1996 Dogpile Launch
Inktomi Founded
HotBot Founded
Ask Jeeves Founded
1997 Northern Light Launch
Yandex Launch
1998 Google Launch
1999 AlltheWeb Launch
Naver Launch
Teoma Founded
Vivisimo Founded
2000 Baidu Founded
2003 Info.com Launch
2004 Yahoo! Search Final launch
A9.com Launch
2005 MSN Search Final launch
Ask.com Launch
GoodSearch Launch
2006 wikiseek Founded
Quaero Founded
Ask.com Launch
Live Search Launch
ChaCha Beta Launch
Guruji.com Beta Launch
2007 wikiseek Launched
Wikia Search Launched
2008 Cuil Launched

1990年初當時全球資訊網還未出現,為了查詢散布在各個分散的主機中的文件,曾有過Archie、Gopher等搜索工具,隨著網際網路的迅速發展,基於HTTP訪問的web技術的迅速普及,他們就不再能適應用戶的需要。在1994年1月,第一個既可搜索又可瀏覽的分類目錄EINet Galaxy(Tradewave Galaxy)上線,它還支持Gopher和Telnet搜索。同年4月Yahoo目錄誕生,隨著訪問量和收錄連結數的增長,開始支持簡單的資料庫查詢。這就是我們說的早期的目錄導航系統,他們的缺點是網站收錄/更新都要靠人工維護,所以在信息量劇增的條件下,就不是非常受用了。

1994年7月Lycos推出了基於robot的數據發掘技術,並支持搜索結果相關性排序,並且他第一個開始在搜索結果中使用了網頁自動摘要。Infoseek也是同時期的一個重要代表,他們是搜索引擎史上一個重要的進步。

1995年,一種新的搜索引擎工具出現了——元搜索引擎,第一個元搜索引擎是華盛頓大學的學生開發的Metacrawler。用戶只需提交一次搜索請求,由元搜索引擎負責轉換處理後提交給多個預先選定的獨立搜索引擎,並將從各獨立搜索引擎返回的所有查詢結果,集中起來處理後再返回給用戶。

1995年12月才登場亮相的AltaVista推出了大量的創新功能使它迅速到達當時搜索引擎的頂峰,它第一個支持自然語言搜索的搜索引擎,具備了基於網頁內容分析,智能處理的能力,第一個實現高級搜索語法的搜索引擎(如AND、OR、NOT等),同時AltaVista還支持搜索新聞群組,搜索圖片等具有劃時代意義的功能。同時期還有inktomi、HotBot等搜索引擎。

1997年8月Northernlight 公司正式推出搜索引擎,它第一個支持對搜索結果進行簡單的自動分類,也是當時擁有最大資料庫的搜索引擎之一。

1998年10月Google誕生。它是目前最流行的搜索引擎之一,具備很多獨特而且優秀的功能,並且在界面等實現了革命性創新。

1999年5月,Fast(Alltheweb)公司發布了自己的搜索引擎AllTheWeb,它的網頁搜索可利用ODP自動分類,支持Flash和pdf搜索,支持多語言搜索,還提供新聞搜索、圖像搜索、視頻、MP3、和FTP搜索,擁有極其強大的高級搜索功能。它曾經是最流行的搜索引擎之一,後在2003年2月被Overture收購。

在中文搜索引擎領域,1996年8月成立的搜狐公司是最早參與作網路信息分類導航的網站,曾一度有「出門找地圖,上網找搜狐的」美譽。由於其人工分類提交的局限性,隨著網路信息的暴增,逐漸被基於robot自動抓取智能分類的新一代信息技術取代。

台灣中正大學吳升教授所領導的GAIS實驗室1998年1月創立了Openfind中文搜索引擎,是最早開發的中文智能搜索引擎,採用GAIS實驗室推出多元排序(PolyRankTM)核心技術,截止2002年6月,宣布累計抓取網頁35億,開始進入英文搜索領域。

北大天網是教育網最流行的搜索引擎,它由北大計算機系網路與分散式系統研究室開發,于1997年10月29日正式在CERNET上提供服務, 2000年初成立天網搜索引擎新課題組,由國家973重點基礎研究發展規劃項目基金資助開發,收錄網頁約6000萬,利用教育網優勢,有強大的ftp搜索功能。

百度中文搜索由超鏈分析專利發明人、前Infoseek資深工程師李彥宏和好友徐勇2000年1月創建,目前支持網頁信息檢索,圖片,Flash,音樂等多媒體信息的檢索。並且百度在中文領域第一個開始使用ppc經營模式。

2002年開始很多公司受搜索市場前景和Google神話的吸引,積極進入搜索引擎市場,謀求一席之地。但是不幸的是他們當中很多公司尤其是不少中國公司採用流氓手段進行自己搜索引擎的推廣工作,常用的手段是瀏覽器劫持、惡意捆綁adware/spyware等等,比較惡劣的典型公司是中搜、3721等等。中搜是由慧聰國際主持開發的,自稱是搜索領域的後起之秀。目前處於起步階段,但是採用流氓軟體手段推廣後,強佔了不少用戶的搜索引擎選擇。2003年年底慧聰搜索改名為中國搜索,推出第三代智能搜索引擎。最近中國搜索主推桌面搜索--網路豬,是臭名昭著的流氓軟體之一。

2003年11月Yahoo全資收購3721公司。2005年8月阿里巴巴Yahoo達成戰略合作,全資收購雅虎中國,並更名為阿里巴巴雅虎,並將其業務重點全面轉向搜索領域。

搜索引擎的商務

搜索引擎的商務是一種新的商業模式,在國內的大多數人還在用網址大全去尋找商業平台網站的時候,搜索引擎營銷的方式慢慢的興起,越來越多的買家又或賣家通過搜索引擎來尋找自己的需要。其中以Google最為出名,可以說是一代搜索引擎的楷模。Google以其優秀的搜索演算法,不被競價排名所籠罩的口碑成為全世界最為出名的搜索引擎。

搜索引擎的未來展望

隨著網際網路的發展,網上可以搜尋的網頁變得愈來愈多,而網頁內容的質素亦變得良莠不齊,沒有保證。所以,未來的搜索引擎將會朝著知識型搜索引擎的方向發展,期以為搜尋者提供更準確及適用的資料。目前,網上的百科全書如雨後春筍般發展起來;另一方面,近年來亦有不少公司嘗試在搜尋方面改進,務求更符合用戶的要求。當中諸如Copernic Agent之類的搜尋代理就是其中之一。

在台灣,威知資訊(WebGenie)是利用文字探勘(Text Mining)技術發展搜尋引擎產品的公司,利用人工智慧演算法,可達成目前搜尋引擎所缺乏的簡易人機互動模式,諸如關聯字提示、動態分類字提示等[1],算是較另類的搜尋引擎產品

參看

  • 知識管理 (Knowledge Management)
  • 搜尋代理
  • 知識型搜索引擎
  • 垃圾連結 (Linkspam 或 Spamdexing)
  • 社會化搜索
  • 個性化檢索

外部連結

%E6%80%A7

! __







Why are we here?
All text is available under the terms of the GNU Free Documentation License
This page is cache of Wikipedia. History