搜尋引擎調查報告探測大眾心中的秘密隱私

通常情況下,一間機房只能擺放10台伺服器,但是google的機房內可以容納80台伺服器,因為它們都是拆掉了機殼和部分零件的裸機。larrypage和sergeybrin他們將機器的外殼拆掉,再卸下沒用的晶片和零件使整機體積縮小,而且容易維護,當然也節省了租用機房的花銷。google使用了超過一萬台的伺服器,並將其分散到五個不同地區的機房內,用以應付浩如煙海的網路信息。

為了對每一次搜尋請求做出快速的反應,搜尋引擎在前期下足了功夫。它們在後台不停地重複三步操作。第一步,搜尋引擎會不斷的利用爬蟲(crawler)程式蒐集網際網路上所有可達的網頁,無論是公開的還是隱藏的—只要曾被訪問過,就會招致“爬蟲”上身。這樣,定期外出的“爬蟲”就為搜尋引擎囤積起一個海量資料庫。由於“爬蟲”外出遵循一定的周期,有時可能跟不上網頁更新的速度,所以google的“網頁快照”會出現與目標頁面不盡相同的情況。第二步,另一個程式會統計出快取網頁(cachedpage)中各個字詞出現的頻率。第三步,根據詞頻概括出頁面的中心思想和段落大意,再按照不同的關鍵字提煉出索引目錄。用戶的每一次搜尋請求都是基於這些索引計算而得,因此回響異常迅速。

無論google的pagerank專利技術,還是百度全球獨有的“超鏈分析”技術,其大致想法都差不多:統計每個網頁被其它網頁連結指向的情況,次數越多則級別越高,排名也就越靠前。有的搜尋引擎專家指出,搜尋算法上usedrank比pagerank更為準確。usedrank指的是根據用戶點擊搜尋結果而再次做出的統計。有的頁面可能通過開始的計算被排在結果的第八頁,但是通過查看每條連結的屬性,引擎可以將用戶點擊多而且瀏覽成功的頁面提到前面來。alltheweb、yahoo和百度等搜尋引擎都老老實實地統計了每一次點擊,而google則非常直接,不做任何再次統計。

很多服務網站認同這樣一個觀點,用戶是懶惰的。根據點擊情況做出的統計,很多用戶一般只看完搜尋結果的第一頁,並不瀏覽後續頁面。因此一些網站把更多的搜尋結果顯示在第一頁上,比如yahoo,它的“第一頁”有20項。而新浪則把“和盤托出”的服務形式發展到了登峰造極,在情人節當天搜尋“鮮花”,一下子就跳出了78個網站連結。但是google、alltheweb和百度等搜尋引擎依然堅持簡潔的作風,每頁只顯示10條搜尋結果。

除了搜尋算法的不同,各家搜尋引擎也在細化服務,推出了日趨豐富的搜尋功能,比如大家鍾愛的google圖像搜尋。其實,alltheweb的圖像功能也十分優秀,它還同時支持音頻、視頻以及下載站點的搜尋。

整合搜尋引擎

那么,用戶是否不得不逐一訪問每個搜尋引擎以得到最好的搜尋結果呢?也許不必。搜尋整合技術可以一次性地提供儘可能多的信息。

搜尋整合(metasearch)如果譯作“後搜尋”,可能聽起來更時髦一些,不過這就無法體現其重新梳理搜尋結果這一標誌性的功能。通常的搜尋是從龐雜的網路資源中按照某個線索分門別類的提取信息,而metasearch則是在其他搜尋引擎的發現結果之上進行再加工,可謂是搜尋的搜尋。