搜尋引擎調查報告探測大眾心中的秘密隱私

二月初,珍妮·傑克遜(janetjackson)因為走光事件上升為yahoo搜尋的人氣冠軍,其搜尋請求達到總數的20%,創下了yahoo搜尋關鍵字的歷史最高記錄。這一數字是艷星parishilton曾經所創記錄的60倍,是歌星小甜甜布萊妮的80倍。

網際網路上的搜尋引擎已經成為反映大眾趣味和關注焦點的最好工具,

也許比任何其他調查統計都更為真實。

高頻詞與社會熱點

縱觀歷史,熱門辭彙反映了短期內大眾關注的焦點,長期來看可以連綴出世事的發展脈絡。美國康奈爾大學的研究人員jonkleinberg曾經做過一項調查,通過統計1790年後每年的美國國情咨文的用詞,發現了不同歷史時期的熱門辭彙。例如美國獨立戰爭期間出現頻率最高的是“民兵”和“英軍”;而在1947年到1959年這段時間內,“核子彈”則被反覆地提起。

如今,搜尋引擎聲稱自己知道大眾心中的秘密。搜尋引擎不只是被動地答疑解惑;事實上,各大搜尋引擎提供了包羅萬象的統計數據,這些結果也許十分有趣。keinberg認為:雖然計算機並不懂歷史,但是可以通過統計blog(網頁訪問記錄)、e-mail和網頁中的文本“學習”到相關的背景知識,從而更好地理解搜尋請求的含義。此外,這些統計數據還可以幫助社會學者和行銷人員發現某些正在顯露出的大眾趨勢,為他們的研究或者經營提供參考信息。

在國內,搜尋引擎甚至藉助這種反映大眾趨向的能力,向更廣的商業領域主動出擊。XX年2月12日,百度搜尋和光線傳媒共同發布了“XX年全球華人明星人氣榜”。熱門辭彙周杰倫、《無間道》、《天龍八部》、代言人、緋聞和黑幕等榜上有名。在此之前的1月8日,百度搜尋還與胡潤聯手發布了“XX中國大陸百富人氣榜”。

但是,搜尋引擎有時也會不知所措。比如嘗試使用google搜尋哈姆雷特的名言佳句“tobeornottobe”,會發現google竟然答非所問,羅列在頁面上的是gnu’snotunix官方網站、hotornot交友網站……就是不見莎士比亞的影子。這個經典的例子引出了搜尋技術的一個術語—停止詞(stopword)。

顧名思義,計算機的一切能力都是以計算為基礎,即使閱讀也不例外。搜尋引擎瀏覽分布在各個角落的網頁的同時,還在後台不停地統計詞語的出現頻率。有一些詞語出現率極高,帶來巨大的統計成本,卻不包含太多的具體意義,比如漢語的“的、是、了”和英文單詞“the、and”之流。如果要得出包含該詞的全部結果,實在是過多了。例如遇到哈姆雷特名言佳句中的那些高頻辭彙,經常導致搜尋“引擎”突然熄火,因此這些單詞得名“停止詞”。在google“閱讀”哈姆雷特的名言佳句時,遇到了四個停止詞,出於無奈,所以它只好對頻率最低的“not”進行搜尋,得到了一些有關“not”的流行網站。

如果將此名言佳句括上引號,google便會突然開竅,順利地尋找到相關的網站。這一功能被稱作短語搜尋(phrasesearch)。不過,比google更智慧型的是alltheweb,它已將這句名言佳句列入搜尋目錄,在結果頁面中直接提供了相關連結。

搜尋如何實現

“已向英特網搜尋geraldsalton。共有5,430項查詢結果,這是第1~10項。搜尋用時0.06秒。”0.06秒,體現著以google為代表的搜尋引擎的快捷和高效。這一切,又是如何實現的呢?