《數學之美》讀後感

確切的來說,《數學之美》並不是一本書,它是谷歌黑板報中的一系列文章,介紹數學在信息檢索和自然語言處理中的主導作用和奇妙套用,每一篇文章都不長,但小中見大,從看似高深的高科技中用通俗易懂的案例展示了數學之美,深深的吸引了我。

這一系列文章的作者是google公司的科學家吳軍。他畢業於清華大學計算機系(本科)和電子工程系(碩士),並於1993-1996年在清華任講師。他於1996年起在美國約翰霍普金斯大學攻讀博士,並於XX年獲得計算機科學博士學位。在清華和約翰霍普金斯大學期間,吳軍博士致力於語音識別、自然語言處理,特別是統計語言模型的研究。他曾獲得1995年的全國人機語音智慧型接口會議的最佳論文獎和XX年eurospeech的最佳論文獎。

吳軍博士於XX年加入google公司,現任google研究院資深研究員。到google不久,他和三個同事們開創了網路搜尋反作弊的研究領域,並因此獲得工程獎。XX年,他和兩個同事共同成立了中日韓文搜尋部門。吳軍博士是當前google中日韓文搜尋算法的主要設計者。在google其間,他領導了許多研發項目,包括許多與中文相關的產品和自然語言處理的項目,並得到了公司執行長埃里克.施密特的高度評價。吳軍博士在國內外發表過數十篇論文並獲得和申請了近十項美國和國際專利。他於XX年起,當選為約翰霍普金斯大學計算機系董事會董事。

正是他在信息檢索與自然語言處理領域中的一系列工作,使他講述了我所看到的內容-數學之美。

看了數學之美,立即聯想到了金庸小說中的武林高人,總是把一套大多數人都會的入門功夫使得威力無比,擊潰眾多敵者。東西放在那,它的威力如何,並鍵在於使用者,武術如此,數學同樣如此。

於我而言,語音視別是一類高科技,作為非專業人土,深覺高奧。但看完數學之美之後,頓感驚詫,原來如此深奧東西的解決方法自己也學過,並且理工科讀過大學的人都學過,那就是統計學中的條件機率p(a/b),即b事件發生條件下a事件發生的機率。

如果s表示一連串特定順序排列的詞w1,w2,…,wn,換句話說,s可以表示某一個由一連串特定順序排練的詞而組成的一個有意義的句子。現在,機器對語言的識別從某種角度來說,就是想知道s在文本中出現的可能性,也就是數學上所說的s的機率用p(s)來表示。利用條件機率的公式,s這個序列出現的機率等於每一個詞出現的機率相乘,於是p(s)可展開為:

p(s)=p(w1)p(w2|w1)p(w3|w1w2)…p(wn|w1w2…wn-1)

其中p(w1)表示第一個詞w1出現的機率;p(w2|w1)是在已知第一個詞的前提下,第二個詞出現的機率;以次類推。不難看出,到了詞wn,它的出現機率取決於它前面所有詞。從計算上來看,各種可能性太多,無法實現。因此我們假定任意一個詞wi的出現機率只同它前面的詞wi-1有關(即馬爾可夫假設),於是問題就變得很簡單了。現在,s出現的機率就變為:

p(s)=p(w1)p(w2|w1)p(w3|w2)…p(wi|wi-1)…

(當然,也可以假設一個詞又前面n-1個詞決定,模型稍微複雜些。)

接下來的問題就是如何估計p(wi|wi-1)。現在有了大量機讀文本後,這個問題變得很簡單,只要數一數這對詞(wi-1,wi)在統計的文本中出現了多少次,以及wi-1本身在同樣的文本中前後相鄰出現了多少次,然後用兩個數一除就可以了,p(wi|wi-1)=p(wi-1,wi)/p(wi-1)。