計算機中文信息處理技術

計算機中文信息處理技術需要解決的首要問題就是漢字的輸入技術,主要方法有鍵盤輸入、在線上手寫輸入、語音輸入、光電掃描輸入幾大類。

鍵盤輸入方法是通過鍵入漢字的輸入碼方式輸入漢字,通常要敲擊1~4個鍵輸入一個漢字,它的輸入碼主要有拼音碼、區位碼、純形碼、音形碼、形音碼等,用戶需要會拼音或記憶輸入碼才能使用,一般對於非專業打字的使用者來說,速度較慢,但正確率高;其中好的形音碼或音形碼則可以做到速度即快,正確率又高。

在線上手寫輸入是近年來發明的一種新技術,手寫輸入系統一般由硬體和軟體兩部分構成,硬體部分主要包括電子手寫筆和寫字板,軟體部分是漢字識別系統。使用者只需用與主機相連的書寫筆把漢字寫在書寫板上,寫字板中內置的高精密的電子信號採集系統,就會將漢字筆跡的信息轉換為數字信息,然後傳送給識別系統進行漢字識別。利用軟體讀取書寫板上的信息,分析筆劃特徵,在識別字型檔中找到這個字,再把識別的漢字顯示在編輯區中,通過“傳送”功能將編輯區的文字傳到其他文檔編輯軟體中。漢字識別系統的作用是將硬體部分傳送來的信息與事先存儲好的大量漢字特徵信息相比較,從而判斷寫的是什麼漢字,並通過漢字系統在計算機的螢幕上顯示出來。這種輸入法的好處是只要會寫漢字就能輸入,不需要記憶漢字的輸入碼,與日常寫字一樣,但受識別技術的限制,速度一般。手寫輸入系統的難點在於漢字筆跡的識別,因為每一個人的書寫漢字筆跡都不一樣,因此手寫筆跡比較系統就必須能允許一定的模糊偏差,才能有較高的識別率。目前已經開發了許多種手寫輸入系統,簡稱為“手寫筆”系統。有些手寫筆可以代替滑鼠進行操作。

語音輸入也是近年來一種新技術,它的主要功能是用與主機相連的話筒讀出漢字的語音,利用語音識別系統分析辨識漢字或詞組,把識別後的漢字顯示在編輯區中,再通過“傳送”功能將編輯區的文字傳到其他文檔的編輯軟體中。語音識別技術的原理是將人的話音轉換成聲音信號,經過特殊處理,與計算機中已存儲的已有聲音信號進行比較,然後反饋出識別的結果。這項技術的關鍵在於將人的話音轉換成聲音信號的準確性,以及與原有聲音信息比較時的智慧型化程度。語音識別技術是人工智慧的有機組成部分。這種輸入的好處是不再用手去輸入,只要會讀出漢字的讀音即可,但是受每個人漢字發音的限制,不可能都滿足語音識別軟體的要求,因此在實際套用中錯誤率較鍵盤輸入高。特別是一些專業技術方面的語言,識別系統幾乎不能確認,錯誤率較高。

光電掃描輸入是利用計算機的外部設備——光電掃瞄器,首先將印刷體的文本掃描成圖像,再通過專用的光學字元識別(ocr-optical character recognition)系統進行文字的識別,將漢字的圖像轉成文本形式,最後用“檔案傳送”或“導出”輸出到其他文檔編輯軟體中。這種輸入方法的特點是只能用於印刷體文字的輸入,要求印刷體文字清晰,才能識別率高,好處是快速、易操作,但受識別系統識別能力的限制,後期要做一些編輯修改工作。