漢字手抄報:漢字的數量

漢字的數量並沒有準確數字,大約將近十萬個(北京國安咨訊設備公司漢字字型檔收入有出處漢字91251個),日常所使用的漢字只有幾千字。據統計,1000個常用字能覆蓋約92%的書面資料,2000字可覆蓋98%以上,3000字時已到99%,簡體與繁體的統計結果相差不大。

歷史上出現過的漢字總數有8萬多(也有6萬多的說法),其中多數為異體字和罕用字。絕大多數異體字和罕用字已被規範掉,除古文之外一般只在人名、地名中偶爾出現。此外,繼第一批簡化字後,還有一批“二簡字”,已被廢除,但仍有少數字在社會上流行。

漢字數量的首次統計是漢朝許慎在《說文解字》中進行的,共收錄9353字。其後,南朝時顧野王所撰的《玉篇》據記載共收16917字,在此基礎上修訂的《大廣益會玉篇》則據說有22726字。此後收字較多的是宋朝官修的《類篇》,收字31319個;另一部宋朝官修的《集韻》中收字53525個,曾經是收字最多的一部書。

另外有些字典收字也較多,如清朝的《康熙字典》收字47035個;日本的《大漢和字典》收字48902個,另有附錄1062個;台灣的《中文大字典》收字49905個;《漢語大字典》收字54678個。《中華字海》,收字85000個。台灣的異體字字典收錄106230個漢字是收錄漢字最多的字典.

在漢字計算機編碼標準中,最大的漢字編碼是台灣地區的CNS11643,5.0版全字型檔可供查詢的字共87,047箇中文字、10,771個拼音文字及894個符號。台港民間通用的大五碼收錄繁體漢字13053個。GB18030是中華人民共和國現時最新的內碼字集,GBK收錄漢字簡體、繁體及20912個,而早期的GB2312收錄簡體漢字6763個。而Unicode的中日朝統一表意文字基本字集則收錄漢字20902個,總數亦高達七萬多字。

初期的漢字系統字數不足,很多事物以通假字表示,使文字的表述存在較大歧義。為完善表述的明確性,漢字經歷了逐步複雜、字數大量增加的階段。漢字數量的過度增加又引發了漢字學習的困難,單一漢字能表示的意義有限,於是有許多單一的漢語意義是用漢語詞語表示,例如常見的雙字詞。漢語書寫的發展多朝向造新詞而非造新字。殷墟的甲骨文更早、與漢字起源有關的出土資料。這些資料主要是指原始社會晚期及有史社會早期出現在陶器上面的刻畫或彩繪符號,另外還包括少量的刻寫在甲骨、玉器、石器等上面的符號。可以說,它們共同為解釋漢字的起源提供了新的依據。

鄭州大學博士生導師王蘊智認為:中國最早的刻劃符號出現在河南舞陽賈湖遺址,距今已有8000多年的歷史。 對這些原始材料做一番全面的整理,從而爬梳排比出商代文字之前漢字發生、發展的一些頭緒。 然而情況並不那么簡單,除了已有鄭州商城遺址、小雙橋遺址(該遺址先後發現10餘例商代早期朱書陶文)的小宗材料可以直接和殷墟文字相比序之外,其它商以前的符號則零星分散,彼此缺環較多,大多數符號且與商代文字構形不合。還有一些符號地域色彩較重、背景複雜。

正式形成於中原地區,王蘊智認為,漢字型系的正式形成應該是在中原地區。漢字是獨立起源的一種文字型系,不依存於任何一種外族文字而存在,但它的起源不是單一的,經過了多元的、長期的磨合,大概在進入夏紀年之際,先民們在廣泛吸收、運用早期符號的經驗基礎上,創造性地發明了用來記錄語言的文字元號系統,在那個時代,漢字型系較快地成熟起來。

據悉,從考古發掘的出土文字資料來看,中國至少在虞夏時期已經有了正式的文字,如考古工作者曾經在山西襄汾陶寺遺址所出的一件扁陶壺上,發現有毛筆朱書的“文”字。這些符號都屬於早期文字系統中的基本構形,可惜這樣的出土文字信息迄今仍然稀少。

大約在距今六千年的半坡遺址等仰韶文化遺址的陶器外壁,已經出現刻劃符號,共達五十多種。它們整齊規劃,並有一定規律性,具備簡單文字的特徵,可能是我國文字的萌芽。