Oracle的imp命令導入備份數據

  筆者在做項目過程中遇到以下問題,在客戶提供的資料庫備份檔案需要導入到資料庫中,以便使用,資料庫為oracle 9.1.1,安裝在windows server 2000 jp系統中,伺服器端字元集

為japanese_japan_utf8,而客戶端使用的是中文windows server 2000系統,字元集為simplified chinese_china.zhs16gbk。
在插入數據過程中出現如下問題:
c:\oracle\ora90\bin>imp scott/tiger@sdes full=y file=c:\expdat.dmp
import: release 9.0.1.1.1 - production on 星期一 1月 22 19:05:43 2007
(c) copyright 2001 oracle corporation.  all rights reserved.
連線到: oracle9i release 9.0.1.1.1 - production
jserver release 9.0.1.1.1 - production
imp-00016: 不支持要求的字元集轉換(從類型830到852)
imp-00000: 未成功終止導入
使用2進制檔案編輯工具,如uedit32。打開導出的dmp檔案,獲取2、3位元組的內容,如00 01,先把它轉換為10進制數,為1,使用函式nls_charset_name即可獲得該字元集:
sql> select nls_charset_name(1) from dual;
nls_charset_name(1)
-------------------
us7ascii
可以知道該dmp檔案的字元集為us7ascii,如果需要把該dmp檔案的字元集換成zhs16gbk,則需要用nls_charset_id獲取該字元集的編號:

筆者遇到的問題為830到852類型轉換錯誤,進入oracle的sqlplus,進行以下查詢:
sql> select nls_charset_name(830) from dual;
nls_charset_na
--------------
ja16euc
sql> select nls_charset_name(852) from dual;
nls_charset_name
----------------
zhs16gbk
sql>

sql> select nls_charset_id('zhs16gbk') from dual;
nls_charset_id('zhs16gbk')
--------------------------
852
把852換成16進制數,為354,把2、3位元組的00 01換成03 54,即完成了把該dmp檔案字元集從us7ascii到zhs16gbk的轉化,這樣,再把該dmp檔案導入到zhs16gbk字元集的資料庫就可以了。

影響oracle資料庫字元集最重要的參數是nls_lang參數。它的格式如下: nls_lang = language_territory.charset .它有三個組成部分(語言、地域和字元集),每個成分控制了nls子集的特性。
其中: language 指定伺服器訊息的語言,territory 指定伺服器的日期和數字格式,charset 指定字元集。如:american _ america. zhs16gbk .
可以使用以下命令獲取字元集名稱:
sql> select userenv('language') from dual;
userenv('language')
-------------------------------------------------------------------------------
simplified chinese_china.utf8
sql>
用oracle的exp工具導出的dmp檔案也包含了字元集信息,dmp檔案的第2和第3個位元組記錄了dmp檔案的字元集。如果dmp檔案不大,比如只有幾m或幾十m,可以用ultraedit打開(16進制方式),看第2第3個位元組的內容,如0354,然後用以下sql查出它對應的字元集:
sql> select nls_charset_name(to_number('0354','xxxx')) from dual;
nls_charset_name(to_number('0354','xxxx'))
--------------------------------------------------------------------------------
zhs16gbk
sql>
03 03 3e 45 .....其中的033e就是字元集對應的值。
上文說過,dmp檔案的第2第3位元組記錄了字元集信息,因此直接修改dmp檔案的第2第3位元組的內容就可以‘騙’過oracle的檢查。這樣做理論上也僅是從子集到超集可以修改,但很多情況下在沒有子集和超集關係的情況下也可以修改,我們常用的一些字元集,如us7ascii,we8iso8859p1,zhs16cgb231280,zhs16gbk基本都可以改。因為改的只是dmp檔案,所以影響不大。
具體的修改方法比較多,最簡單的就是直接用ultraedit修改dmp檔案的第2和第3個位元組。比如想將dmp檔案的字元集改為zhs16gbk,可以用以下sql查出該種字元集對應的16進制代碼:
sql> select to_char(nls_charset_id('zhs16gbk'), 'xxxx') from dual;
0354
然後將dmp檔案的2、3位元組修改為0354即可。

另外,如果dmp檔案中備份的資料庫表已經存在,則導入過程會失敗,只能先將已經存在的表刪除,在進行導入。