日文字符多字節編碼基礎
日文字符只能使用多字節編碼,而且,編碼規范取決于平臺和字符的使用
目的(text purpose)。跟糟糕的是,編碼規范之間還稍有差異。為了開(kāi)發(fā)
出適應日文環(huán)境的Web應用,開(kāi)發(fā)人員必須對編碼規范有個(gè)清晰的認識,確保
使用了合適的編碼規范。
-
存儲一個(gè)日文字符最大需要6個(gè)字節空間
-
多數日文多字節字符是單字節字符出現頻率的兩倍。這些字符被稱(chēng)為
"zen-kaku",在日文中代表的意思是"full width"。
其它窄一些的字符被稱(chēng)作"han-kaku",意思是"half width"。
字符實(shí)際顯示的寬度,取決于顯示時(shí)使用的字體。
-
有些字符編碼采用ISO-2022定義的轉碼序列(shift sequences) 來(lái)轉換特殊的編碼
空間(
00h
to 7fh
)。
-
在SMTP/NNTP協(xié)議應用中 建議 采用ISO-2022-JP編碼,并且頭部和實(shí)體部分,應該按照
RFC要求重新編碼。雖然這些并不是強制性要求,但最好還是按這個(gè)建議做,因為幾款
流行的客戶(hù)端不支持其他的編碼方式。
-
手機服務(wù)頁(yè)面,例如? i-mode或者? EZweb
應該 使用Shift_JIS編碼。
-
從PHP 5.4.0開(kāi)始,象形字符(pictogram characters )已經(jīng)可以支持像
? i-mode
或者 ? EZweb
這樣的手機服務(wù)。