|
GB 既"国标"的汉语拼音缩写,为中华人民共和国国家标准的意思. 国标编码就是中华人民共和国信息交换汉字编码标准(GB2312-80), 在此标准中制定了每一个汉字及非汉字符号的编码。规定将汉字字符分为87个区, 每个区有94个汉字(94位),因此共制定了87x94=8178个汉字、字符。 每一个字符的编码由2个字节(Byte, 一个字节有8位--Bit, 可以有256种不同表示)构 成(分别称为高字节和低字节),其值分别为其区位码值各加上32(既16进制的 20H),方便起见把这称作国标码,则国标码所覆盖的范围为2121H-777EH, 如中国的“中”字位于54区48位,其国标码就是5650H。当想在由西方人发明的 计算机中使用汉字时,由于国标码的范围与计算机中使用的 ASCII 码(American Standard Code for Information Interchange,美国信息交换标准码,只用了一个字节中的低7位, 范围是32-126这95个)重叠,无法分出哪个是中文哪个是西文,于是规定将国标码的高低 字节的最高位均置1(Set the MSB,相当于加上128--16进制的80H),来使之区分于 ASCII 码。这样,在计算机中使用的汉字编码实际上是真正的国标码的高位置1后的变形 码(以后称此码为 GB 码),编码范围是0A1A1H-0F7FEH,前面的“中”字 的 GB 码就是0D6D0H。
在国标中规定: 1区是标点符号及下列以外的各种符号 2区是各种各样的数字符号 3区是全角西文字符(英文字母,数字,符号等) 4区是日文平假名 5区是日文片假名 6区是希腊字母表 7区是俄文字母表 8区是中文拼音字母表 9区是制表符号 10区-15区目前空着备用, 16区-55区是按拼音字母排序的常用汉字(一级汉字) 56区-87区是按部首笔画排序的非常用汉字(二级汉字)
(区位码表)
HZ码是中国留学生为了使汉字信息能在网络上直接传送而产生的。因目前大多数 (西方)网络系统为7位,最高位被屏蔽掉,因此 GB 码无法被直接传输,HZ 码规定 一个~紧接着一个{标志着从此开始的代码是国标码,一直到遇到一个~后紧接着一个}, 或本行结束为止。既利用国标码高字节(区)中没有的~(7EH),形成进入(Escape in) --~{,及退出(Escape out)--~}标志,以达到在7位网络系统中直接传递汉字信息的目的。 此时真正的一个的~及后接{符号由两个连续的~~及后接{来表示。
Big5 码是在台湾和香港等地广为使用的计算机汉字编码方案,使用的是繁体字, 因最高位被置1,所以也不能直接在7位的网络系统中传输。
JIS 既 Japan Industry Standard(日本工业标准--同 GB 意思一样), 但目前在日本的计算机中使用的编码系统较为混乱,常用的有 JIS 码(与 HZ 码类似, 采用进入-退出标志方式),Shift-JIS 码(NEC个人计算机,即NEC98系列均采用此 种编码)和 EUC 编码(与 GB 码一样,采用高低字节最高位均置1来区别于 ASCII 码) 等几种方式,日本的网络系统规定在其上传输电子邮件用 JIS 编码。
|
一共有 2 条评论