区位码表（区位码表示数字）

今天跟大家分享一下区位码表（区位码表示数字）,以下是这个问题的总结，希望对你有帮助，让我们看一看。前言

在我的工作中，常常会遇到形形色色的字符编码，对于各种编码技术本人了解的也不是很多。本篇是我了解编码系列的开篇，主要内容讲述字符编码的基本概念，然后介绍一下常见的字符编码，最后说明一下 Java 中如何编解码?

什么是字符编码？

字符编码也称字集码，是把字符集中的字符编码为指定集合中某一对象（例如：比特模式、自然数序列、8 位组或者电脉冲），以便文本在计算机中存储和通过通信网络的传递。

编码及编码格式

编码是用预先规定的方法将文字、数字或其它对象编成数码，或将信息、数据转换成规定的电脉冲信号。为保证编码的正确性，编码要规范化、标准化，即需有标准的编码格式。常见的编码格式有 ASCII、ISO-8859-1、GB2312、GBK、GB18030、UTF-8、UTF-16 等。

常见的字符编码ASCII/EASCII

ASCII（American Standard Code for Information Interchange，美国标准信息交换码）是基于拉丁字母的一套电脑编码系统，主要用于显示现代英语和其他西欧语言，是现今最通用的单字节编码系统。

EASCII(Extended ASCII，延伸美国标准信息交换码)是将 ASCII 码由 7 位扩充为 8 位（增加了 128 个）而成。EASCII 的内码是由 0 到 255 共有 256 个字符组成。EASCII 码比 ASCII 码扩充出来的符号包括表格符号、计算符号、希腊字母和特殊的拉丁符号。

ASCII 码使用指定的 7 位或 8 位二进制数组合来表示 128 或 256 种可能的字符。标准 ASCII 码也叫基础 ASCII 码，使用 7 位二进制数（剩下的 1 位二进制为 0）来表示所有的大写和小写字母，数字 0 到 9、标点符号，以及在美式英语中使用的特殊控制字符。32～126(共 95 个)是字符(32 是空格），其中 48～57 为 0 到 9 十个阿拉伯数字，65～90 为 26 个大写英文字母，97～122 号为 26 个小写英文字母，其余为一些标点符号、运算符号等。

ISO-8859-1

ISO-8859（拉丁码表，欧洲码表）是国际标准化组织（ISO）及国际电工委员会（IEC）联合制定的一系列 8 位字符集的标准。

ISO-8859-1 编码是单字节编码，向下兼容 ASCII，其编码范围是 0x00-0xFF，0x00-0x7F 之间完全和 ASCII 一致，0x80-0x9F 之间是控制字符，0xA0-0xFF 之间是文字符号。

GB2312/GBK/GB18030GB2312

GB2312《信息交换用汉字编码字符集》是由中国国家标准总局 1980 年发布，GB 是 “国标” 二字的汉语拼音缩写，GB2312 编码适用于汉字处理、汉字通信等系统之间的信息交换，基本集共收入汉字 6763 个（从 B0-F7 是汉字区）和非汉字图形字符 682 个（其中从 A1-A9 是符号区）。整个字符集分成 94 个区(A1-FE)，每区有 94 个位，总的编码范围是 A1-F7。每个区位上只有一个字符，因此可用所在的区和位来对汉字进行编码，称为区位码。

GB2312 简体中文编码表，GB2312 只是编码表，在计算机中通常都是用 “EUC-CN” 表示法，即在每个区位加上 0xA0 来表示。区和位分别占用一个字节。

举例来说，“啊”字是 GB2312 之中的第一个汉字，它的区位码就是 1601。字节编码，通常采用 EUC 储存方法，以便兼容于 ASCII。每个汉字及符号以两个字节来表示。第一个字节称为 “高位字节”，第二个字节称为“低位字节”。“高位字节” 使用了 0xA1-0xF7(把 01-87 区的区号加上 0xA0)，“低位字节”使用了 0xA1-0xFE(把 01-94 加上 0xA0)。例如 “啊” 字在大多数程序中，会以 0xB0A1 储存（与区位码对比：0xB0=0xA0 16,0xA1=0xA0 1）。

一图弄懂 ASCII、GB2312、GBK、GB18030 编码

下面我们以 “I am 君山” 这个字符串为例介绍 Java 中如何把它以 ISO-8859-1、GB2312、GBK、UTF-16、UTF-8 编码格式进行编码的。

123456

String name = “I am 君山”;byte[] iso8859 = name.getBytes(“ISO-8859-1”);byte[] gb2312 = name.getBytes(“GB2312”);byte[] gbk = name.getBytes(“GBK”);byte[] utf16 = name.getBytes(“UTF-16”);byte[] utf8 = name.getBytes(“UTF-8”);ISO-8859-1 编码

GB2312 字符集有一个 char 到 byte 的码表，不同的字符编码就是查这个码表找到与每个字符的对应的字节，然后拼装成 byte 数组。

GBK 编码UTF-16 编码

用 UTF-16 编码将 char 数组放大了一倍，单字节范围内的字符，在高位补 0 变成两个字节，中文字符也变成两个字节。从 UTF-16 编码规则来看，仅仅将字符的高位和地位进行拆分变成两个字节。

UTF-8 编码

UTF-16 虽然编码效率很高，但是对单字节范围内字符也放大了一倍，这无形也浪费了存储空间，另外 UTF-16 采用顺序编码，不能对单个字符的编码值进行校验，如果中间的一个字符码值损坏，后面的所有码值都将受影响。而 UTF-8 这些问题都不存在，UTF-8 对单字节范围内字符仍然用一个字节表示，对汉字采用三个字节表示。UTF-8 编码与 GBK 和 GB2312 不同，不用查码表，所以在编码效率上 UTF-8 的效率会更好。

小知识点

[1].uxxxx: 其中 xxxx 表示一个 16 进制数字，这种格式是 unicode 码的写法。[2].0xf: 表示十进制数 15，在 java 中以 0x 开头的数表示十六进制数(如 0x1,0xa)。[3].03: 表示八进制数 3，在 java 中以 0 开头的数表示八进制数(如 012,03)。

参考博文

[1]. GB2312 简体中文编码表[2]. Unicode 编码原理[3]. 彻底弄懂 Unicode 编码[4]. 深入分析 Java 中的中文编码问题

souce:https://morning-pro.github.io/archives/3b38de0f.html

本站部分内容由互联网用户自发贡献，该文观点仅代表作者本人，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规等内容，请举报！一经查实，本站将立刻删除。