【字符编码】Java字符编码详细解答及问题探讨

摘要:
解答:问题的关键就在于char类型为两个字节长度,Java字符采用UTF-16编码。注意区分字符串的length函数与字节数组的length字段的差别。猜测是因为使用javacTest.java进行编译,采用的是GBK编码,而class文件存储的格式为UTF-8编码。

一、前言

继上一篇写完字节编码内容后,现在分析在Java中各字符编码的问题,并且由这个问题,也引出了一个更有意思的问题,笔者也还没有找到这个问题的答案。也希望各位园友指点指点。

二、Java字符编码

直接上代码进行分析似乎更有感觉。 

【字符编码】Java字符编码详细解答及问题探讨第1张View Code

运行结果:   

【字符编码】Java字符编码详细解答及问题探讨第1张View Code

说明:通过结果我们知道如下信息。

1. 在Java中,中文在用ASCII码表示为3F,实际对应符号'?',用ISO-8859-1表示为3F,实际对应符号也是为'?',这意味着中文已经超出了ASCII和ISO-8859-1的表示范围。

2. UTF-16采用大端存储,即在字节数组前添加了FE FF,并且FE FF也算在了字符数组长度中。

3. 指定UTF-16的大端(UTF-16BE)或者小端(UTF-16LE)模式后,则不会有FE FF 或 FF FE控制符,相应的字节数组大小也不会包含控制符所占的大小。

4. Unicode表示与UTF-16相同。

5. getBytes()方法默认是采用UTF-8。

三、char表示问题

我们知道,在Java中char类型为两个字节长度,我们来看下一个示例。 

复制代码
public class Test {    
    public static void main(String[] args) throws Exception {
        char ch1 = 'a';    // 1
        char ch2 = '李'; // 2
        char ch3 = 'uFFFF'; // 3
        char ch4 = 'u10000'; // 4
    
    }
}
复制代码

问题:读者觉得这样的代码能够编译通过吗?如不能编码通过是为什么,又具体是那一行代码出现了错误?

分析:把这个示例拷贝到Eclipse中,定位到错误,发现是第四行代码出现了错误,有这样的提示,Invalid character constant。

解答:问题的关键就在于char类型为两个字节长度,Java字符采用UTF-16编码。而'u10000'显然已经超过了两个字节所能表示的范围了,一个char无法表示。说得更具体点,就是char表示的范围为Unicode表中第零平面(BMP),从0000 - FFFF(十六进制),而在辅助平面上的码位,即010000 - 10FFFF(十六进制),必须使用四个字节进行表示。

有了这个理解后,我们看下面的代码  

复制代码
public class Test {    
    public static void main(String[] args) throws Exception {
        char ch1 = 'a';
        char ch2 = '李';
        char ch3 = 'uFFFF';
        String str = "u10000";
        System.out.println(String.valueOf(ch1).length());
        System.out.println(String.valueOf(ch2).length());
        System.out.println(String.valueOf(ch3).length());
        System.out.println(str.length());    
    }
}
复制代码

运行结果:

1
1
1
2

说明:从结果我们可以知道,所有在BMP上的码点(包括'a'、'李'、'uFFFF')的长度都是1,所有在辅助平面上的码点的长度都是2。注意区分字符串的length函数与字节数组的length字段的差别。

四、问题的发现

在写Java小程序时,笔者一般不会打开Eclispe,而是直接在NodePad++中编写,然后通过javac、java命令运行程序,查看结果。也正是由于这个习惯,发现了如下的问题,请听笔者慢慢道来,来请园友们指点指点。

有如下简单程序,请忽略字符串的含义。

复制代码
public class Test {    
    public static void main(String[] args) throws Exception {
        String str = "我我我我我我我uD843uDC30";
        System.out.println(str.length());
    }
}
复制代码

说明:程序功能很简单,就是打印字符串长度。

4.1 两种编译方法

1. 笔者通过javac Test.java进行编译,编译通过。然后通过java Test运行程序,运行结果如下:

【字符编码】Java字符编码详细解答及问题探讨第9张

说明:根据结果我们可以推测,字符'我'为长度1,uD843uDC30为长度10,其中u为长度1。

2. 笔者通过javac -encoding utf-8 Test.java进行编译,编译通过。然后通过java Test运行程序,运行结果如下:

【字符编码】Java字符编码详细解答及问题探讨第10张

说明:这个结果很好理解,字符'我'、uD843、uDC30都在BMP,都为长度1,故总共为9。

通过两种编译方法,得到的结果不相同,经过查阅资料知道javac Test.java默认的是采用GBK编码,就像指定javac -encoding gbk Test.java进行编译。

4.2. 查看class文件

1. 查看java Test.java的class文件,使用winhex打开,结果如下:

【字符编码】Java字符编码详细解答及问题探讨第11张

说明:图中红色标记给出了字符串"我我我我我我我uD843uDC30"大致所在位置。因为前面我们分析过,class文件的存储使用UTF-8编码,于是,先算E9 8E B4,得到Unicode码点为94B4(十六进制),查阅Unicode表,发现表示字符为'鎴',这完全和'我'没有关系。并且E9 8E B4 后面的E6 88 9E,和E9 8E B4也不相等,照理说,相同的字符编码应该相同。后来发现,红色标记地方好像有点规则,就是E9 8E B4 E6 88 9E E5 9E 9C(九个字节)表示'我我',重复循环了3次,表示字符'我我我我我我',之后的E9 8E B4 E6 85(五个字节)表示'我',总共7个'我',很明显又出现疑问了。

猜测是因为使用javac Test.java进行编译,采用的是GBK编码,而class文件存储的格式为UTF-8编码。这两种操作中肯定含有某种转化关系,并且最后的class文件中也加入相应的信息。

2. 查看java -encoding -utf-8 Test.java的class文件,使用winhex打开,结果如下:

【字符编码】Java字符编码详细解答及问题探讨第12张

说明:红色标记给出了字符串的大体位置,E6 88 91,经过计算,确实对应字符'我'。这是没有疑问的。

4.3 针对疑问的探索

1. 又改变了字符串的值,使用如下代码:

复制代码
public class Test {    
    public static void main(String[] args) throws Exception {
        String str = "我我coder";
        System.out.println(str.length());
    }
}
复制代码

同样,使用javac Test.java、java Test命令。得到结果为:

【字符编码】Java字符编码详细解答及问题探讨第15张

这就更加疑惑了。为什么会得到8。

2. 查阅资料结果

在Javac时,若没有指定-encoding参数指定Java源程序的编码格式,则javac.exe首先获得我们操作系统默认采用的编码格式,也即在编译java程序时,若我们不指定源程序文件的编码格式,JDK首先获得操作系统的file.encoding参数(它保存的就是操作系统默认的编码格式,如WIN2k,它的值为GBK),然后JDK就把我们的java源程序从file.encoding编码格式转化为Java内部默认的UTF-16格式放入内存中。之后会输出class文件,我们知道class是以UTF-8方式编码的,它内部包含我们源程序中的中文字符串,只不过此时它己经由file.encoding格式转化为UTF-8格式了。

五、问题提出

1. 使用javac Test.java编译后,为何会得到上述class文件的格式(即GBK -> UTF16 -> UTF8具体是如何实现的)。

2. 使用javac Test.java编译后,为何得到的结果一个是17,而另外一个是8。

六、总结

探索的过程有很意思,这个问题暂时还没有解决,以后遇到该问题的答案会贴出来,也欢迎有想法的读者进行交流探讨。谢谢各位园友的观看~

参考链接:

http://blog.csdn.net/xiunai78/article/details/8349129

免责声明:文章转载自《【字符编码】Java字符编码详细解答及问题探讨》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇修改文件权限之chmod关于WEB的URL安全测试下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

aarch64-linux-gnu交叉编译Qt4.7.3

到 Qt 官网下载合适的 Qt 版本,地址:http://download.qt-project.org/archive/qt/ 1.环境搭建: 1.安装automake、libtool 和主机上的 Qt 工具: $ sudo apt-get install automake autoconf libtool m4 $ sudo apt-get insta...

python字符编码、字符串格式化、字符串方法、列表、元组、字典、集合等基础知识总结

目录: 一、字符编码 二、字符串格式化 三、进制转换 四、数据类型及其操作 1.int类、2.str类 五、格式转换 六、For循环 七、三元运算 八.列表 九、列表推导式 十、元组 十一、字典 十二、集合set 十三、文件操作 十四、变量指向和深浅拷贝 一.字符编码: 计算机由美国人发明,最早的字符编码为ASCII,只规定了英文字母数字和一些特殊字符与数...

001.TypeScript简介.md

TypeScript是一门开源的,由微软开发维护的,发布于2012年10月的静态类型的语言; 他是ECMAScript的超集,支持JavaScript的所有语法和语义,并且在此基础之上提供了更多额外的特性,例如静态类型和更丰富的语法。 1. TypeScript的优点 1.1. 编译时类型检查 所有的动态语言,包括JavaScript,其在编写过程中一些拼...

shell替换

如果表达式中包含特殊字符,Shell 将会进行替换。例如,在双引号中使用变量就是一种替换,转义字符也是一种替换。举个例子: #!/bin/bash a=10 echo -e"Value of a is $a " 运行结果: Value of a is 10 这里 -e 表示对转义字符进行替换。如果不使用 -e 选项,将会原样输出: Value...

转义、编码和加密

转义、编码和加密是开发中很常见也很基础的概念。对于初学开发的开发者,可能有时会无法准确的区分着几个词。我们将通过这篇文章来了解一下“转义、编码和加密”这几个词的关联和区别。 转义 第一种转义场景 绝大多数的开发者都曾经在自己学习第一个编程语言时,就遇到了这个概念。以经典的C语言中字符串中的字符转义为例。 如果在一个字符串中存在一个",那么就需要在"前添加才...

利用mysql对特殊字符和超长字符会进行截断的特性 进行存储型XSS攻击——WordPress <4.1.2 & <=4.2 存储型xss

转自:Baidu Security Lab Xteam http://xteam.baidu.com/?p=177 漏洞概述 本次漏洞出现两个使用不同方式截断来实现的存储型xss,一种为特殊字符截断,一种为数据库字段长度截断,该漏洞导致攻击者可获取用户 cookie以及模拟浏览器正常操作,并且当管理员访问到注入的payload时,结合wordpress后台...