Unicode,ISO-8859-1,GBK,UTF-8编码及相互转换|电子爱好者

admin管理员组
文章数量:1531516

2024年1月13日发(作者：)

第二篇：JAVA字符编码系列二：Unicode,ISO-8859-1,GBK,UTF-8编码及相互转换

１、函数介绍

在Java中，字符串用统一的Unicode编码，每个字符占用两个字节，与编码有关的两个主要函数为：

１）将字符串用指定的编码集合解析成字节数组，完成Unicode－〉charsetName转换

public byte[] getBytes(String charsetName) throws

UnsupportedEncodingException

２）将字节数组以指定的编码集合构造成字符串，完成charsetName－〉Unicode转换

public String(byte[] bytes, String charsetName) throws

UnsupportedEncodingException

２、Unicode与各编码之间的直接转换

下面以对中文字符串＂ａ中文＂的编码转换为例，来了解各种编码之间的转换

１）Unicode和GBK

测试结果如下，每个汉字转换为两个字节，且是可逆的，即通过字节可以转换回字符串

String－GBK〉ByteArray：u0061u4E2Du6587（a中文）－〉0x61 0xD6 0xD0

0xCE 0xC4

ByteArray－GBK〉String：0x61 0xD6 0xD0 0xCE 0xC4－〉u0061u4E2Du6587（a中文）

２）Unicode和UTF-8

测试结果如下，每个汉字转换为三个字节，且是可逆的，即通过字节可以转换回字符串

String－UTF-8〉ByteArray：u0061u4E2Du6587（a中文）－〉0x61 0xE4 0xB8

0xAD 0xE6%0x96 0x87

ByteArray－UTF-8〉String：0x61 0xE4 0xB8 0xAD 0xE6%0x96 0x87－〉u0061u4E2Du6587（a中文）

３）Unicode和ISO-8859-1

测试结果如下，当存在汉字时转换失败，非可逆，即通过字节不能再转换回字符串

String－ISO-8859-1〉ByteArray：u0061u4E2Du6587（a中文）－〉0x61 0x3F

0x3F

ByteArray－ISO-8859-1〉String：0x61 0x3F 0x3F－〉u0061u003Fu003F（a??）

３、Unicode与各编码之间的交叉转换

在上面直接转换中，由字符串（Unicode）生成的字节数组，在构造回字符串时，使用的是正确的编码集合，如果使用的不是正确的编码集合会怎样呢？会正确构造吗？如果不能正确构造能有办法恢复吗？会信息丢失吗？

下面我们就来看看这种情况，这部分可以说明在某些情况下虽然我们最终正确显示了结果，但其间仍然进行了不正确的转换。

１）能够正确显示的中间不正确转换

我们知道String－GBK〉ByteArray－GBK〉String是正确的，但如果我们采用String－GBK〉ByteArray－ISO-8859-1〉String呢？通过测试结果如下：

String－GBK〉ByteArray－ISO-8859-1〉String：u0061u4E2Du6587（a中文）－〉0x61 0xD6 0xD0 0xCE 0xC4－〉u0061u00D6u00D0u00CEu00C4（a????）

这时我们得到的字符串为？乱码“a????”，但是通过继续转换我们仍然可以复原回正确的字符串“a中文”，过程如下：

String－GBK〉ByteArray－ISO-8859-1〉String－ISO-8859-1〉ByteArray－GBK〉String

对应：u0061u4E2Du6587（a中文）－〉0x61 0xD6 0xD0 0xCE 0xC4－〉u0061u00D6u00D0u00CEu00C4（a????）－〉0x61 0xD6 0xD0 0xCE 0xC4－〉u0061u4E2Du6587（a中文）

也就是我们在首次构造字符串时，我们用了错误的编码集合得到了错误的乱码，但是我们通过错上加错，再用错误的编码集合获取字节数组，然后再用正确的编码集合构造，就又恢复了正确的字符串。这时就属于是“能够正确显示的中间不正确转换”。在Jsp页面提交数据处理时常常发生这种情况。

此外能够正确显示的中间不正确转换还有：

String－UTF-8〉ByteArray－ISO-8859-1〉String－ISO-8859-1〉ByteArray－UTF-8〉String

和

String－UTF-8〉ByteArray－GBK〉String－GBK〉ByteArray－UTF-8〉String

对应：u0061u4E2Du6587（a中文）－〉0x61 0xE4 0xB8 0xAD 0xE6%0x96 0x87－〉u0061u6D93uE15Fu6783（a涓枃）－〉0x61 0xE4 0xB8 0xAD 0xE6%0x96

0x87－〉u0061u4E2Du6587（a中文）

４、编码过程中错误诊断参考

１）一个汉字对应一个问号

在通过ISO-8859-1从字符串获取字节数组时，由于一个Unicode转换成一个byte，当遇到不认识的Unicode时，转换为0x3F，这样无论用哪种编码构造时都会产生一个？乱码。

２）一个汉字对应两个问号

在通过GBK从字符串获取字节数组时，由于一个Unicode转换成两个byte，如果此时用ISO-8859-1或用UTF-8构造字符串就会出现两个问号。

若是通过ISO-8859-1构造可以再通过上面所说的错上加错恢复（即再通过从ISO-8859-1解析，用GBK构造）；

若是通过UTF-8构造则会产生Unicode字符＂uFFFD＂，不能恢复，若再通过String－UTF-8〉ByteArray－GBK〉String，则会出现杂码，如a锟斤拷锟斤拷

３）一个汉字对应三个问号

在通过UTF-8从字符串获取字节数组时，由于一个Unicode转换成三个byte，如果此时用ISO-8859-1构造字符串就会出现三个问号；用GBK构造字符串就会出现杂码，如a涓枃。

本文标签：编码字符串字节构造

版权声明：本文标题：Unicode,ISO-8859-1,GBK,UTF-8编码及相互转换内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dianzi/1705152365a125489.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

Unicode,ISO-8859-1,GBK,UTF-8编码及相互转换

更多相关文章

U盘文件夹损坏0字节：数据恢复实战指南

U盘容量变0字节：故障解析与数据拯救指南

Python基础教程(第3版)读书笔记：第3章 使用字符串

浏览器演化中用户代理字符串的 “无间道”

u盘0字节怎么回事文件？数据恢复这样做

在计算机上格式u盘启动,请问U盘制作成启动盘后插电脑上显示0字节，打不开也无法格式化，提示磁盘写有保护怎么回事？...

大小端字节序问题

C语言中的位域、字节序、比特序、大小端

Python解决print输出中文却输出十六进制字符串

2024新型面试题-血虐面试官斩获字节跳动Offer！Android 精选版面试题级答案（Android+Java+算法+性能优化+四大组件

2021新型面试题-血虐面试官斩获字节跳动Offer！Android 精选版面试题级答案（Android+Java+算法+性能优化+四大组件...）

跳槽了...历经字节测试岗3轮面试，4个小时灵魂拷问，结局透心凉...

SD卡CF卡U盘硬盘等磁盘属性显示为0字节怎么恢复数据

2021最新大厂前端面试题总结（百度、字节跳动、腾讯、小米.....），附面试经验！

小米前端面试、字节跳动前端面试、百分点前端面试-面试总结

字符串和格式化输入输出

C | 字符串和格式化输入输出

3月面试字节一面就被刷，9月二战字节终于上岸，准备了小半年，这我要个28K应该也不过分吧？

双非一本后端进字节跳动了，纯分享

Java 字符串高效率拼接：+，contact，StringBuffer，StringBuilder 的性能比较，使用JProfiler测试

发表评论

推荐文章

chrome浏览器完整保存整个网页 可离线访问

Chrome浏览器内置翻译功能突然失效(自动翻译不跳出来)解决方案

真的需要一个WiFi 6路由器吗？

由Win10系统ntoskrnl.exe引起电脑蓝屏几个解决参考

Win11自动关机设置在哪？Win11设置自动关机的两种方法

热门文章

AI工具（ChatGPT）常用指令，持续更新...

你与弄懂promise之间可能只差这篇文章（二）

浏览器翻译功能在哪里，如何使用浏览器翻译网页

mac下关闭chrome浏览器的自动更新

centos 使用chrome浏览器 中文乱码显示方框解决

解决Chrome浏览器检测不到HTCVIVE设备导致Three.js案例显示VR NOT SUPPORTED的问题

Python使用selenium附加已经打开的Chrome浏览器

韦东山开发板恢复出厂系统

连接手机、PC后，SD卡文件不显示怎么解决？

移动硬盘连接计算机接口类型,移动硬盘数据线接口类型有哪几种-单usb接口

最新文章

考研英语 长难句训练day11

谈逻辑与数学界线之淡化(修正版)

excel VLOOKUP和MATCH结合使用匹配数据

[开源项目学习]langchain-chatchat学习笔记3

《论工业社会及其未来》—泰德.卡辛斯基

分享会笔记——关于批评

latex 报错 Missing control sequence inserted. ...巴拉巴拉一堆汉字名.png

20201126英语单词学习（仅供自己记录）

Unskilled in English is looked down on by people （composition）

语法长难句-----比较级的特殊用法as专题

【论文泛读】Logical Natural Language Generation from Open-Domain Tables

情绪ABC理论

python序列如何使用 特点是什么_Python 序列的切片操作与技巧

已解决：KeyError ‘attention_mask‘

Python 问题复盘解析

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

Python基础教程(第3版)读书笔记：第3章使用字符串

chrome浏览器完整保存整个网页可离线访问

centos 使用chrome浏览器中文乱码显示方框解决

考研英语长难句训练day11

python序列如何使用特点是什么_Python 序列的切片操作与技巧

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载