《机器学习实战》：UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xae in position 199: illegal multibyte|电子爱好者

admin管理员组
文章数量:1612831

问题引入

UnicodeDecodeError: 'gbk' codec can't decode byte 0xff in position 0: illegal multibyte sequence

这样的错误估计大家都不陌生。我也是被这种错误折磨许久。在open函数参数中设置encoding='utf-8’也不能解决问题，会出现UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 0: invalid start byte类似错误。
通过查询大量的资料，我才搞明白这种错误背后的原因是什么。

该问题的根源在于Windows中与Unicode的编码方法。

以系统自带的记事本为例:
记事本“另存为”中有4种编码方式，含义为：

ANSI: 对英文系统即ASCII 对中文系统即gbk/big5
Unicode: UTF-16(LE)
Unicode big endian: UTF-16(BE)
UTF-8:UTF-8-SIG

其中Unicode相关编码方式有3种，这3种编码方式的区别不再赘述，我们可以从文件的头部（即Windows中的特色！BOM:byte order mark）来区分一个文件是属于哪种编码。
当头部开始的两个字节为 FF FE时，是UTF-16(LE)编码；当头部的两个字节为FEFF时，是UTF-16(BE)编码；当头部两个字节为EF BB时，是UTF-8-sig编码。

实际问题

我遇到这样的问题是在《机器学习实战》朴素贝叶斯中，当时是对垃圾邮件分类，有50个文件，读取文件后报错。

word_list=text_parse(open('native_bayes  email dataset/ham/%d.txt'%i,'r').read()) # 读取每个非垃圾邮件，并字符串转换成字符串列表

用gbk编码的无法用utf-8解码，继续改回去，在for循环中加print(i),查看哪个txt文件出问题：


```python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
Traceback (most recent call last):
  File , line 1, in <module>
    bayes.spamTest()
  File "F:/PycharmProject/bayes_practice_1.py", line 96, in spamTest
    word_list = text_parse(open('native_bayes  email dataset/ham/%d.txt'%i,'r'' % i).read())
UnicodeDecodeError: 'gbk' codec can't decode byte 0xae in position 199: illegal multibyte sequence

查出问题在文档《23.Txt》中，“SciFinance?is ”改成“SciFinance is ”即可，原文如下：

SciFinance?is a derivatives pricing and risk model development tool that automatically generates C/C++ and GPU-enabled source code from concise, high-level model specifications. No parallel computing or CUDA programming expertise is required.

更改后问题便可解决！

本文标签：实战机器 gbk Codec Decode

版权声明：本文标题：《机器学习实战》：UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xae in position 199: illegal multibyte 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1728604471a1165276.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

《机器学习实战》：UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xae in position 199: illegal multibyte

问题引入

实际问题

更多相关文章

#yolov3笔记 UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xa2 in position 100: multibyte sequence

UnicodeDecodeError: ‘ascii‘ codec can‘t decode byte 0xd7 in position 0: ordinal not in range(128)

‘utf-8‘ codec can‘t decode byte 0xc6 in position 7: invalid continuation byte

python读取gbk文件_【python】python读取文件报错UnicodeDecodeError: 'gbk' codec can't decode byte 0xac in position...

相信我，彻底解决UnicodeDecodeError: ‘gb2312‘ codec can‘t decode byte 0xa9 in position 7211: illegal multibyt

解决‘utf-8‘ codec can‘t decode byte 0xd0 in position 398: invalid continuation byte

文件读写错误坑 之UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xac in position

【Python】UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘xxx‘ in position xxx解决

python读取字符报错：‘utf-8‘ codec can‘t decode byte 0xbd in position 2: invalid start byte

解决：UnicodeEncodeError: ‘charmap‘ codec can‘t encode characters in position 11-14:character maps to ＜

(unicode error) 'unicodeescape' codec can't decode bytes in position 12-13: truncated UXXXXXXXX esc

UnicodeDecodeError: ‘utf8‘ codec can‘t decode byte 0xd3 in position 3: invalid continuation byte

UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘xa0‘ in position 67008: illegal multibyte s

python2（中文编码问题）：UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 1

UnicodeDecodeError: ‘gbk’ codec can‘t decode byte 0xaa in position 2: illegal multibyte sequence解决方法

大数据运维实战第二十四课 Yarn 资源调度 Fair Schedule 与 Capacity Scheduler 配置选型

机器学习的三个基本量纲 Three Fundamental Dimensions for Thinking About Machine Learning Systems

七月在线Opencv学习机器视觉 学习笔记之 Fundamental of Computer Vision

机器学习(ML)、深度学习（DL）和图像处理（opencv）专用英语词典

数据挖掘与数据化运营实战

发表评论

推荐文章

机器学习模型Interpretability和Explainability之间的区别

如何理解plt.imshow()的参数interplotation

解决‘utf-8‘ codec can‘t decode byte 0xd0 in position 398: invalid continuation byte

Problem H. Curious （莫比乌斯反演）

oracle 11g sql fundamental,Oracle 11G OCP 1Z0-053 396

热门文章

迈向全球经济结算层

dubbo的Connection refused: no further information，Will not attempt to authenticate using SASL (unknow

Android热修复原理（一）热修复框架对比和代码修复

为什么STM32设置Flash地址0x08000000而不是0x00000000？STM32的启动过程

android 使用shell模拟触屏_Android按键精灵 触摸精灵 触动精灵等软件模拟屏幕点击的基本原理...

查看电脑系统是否永久激活

WINDOW140个技巧..

微服务项目启动出现com.alibaba.nacos.api.exception.NacosException: Client not connected, current status:STARTI

oracle rac 遇到insert append导致gc current request夯住

3D重构基础五－－Essential and Fundamental matrices

最新文章

文件夹加密有哪些好处？文件夹加密怎么设置?

文件夹加密解密，免安装，无注册

高强度文件夹加密——破解

win7 共享文件服务器设置密码,win7如何共享文件夹设置密码,文件夹能直接设置密码win7-...

服务器文件夹加密码怎么设置,服务器文件夹设置密码

电脑文件夹怎么加密？文件夹加密软件推荐（数据安全必备）

计算机E盘加密软件,u盘加密软件有哪些？电脑文件夹加密软件哪个好？

电脑文件夹如何加密保护？文件夹加密方法有哪些？

电脑文件加密怎么设置？手把手一步一步教给你

如何对文件、文件夹加密？

给电脑文件夹加密的一个脚本

文件夹怎么加密码？文件夹怎么设置密码？

加密文件怎么解密

用html给文件夹加密码,怎么给文件(夹)加密？电脑文件夹如何加密文件？

ftp服务器怎么创建文件夹权限设置密码,ftp服务器 创建文件夹权限设置

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

文件读写错误坑之UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xac in position

七月在线Opencv学习机器视觉学习笔记之 Fundamental of Computer Vision

android 使用shell模拟触屏_Android按键精灵触摸精灵触动精灵等软件模拟屏幕点击的基本原理...

ftp服务器怎么创建文件夹权限设置密码,ftp服务器创建文件夹权限设置

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载