python读取数据出现UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc8 in position 0: invalid contin
报错的含义是:unicodedecodeerror:“utf-8”编解码器无法解码位置0中的字节0xce:inva字符编码问题1.ASCLL与GB2312**国标码是汉字的国家标准编码,目前主要有GB2312、GBK、GB18030三种。GB2312编码方案于1980年发布,收录汉字6763个,采用双字节编码。GBK编码方案于1995年发布,收录汉字21003个,采用双字节编码。GB...
报错的含义是:unicodedecodeerror:“utf-8”编解码器无法解码位置0中的字节0xce:inva
字符编码问题
1.ASCLL与GB2312
**国标码是汉字的国家标准编码,目前主要有GB2312、GBK、GB18030三种。
GB2312编码方案于1980年发布,收录汉字6763个,采用双字节编码。
GBK编码方案于1995年发布,收录汉字21003个,采用双字节编码。
GB18030编码方案于2000年发布第一版,收录汉字27533个;2005年发布第二版,收录汉字70000余个,以及多种少数民族文字。GB18030采用单字节、双字节、四字节分段编码。**斜体样式
2.Unicode
Unicode把所有语言都统一到一套编码里,这样就不会再有乱码问题了。Unicode标准也在不断发展,但最常用的是用两个字节表示一个字符(如果要用到非常偏僻的字符,就需要4个字节)
3.UTF-8
UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节,常用的英文字母被编码成1个字节,汉字通常是3个字节,只有很生僻的字符才会被编码成4-6个字节。如果你要传输的文本包含大量英文字符,用UTF-8编码就能节省空间。
结果办法
1.解决办法修改数据集的编码格式,重新读取即可。
txt = pd.read_csv(‘C:/Users/xxx/Desktop/文本.txt’,sep = ‘\t’,encoding = ‘utf-8’)
print(txt)
结果如下:
2.写个小函数判断到底是个别数据编码还是整体数据集编码不对
测试python3
#以读入文件为例:
f = open("C:/Users/xxxx/Desktop/文本.txt","rb")#二进制格式读文件
i = 0
while True:
i += 1
print(i)
line = f.readline()
if not line:
break
else:
try:
line.decode('utf8')
#为了暴露出错误,最好此处不print
except:
print(str(line))
结果如下:
注:显示中文部分无法解析。
读取时也可以用二进制模式打开的文件(包括模式参数中的’b’)将内容作为字节对象,而不进行任何解码。 然后使用line.decode(‘gbk’)解码,其中的errors参数: 修改字符集参数,一般这种情况出现得较多是在国标码(GBK)和utf8之间选择出现了问题。 出现异常报错是由于设置了decode()方法的第二个参数errors为严格(strict)形式造成的,因为默认就是这个参数,将其更改为ignore等即可。
更多推荐
所有评论(0)