报错的含义是:unicodedecodeerror:“utf-8”编解码器无法解码位置0中的字节0xce:inva

字符编码问题

1.ASCLL与GB2312

**国标码是汉字的国家标准编码,目前主要有GB2312、GBK、GB18030三种。
GB2312编码方案于1980年发布,收录汉字6763个,采用双字节编码。
GBK编码方案于1995年发布,收录汉字21003个,采用双字节编码。
GB18030编码方案于2000年发布第一版,收录汉字27533个;2005年发布第二版,收录汉字70000余个,以及多种少数民族文字。GB18030采用单字节、双字节、四字节分段编码。**斜体样式

2.Unicode

Unicode把所有语言都统一到一套编码里,这样就不会再有乱码问题了。Unicode标准也在不断发展,但最常用的是用两个字节表示一个字符(如果要用到非常偏僻的字符,就需要4个字节)

3.UTF-8

UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节,常用的英文字母被编码成1个字节,汉字通常是3个字节,只有很生僻的字符才会被编码成4-6个字节。如果你要传输的文本包含大量英文字符,用UTF-8编码就能节省空间。

结果办法

1.解决办法修改数据集的编码格式,重新读取即可。

txt = pd.read_csv(‘C:/Users/xxx/Desktop/文本.txt’,sep = ‘\t’,encoding = ‘utf-8’)
print(txt)

结果如下:

在这里插入图片描述

2.写个小函数判断到底是个别数据编码还是整体数据集编码不对
测试python3
#以读入文件为例:
f = open("C:/Users/xxxx/Desktop/文本.txt","rb")#二进制格式读文件
i = 0
while True:
    i += 1
    print(i)
    line = f.readline()
    if not line:
        break
    else:
        try:
            line.decode('utf8')
            #为了暴露出错误,最好此处不print
        except:
            print(str(line))

结果如下:
在这里插入图片描述
注:显示中文部分无法解析。

读取时也可以用二进制模式打开的文件(包括模式参数中的’b’)将内容作为字节对象,而不进行任何解码。 然后使用line.decode(‘gbk’)解码,其中的errors参数: 修改字符集参数,一般这种情况出现得较多是在国标码(GBK)和utf8之间选择出现了问题。 出现异常报错是由于设置了decode()方法的第二个参数errors为严格(strict)形式造成的,因为默认就是这个参数,将其更改为ignore等即可。

Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐