python读取数据出现UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc8 in position 0: invalid contin

报错的含义是:unicodedecodeerror:“utf-8”编解码器无法解码位置0中的字节0xce:inva字符编码问题1.ASCLL与GB2312**国标码是汉字的国家标准编码，目前主要有GB2312、GBK、GB18030三种。GB2312编码方案于1980年发布，收录汉字6763个，采用双字节编码。GBK编码方案于1995年发布，收录汉字21003个，采用双字节编码。GB...

文章共759字 · 阅读需要大约3分钟

一键AI生成摘要，助你高效阅读

问答

张小杰_2016

15086人浏览 · 2019-09-08 10:52:01

张小杰_2016 · 2019-09-08 10:52:01 发布

报错的含义是:unicodedecodeerror:“utf-8”编解码器无法解码位置0中的字节0xce:inva

字符编码问题

1.ASCLL与GB2312

**国标码是汉字的国家标准编码，目前主要有GB2312、GBK、GB18030三种。
GB2312编码方案于1980年发布，收录汉字6763个，采用双字节编码。
GBK编码方案于1995年发布，收录汉字21003个，采用双字节编码。
GB18030编码方案于2000年发布第一版，收录汉字27533个；2005年发布第二版，收录汉字70000余个，以及多种少数民族文字。GB18030采用单字节、双字节、四字节分段编码。**斜体样式

2.Unicode

Unicode把所有语言都统一到一套编码里，这样就不会再有乱码问题了。Unicode标准也在不断发展，但最常用的是用两个字节表示一个字符（如果要用到非常偏僻的字符，就需要4个字节）

3.UTF-8

UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节，常用的英文字母被编码成1个字节，汉字通常是3个字节，只有很生僻的字符才会被编码成4-6个字节。如果你要传输的文本包含大量英文字符，用UTF-8编码就能节省空间。

结果办法

1.解决办法修改数据集的编码格式，重新读取即可。

txt = pd.read_csv(‘C:/Users/xxx/Desktop/文本.txt’,sep = ‘\t’,encoding = ‘utf-8’)
print(txt)

结果如下：

2.写个小函数判断到底是个别数据编码还是整体数据集编码不对

测试python3
#以读入文件为例：
f = open("C:/Users/xxxx/Desktop/文本.txt","rb")#二进制格式读文件
i = 0
while True:
    i += 1
    print(i)
    line = f.readline()
    if not line:
        break
    else:
        try:
            line.decode('utf8')
            #为了暴露出错误，最好此处不print
        except:
            print(str(line))

结果如下：
在这里插入图片描述
注：显示中文部分无法解析。

读取时也可以用二进制模式打开的文件（包括模式参数中的’b’）将内容作为字节对象，而不进行任何解码。然后使用line.decode(‘gbk’)解码，其中的errors参数: 修改字符集参数，一般这种情况出现得较多是在国标码(GBK)和utf8之间选择出现了问题。出现异常报错是由于设置了decode()方法的第二个参数errors为严格（strict）形式造成的，因为默认就是这个参数，将其更改为ignore等即可。