html 乱码_爬虫-网页乱码

很多同学会遇到Python爬虫得到的HTML乱码的问题。其实这个问题搞清楚逻辑，就能够解决。一般爬虫import 点开html中的链接，看到乱码了。图1：乱码2. 问题处理①首先，在google中输入电影“无名之辈”的链接（https://www.ygdy8.com//html/gndy/dyzz/20190104/58016.html），然后Ctrl+U，查看源代码页。图2：点开google浏览

weixin_39682944

437人浏览 · 2020-11-27 00:30:24

weixin_39682944 · 2020-11-27 00:30:24 发布

很多同学会遇到Python爬虫得到的HTML乱码的问题。其实这个问题搞清楚逻辑，就能够解决。

一般爬虫

import

点开html中的链接，看到乱码了。

图1：乱码

2. 问题处理

①首先，在google中输入电影“无名之辈”的链接（https://www.ygdy8.com//html/gndy/dyzz/20190104/58016.html），然后Ctrl+U，查看源代码页。

图2：点开google浏览器的源代码页

②在源代码第4行，找到charset=gb2312，说明这个网页的字体是gb2312的格式。python默认字体是utf-8。转码！

③转码

import

加上转码一行，那么html就正常了。

图3：转码之后的爬虫结果

3.结语

以上就是乱码问题的处理。希望对大家有益~

AtomGit 开源协作平台测评赛

瓜分20万奖金获得内推名额丰厚实物奖励易参与易上手

更多推荐

ADS1292R 使用过程心电图高精度ADC模块

文章目录1 Fundamentals ofPrecision ADC Noise Analysis 精密模数转换器噪声分析基础1 Fundamentals ofPrecision ADC Noise Analysis 精密模数转换器噪声分析基础https://www.ti.com.cn/cn/lit/wp/slyy192/slyy192.pdf?ts=1600659610730&ref_u

开放原子开发者工作坊

实现一个家庭安防与环境监测系统（一）

开放原子开发者工作坊

【cf】Codeforces Round #774 (Div. 2) 前4题

题目A. Square Counting 简单数学题目大意题解代码B. Quality vs Quantity 排序题目大意题解代码C. Factorials and Powers of Two 状态压缩dp+位运算题目大意题解代码D. Weight the Tree 树形dp+dfs题目大意题解代码E. Power Board 看起来像是数论？许多年没打cf了，偶尔打了一盘，恢复紫名了。A. S