html 乱码_爬虫-网页乱码
很多同学会遇到Python爬虫得到的HTML乱码的问题。其实这个问题搞清楚逻辑,就能够解决。一般爬虫import 点开html中的链接,看到乱码了。图1:乱码2. 问题处理①首先,在google中输入电影“无名之辈”的链接(https://www.ygdy8.com//html/gndy/dyzz/20190104/58016.html),然后Ctrl+U,查看源代码页。图2:点开google浏览
·
很多同学会遇到Python爬虫得到的HTML乱码的问题。其实这个问题搞清楚逻辑,就能够解决。
- 一般爬虫
import
点开html中的链接,看到乱码了。
2. 问题处理
①首先,在google中输入电影“无名之辈”的链接(https://www.ygdy8.com//html/gndy/dyzz/20190104/58016.html),然后Ctrl+U,查看源代码页。
②在源代码第4行,找到charset=gb2312,说明这个网页的字体是gb2312的格式。python默认字体是utf-8。转码!
③转码
import
加上转码一行,那么html就正常了。
3.结语
以上就是乱码问题的处理。希望对大家有益~
更多推荐
已为社区贡献2条内容
所有评论(0)