30ad7fd14c41fc12a527bae6872463f5.png

很多同学会遇到Python爬虫得到的HTML乱码的问题。其实这个问题搞清楚逻辑,就能够解决。

  1. 一般爬虫
import 

点开html中的链接,看到乱码了。

dc26bb16afcd679e729aee6178aab7d3.png
图1:乱码

2. 问题处理

①首先,在google中输入电影“无名之辈”的链接(https://www.ygdy8.com//html/gndy/dyzz/20190104/58016.html),然后Ctrl+U,查看源代码页。

381a46ec813b0329155883a2e81d33ed.png
图2:点开google浏览器的源代码页

②在源代码第4行,找到charset=gb2312,说明这个网页的字体是gb2312的格式。python默认字体是utf-8。转码!

③转码

import 

加上转码一行,那么html就正常了。

1e83c79e7489d28fef181fcc9cb5af02.png
图3:转码之后的爬虫结果

3.结语

以上就是乱码问题的处理。希望对大家有益~

Logo

瓜分20万奖金 获得内推名额 丰厚实物奖励 易参与易上手

更多推荐