在解析网页的过程中往往会遇到网页乱码的情况,自己去看网页源代码往往不太准确,这时候就需要用代码去判断网页源代码的编码方式,一共介绍三种方式:(推荐第二种)

这里以百度首页为例

url = 'http://www.baidu.com'

一, 使用urllib模块的getparam方法

import urllib
#获取网页信息
data =urllib.urlopen(url).info()
#判断网页编码方式
print data.getparam('charset')

二,使用chardet中detect方法

import urllib
import chardet
#读取网页内容
data = urllib.urlopen(url).read()
#chardet解析网页
chardet1 = chardet.detect(data)
print chardet1['encoding']

三,使用BeautifulSoup模块方法

import urllib
from bs4 import BeautifulSoup
content = urllib.urlopen(url)
soup = BeautifulSoup(content)
print soup.origianl_encoding

 

Logo

讨论HarmonyOS开发技术,专注于API与组件、DevEco Studio、测试、元服务和应用上架分发等。

更多推荐