python判断网页编码方式
在解析网页的过程中往往会遇到网页乱码的情况,自己去看网页源代码往往不太准确,这时候就需要用代码去判断网页源代码的编码方式,一共介绍三种方式:(推荐第二种)这里以百度首页为例url = 'http://www.baidu.com'一, 使用urllib模块的getparam方法import urllib#获取网页信息data =urllib.urlopen(url).info...
·
在解析网页的过程中往往会遇到网页乱码的情况,自己去看网页源代码往往不太准确,这时候就需要用代码去判断网页源代码的编码方式,一共介绍三种方式:(推荐第二种)
这里以百度首页为例
url = 'http://www.baidu.com'
一, 使用urllib模块的getparam方法
import urllib
#获取网页信息
data =urllib.urlopen(url).info()
#判断网页编码方式
print data.getparam('charset')
二,使用chardet中detect方法
import urllib
import chardet
#读取网页内容
data = urllib.urlopen(url).read()
#chardet解析网页
chardet1 = chardet.detect(data)
print chardet1['encoding']
三,使用BeautifulSoup模块方法
import urllib
from bs4 import BeautifulSoup
content = urllib.urlopen(url)
soup = BeautifulSoup(content)
print soup.origianl_encoding
更多推荐
已为社区贡献1条内容
所有评论(0)