python判断网页编码方式

在解析网页的过程中往往会遇到网页乱码的情况，自己去看网页源代码往往不太准确，这时候就需要用代码去判断网页源代码的编码方式，一共介绍三种方式：（推荐第二种）这里以百度首页为例url = 'http://www.baidu.com'一，使用urllib模块的getparam方法import urllib#获取网页信息data =urllib.urlopen(url).info...

shao824714565

30432人浏览 · 2018-08-29 09:47:15

shao824714565 · 2018-08-29 09:47:15 发布

在解析网页的过程中往往会遇到网页乱码的情况，自己去看网页源代码往往不太准确，这时候就需要用代码去判断网页源代码的编码方式，一共介绍三种方式：（推荐第二种）

这里以百度首页为例

url = 'http://www.baidu.com'

一， 使用urllib模块的getparam方法

import urllib
#获取网页信息
data =urllib.urlopen(url).info()
#判断网页编码方式
print data.getparam('charset')

二，使用chardet中detect方法

import urllib
import chardet
#读取网页内容
data = urllib.urlopen(url).read()
#chardet解析网页
chardet1 = chardet.detect(data)
print chardet1['encoding']

三，使用BeautifulSoup模块方法

import urllib
from bs4 import BeautifulSoup
content = urllib.urlopen(url)
soup = BeautifulSoup(content)
print soup.origianl_encoding

HarmonyOS开发者社区

讨论HarmonyOS开发技术，专注于API与组件、DevEco Studio、测试、元服务和应用上架分发等。

更多推荐

2024 HarmonyOS极客马拉松

HarmonyOS开发者社区

鸿蒙OS初体验：从0到1的开发者之路·北京

HarmonyOS开发者社区

鸿蒙OS初体验：从0到1的开发者之路·深圳

HarmonyOS开发者社区

所有评论(0)

查看更多评论

shao824714565

@shao824714565

已为社区贡献1条内容