python的chardet怎样安装和使用?

Admin 2021-05-31 群英技术资讯 861 次浏览

        如果想要使用Python做爬虫操作,那么关于chardet库的内容是需要掌握的。对此下面就给大家介绍一下关于chardet库的安装与使用,下本有“爬虫”中使用chardet库的简单实例,感兴趣的朋友们可以看看。

    一、chardet库的安装与介绍

        玩儿过爬虫的朋友应该知道,在爬取不同的网页时,返回结果会出现乱码的情况。比如,在爬取某个中文网页的时候,有的页面使用GBK/GB2312,有的使用UTF8,如果你需要去爬一些页面,知道网页编码很重要的。

        虽然HTML页面有charset标签,但是有些时候是不对的,那么chardet就能帮我们大忙了。使用 chardet 可以很方便的实现字符串/文件的编码检测。

        如果你安装过Anaconda,那么可以直接使用chardet库。如果你只是安装了Python的话,就需要使用下面几行代码,完成chardet库的安装。

pip install chardet

        接着,使用下面这行代码,导入chardet库。

import chardet

    二、chardet库的使用

        这个小节,我们分3部分讲解。

    2.1 chardet.detect()函数

        detect()函数接受一个参数,一个非unicode字符串。它返回一个字典,其中包含自动检测到的字符编码和从0到1的可信度级别。

  • encoding:表示字符编码方式。
  • confidence:表示可信度。
  • language:语言。

        光看这个解释,大多数朋友可能看不懂,下面我们就用例子来讲述这个函数。

    2.2 使用该函数分别检测gbk、utf-8和日语

        检测gbk编码的中文:

str1 = '大家好,我是黄同学'.encode('gbk')
chardet.detect(str1)

chardet.detect(str1)["encoding"]

        结果如下:

        检测的编码是GB2312,注意到GBK是GB2312的父集,两者是同一种编码,检测正确的概率是99%,language字段指出的语言是'Chinese'。

        检测utf-8编码的中文:

str2 = '我有一个梦想'.encode('utf-8')
chardet.detect(str2)

chardet.detect(str2)["encoding"]

        结果如下:

        检测一段日文:

str3 = 'ありがとう'.encode('euc-jp')
chardet.detect(str3)

chardet.detect(str3)

        结果如下:

    2.3 如何在“爬虫”中使用chardet库呢?

        我们以百度网页为例子,进行讲述。

        这个网页的源代码,使用的是什么编码呢?我们看看源代码:

        从图中可以看到,是utf-8字符编码。

        如果不使用chardet库,获取网页源代码的时候,怎么指定字符编码呢?

import chardet
import requests

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
response = requests.get('https://www.baidu.com',headers=headers)
response.encoding = "utf-8"
response.text

        结果如下:

        你会发现:正确指定编码后,没有乱码。如果你将编码改为gbk,再看看结果。此时已经乱码。

        如果使用chardet库,获取网页源代码的时候,可以轻松指定字符编码!

import chardet
import requests

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
response = requests.get('https://www.baidu.com',headers=headers)

# 注意下面这行代码,是怎么写的?
response.encoding = chardet.detect(response.content)['encoding']
response.text

        结果如下:

        编码不用我们自己查找,也不用猜,直接交给chardet库去猜测,正确率还高。

        以上就是关于chardet安装与使用的介绍,有需要的朋友可以参考上述使用方法,希望文本对大家有帮助。想要了解更多chardet库的内容,大家可以继续关注其他文章。

文本转载自脚本之家

群英智防CDN,智能加速解决方案

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:mmqy2019@163.com进行举报,并提供相关证据,查实之后,将立刻删除涉嫌侵权内容。

猜你喜欢

成为群英会员,开启智能安全云计算之旅

立即注册
专业资深工程师驻守
7X24小时快速响应
一站式无忧技术支持
免费备案服务
免费拨打  400-678-4567
免费拨打  400-678-4567 免费拨打 400-678-4567 或 0668-2555555
在线客服
微信公众号
返回顶部
返回顶部 返回顶部
在线客服
在线客服