Python抓取时怎么样抓取中文编码-群英

注册有礼

安全服务
云等保
云上等保、安全合规

大带宽
广西三线（东盟机房）

合作伙伴招募
合作与共赢，期待您的加入

高防推广大使
合作与共赢，期待您的加入

裸金属管理系统
专属智能化软件管理系统

Python抓取时怎么样抓取中文编码

Admin 2022-07-15 群英技术资讯 723 次浏览

上一篇：Python中yield的的基本使用是怎样的下一篇：Python Cookie库用于做什么，如何操作

这篇文章主要讲解了“Python抓取时怎么样抓取中文编码”，文中的讲解内容简单、清晰、详细，对大家学习或是工作可能会有一定的帮助，希望大家阅读完这篇文章能有所收获。下面就请大家跟着小编的思路一起来学习一下吧。

在开发自用爬虫过程中，有的网页是utf-8，有的是gb2312,有的是gbk，如果不加处理，采集到的都是乱码，解决的方法是将html处理成统一的utf-8编码

版本python2.7

#coding:utf-8
import chardet
#抓取网页html
line = "http://www.pythontab.com"
html_1 = urllib2.urlopen(line,timeout=120).read()
encoding_dict = chardet.detect(html_1)
print encoding
web_encoding = encoding_dict['encoding']
#处理，整个html就不会是乱码。
if web_encoding == 'utf-8' or web_encoding == 'UTF-8':
html = html_1
else :
html = html_1.decode('gbk','ignore').encode('utf-8')

这篇关于“Python抓取时怎么样抓取中文编码”的文章就介绍到这了,更多相关的内容，欢迎关注群英网络，小编将为大家输出更多高质量的实用文章！

群英智防CDN，智能加速解决方案

标签： python抓取中文编码

免责声明：本站发布的内容（图片、视频和文字）以原创、转载和分享为主，文章观点不代表本网站立场，如果涉及侵权请联系站长邮箱：mmqy2019@163.com进行举报，并提供相关证据，查实之后，将立刻删除涉嫌侵权内容。

上一篇：Python中yield的的基本使用是怎样的下一篇：Python Cookie库用于做什么，如何操作

猜你喜欢

云活动

云活动

相关标签

成为群英会员,开启智能安全云计算之旅

专业资深工程师驻守

7X24小时快速响应

一站式无忧技术支持

免费备案服务

产品与服务云服务器智防系统服务器租用服务器托管虚拟主机

帮助中心注册与购买备案问题鹰云服务器问题服务器托管问题域名问题高防服务器问题服务器租用问题

关于群英群英简介公司动态资质荣誉发展历程群英环境汇款信息备案中心联系我们

其他数据中心生态合作

友情链接
友链合作群英网络智帝云主机评测 idc公司商城系统跨境电商主机吧酷库博客 OA系统腾讯企业邮箱锐成信息 sdwan

关注或联系群英网络

7x24小时售前：400-678-4567

7x24小时售后：0668-2555666

24小时QQ客服

群英微信公众号

Copyright © QY Network Company Ltd. All Rights Reserved. 2003-2020 群英版权所有

增值电信经营许可证 : B1.B2-20140078 粤ICP备09006778号域名注册商资质粤 D3.1-20240008

免费拨打 400-678-4567

免费拨打 400-678-4567

免费拨打 400-678-4567 或 0668-2555555

在线客服

在线客服

微信公众号

返回顶部

返回顶部

在线客服

在线客服