Python爬虫Xpath定位怎么实现,方法是什么
Admin 2022-07-28 群英技术资讯 483 次浏览
使用selenium+lxml中的etree进行配合使用,使用etree解析html网页
import requests from lxml import etree import time import socket import csv from selenium import webdriver from configparser import ConfigParser from selenium.webdriver import Chrome from selenium.webdriver import ChromeOptions #禁止图片和css加载 chrome_options = webdriver.ChromeOptions() prefs = {"profile.managed_default_content_settings.images": 2} chrome_options.add_experimental_option("prefs", prefs) option = ChromeOptions() option.add_experimental_option('excludeSwitches', ['enable-automation']) # 如果想加载图片,就把下面第二句话改第一句话,删掉上面的“禁止图片和css加载”部分 # wb = Chrome(options=option) wb=webdriver.Chrome(options=chrome_options) #最大化窗口、输入网址、等待至网页加载完成(防止元素还没加载出来就开始爬了这样自然爬不到数据。如果一直加载不出就等10秒,加载好了就立刻结束等待) wb.maximize_window() wb.get("https://www.tianyancha.com/") wb.implicitly_wait(5)
然后获取网页数据,这里表明哪怕后面出错了,仍然可以延续wb的位置继续控制浏览器
data = wb.page_source time.sleep(3) data = wb.page_source time.sleep(3) page_all.append(data) html = etree.HTML(data) company = html.xpath('/html/body/div/div/div[2]/div/div[1]/div[1]/div[3]/div[1]/div[1]/div[1]/h1/text()') print(company )
这样的好处就是,对于批量处理的网页,有的标签位置不在同一个地方,那么我们就是不使用全Xpath路径,而使用相对路径,用@制定某种属性的标签,下载相关数据
"//div[@class='mainArea']/ul/li"
使用//div[@class=‘mainArea’]的意思是:从根部(//)查找 class值为 mainArea的Node.
所以,那么就很简单了 //某元素[@class=‘CLASS值’]
大家可以按照这个公式来查找 class的元素了。
剩下的 /ul/li 表示的是,继续查找 class='mainArea’的div包括的ul元素下面的li 节点集合。
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:mmqy2019@163.com进行举报,并提供相关证据,查实之后,将立刻删除涉嫌侵权内容。
猜你喜欢
python中如何实现列表去重不打乱顺序?方法一,使用集合set去重;方法二,使用用sort()中的key字段进行设定;方法三,使用reduce()函数去重
本文主要介绍了PyTorch 使用torchvision进行图片数据增广,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
这篇文章主要介绍了python设置 matplotlib 正确显示中文的四种方式,帮助大家更好的理解和学习使用python,感兴趣的朋友可以了解下
在Python里,我们有时候会做需要多行输出的程序。例如:1、点餐系统 不停地问:你要点什么食物?2、文本编辑 不停地输入文字(仅限IDLE等Python自带编辑器 )我们Python中有一种输入语句 : input。但是,它只能单行输入所以呢,我们就要通过Python的其他语句来实现多行输入
这篇文章主要介绍了基于PyQt5完成的PDF拆分功能,本文介绍的pdf拆分功能还有一些待完善地方,例如可增加预览功能,实现每页预览,以及如何实现多条件拆分,需要的朋友可以参考下
成为群英会员,开启智能安全云计算之旅
立即注册Copyright © QY Network Company Ltd. All Rights Reserved. 2003-2020 群英 版权所有
增值电信经营许可证 : B1.B2-20140078 粤ICP备09006778号 域名注册商资质 粤 D3.1-20240008