更多课程 选择中心


Python培训

400-111-8989

快速掌握Python爬虫XPath语法


xpath是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历,XPath 通过使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和在常规的电脑文件系统中看到的表达式非常相似。下面一起与Python培训的小编来学习一下。

首先想要学好xpath,首先要搞明白html文档中的节点。代码如下:

<div>

<ul>

<li class="item-0"><a href="link1.html">first item</a></li>

<li class="item-1"><a href="link2.html">second item</a></li>

<li class="item-inactive"><a href="link3.html">third item</a></li>

<li class="item-1"><a href="link4.html">fourth item</a></li>

<li class="item-0"><a href="link5.html">fifth item</a> # 注意,此处缺少一个 </li> 闭合标签

</ul>

</div>

以上是在网上随便找的一段html的文本,可以观察得到,div的标签下是ul标签,而ul标签下是li标签,于是发现html的标签是一级一级如树状的。Xpath正是通过这样的方式去寻找。以生活中举例,要确定一个人的位置,首先确定他在中国,然后确定他在某个省份,哪座城市,那个小区,最后找到他。

什么是lxml库?

简单介绍一下lxml库,学习过程中可能会遇到

lxml是一个HTML/XML的解析器,主要的功能是如何解析和提取HTML/XML 数据。

lxml和正则一样,也是用C实现的,是一款高性能的PythonHTML/XML解析器,可以利用之前学习的XPath语法,来快速的定位特定元素以及节点信息。

Xpath,是在爬虫中常见的提取数据的方式之一,相比于正则,它更加简单一些,便于操作,xpath的难点在于准确的确定数据所在的位置。

文章来源:腾讯云社区,版权声明:转载文章来自公开网络,版权归作者本人所有,推送文章除非无法确认,我们都会注明作者和来源。如果出处有误或侵犯到原作者权益,请与我们联系删除或授权事宜。

预约申请免费试听课

填写下面表单即可预约申请免费试听! 怕学不会?助教全程陪读,随时解惑!担心就业?一地学习,可全国推荐就业!

上一篇:Python tkinter编程的pack布局方式
下一篇:GUI编程基础知识点总结

如何自学Python?

说一说python中的几个基础语法

为什么Python类语法应该不同?

0基础入门Python,3 个常识点必须先了解!

  • 扫码领取资料

    回复关键字:视频资料

    免费领取 达内课程视频学习资料

Copyright © 2023 Tedu.cn All Rights Reserved 京ICP备08000853号-56 京公网安备 11010802029508号 达内时代科技集团有限公司 版权所有

选择城市和中心
黑龙江省

吉林省

河北省

湖南省

贵州省

云南省

广西省

海南省