学习《Python网络爬虫从入门到精通》_掌握爬虫的精髓

学习《Python网络爬虫从入门到精通》_掌握爬虫的精髓_2.4 XPath 与lxml

【摘要】本书摘自《Python网络爬虫从入门到精通》一书中第2章，第4节，吕云翔、张扬和韩延刚等编著。

2.4 XPath 与lxml

学习《Python网络爬虫从入门到精通》_掌握爬虫的精髓_2.4 XPath 与lxml

2.4.1 XPath

XPath 也就是XML Path Language (译为 “XML 路径语言”),是一种用来在XML 文档

中搜寻信息的语言。这里先来介绍一下 XML 和 HTML 的关系。所谓的 HTML(HyperText Markup Language),也就是“超文本标记语言”,是 WWW 的描述语言，其设计目标是“创建网页和其他可在网页浏览器中访问的信息”,而 XML 则是 Extentsible Markup Language (译为“可扩展标记语言”),其前身是SGML (标准通用标记语言)。简单地说，HTML 是用来显示数据的语言(同时也是 html 文件的作用), XML 是用来描述数据、传输数据的语言 (对应 xml 文件，这个意义上 XML 十分类似于 JSON) 。也有人说， XML 是对 HTML 的补充。XPath 可用来在 XML 文档中对元素和属性进行遍历，实现搜索和查询的目的， XML 与 HTML 紧密联系，开发者也可以使用 XPath 来对 HTML 文件进行查询。

XPath 的语法规则并不复杂，大家需要先了解 XML 中的一些重要概念，包括元素、属性、文本、命名空间、处理指令、注释及文档。这些都是 XML 中的“节点”, XML 文档本身就是被作为节点树来对待的，每个节点都有一个parent (父节点),比如：

TransformersMichael Bay

上面的例子里，是和的父节点。和是的子节点。和互为兄弟节点。TransformersMichael Bay

Kung Fu HustleStephen Chow

在上面的 XML 语句中，和是的先祖节点 (ancestor), 同时，和是的后辈 (descendant) 节点。

掌握这些基本内容就可以开始试着使用 XPath 了。不过在实际编程中，开发者一般不必自己编写 XPath, 使用 Chrome 等浏览器自带的开发者工具就能获得某个网页元素的 XPath 路径，然后通过分析感兴趣的元素的XPath 路径，就能编写对应的抓取语句。

2.4.2 Ixml 与 XPath 的使用

在 Python 中用于XML 处理的工具不少，比如 Python2 中的 ElementTree API 等，不过目前开发者们一般使用1xml 这个库来处理 XPath 。lxml 的构建基于两个 C 语言库：libxml2

和 libxslt, 因此，在性能方面1xml 的表现足以让人满意。另外， lxml 支持 XPath 1.0、 XSLT 1.0、定制元素类，以及Python 风格的数据绑定接口，因此受到很多人的欢迎。

当然，如果机器上没有安装lxml, 首先也要用 “pip install lxml” 命令来进行安装，安装时可能会出现一些问题(这是由 lxml 本身的特性造成的)。另外， lxml 还可以使用 easy install 等方式安装，更多详情可参照lxml 官方的说明，网址为： http://xml.de/installation.html。

Excel中怎样计算面积? Excel制作计算圆面积工具的教程-英雄云拓展知识分享

261 2023-11-13

学习《Python网络爬虫从入门到精通》_掌握爬虫的精髓_2.4 XPath 与lxml

CRM客户管理系统，如何助力企业管理客户线索，提升转化率？

Excel中怎样计算面积? Excel制作计算圆面积工具的教程-英雄云拓展知识分享

excel中怎样在窗体中绘制iPhone4模型?-英雄云拓展知识分享

最近发表

热评文章

CRM系统很重要吗？-企业客户关系管理中的重要性及其

WPS2012版本中为何看不到之前用的插件-英雄云拓

客户关系管理的核心是什么？-以客户为中心，提升企业竞

excel剪切、复制和粘贴操作，使它们不会破坏已设置

ChM格式文档处理利器：5款免费软件-英雄云拓展知识

WPS怎样制作文字打字机效果的动画?-英雄云拓展知识

热门标签

学习《Python网络爬虫 从入门到精通》_掌握爬虫的精髓_2.4 XPath 与lxml

最近发表

热评文章

热门标签

学习《Python网络爬虫从入门到精通》_掌握爬虫的精髓_2.4 XPath 与lxml