
XPath教程:学会使用XPath的方法
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本教程旨在教授读者如何运用XPath进行XML文档的数据选取与操作,涵盖基本语法、路径表达式及节点轴等内容。
在 XPath 中存在七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点。XML 文档被视为一个节点树结构,其中的最顶层被称为文档节点或根节点。XPath 术语中的“节点”涵盖了这七种类型的内容。
全部评论 (0)


简介:
本教程旨在教授读者如何运用XPath进行XML文档的数据选取与操作,涵盖基本语法、路径表达式及节点轴等内容。
在 XPath 中存在七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点。XML 文档被视为一个节点树结构,其中的最顶层被称为文档节点或根节点。XPath 术语中的“节点”涵盖了这七种类型的内容。



测试数据1
\n测试数据2
\n测试数据3
\n
图片
`标签。我们可以用`page.xpath()`函数执行此表达式,并获得一个包含匹配元素列表: ```python ps = page.xpath(p) for p in ps: print(u属性:%s % p.attrib) print(u文本:%s % p.text) ``` 在这个例子中,我们遍历所有`
`元素并打印它们的属性和内容。 此外,XPath可以选取特定条件下的元素。例如,`ptext()`仅选择所有`
`标签中的文本: ```python ts = page.xpath(p/text()) for t in ts: print(t) ``` 更复杂的表达式如:`p[@class=p1][last()]img`用于定位最后一个具有特定类名的元素内的子元素,这将选取最后一个`
`中的所有``标签,并打印其属性:
```python
ls = page.xpath(p[@class=p1][last()]/img)
for l in ls:
print(l.attrib)
```
综上所述,Python的lxml库结合XPath提供了一种强大的HTML解析和元素选取方式。这不仅提高了处理效率,也使自动化抓取、数据提取等任务变得更为便捷。