
使用 BeautifulSoup 提取 a 标签内的文本内容
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本教程将指导读者如何利用Python中的BeautifulSoup库提取HTML文档中a标签内部的纯文本信息,帮助理解网页抓取的基础技巧。
下面的代码用于从一个HTML文件中提取所有``标签中的文本内容,并将其输出到一个新的txt文件中。
```python
from bs4 import BeautifulSoup
# 打开并读取word.txt文件的内容
with open(word.txt, r) as f:
html = f.read()
# 使用BeautifulSoup解析HTML文档
soup = BeautifulSoup(html, lxml)
# 遍历所有标签,提取其中的文本内容,并将其写入到five_star.txt中
with open(five_star.txt, a) as output_file:
for item in soup.find_all(a):
text_content = item.string # 获取每个标签中的字符串内容
if text_content is not None: # 确保提取的文本不为空
output_file.write(text_content + \n)
```
这段代码首先读取一个名为`word.txt`的文件,然后使用BeautifulSoup解析其中的内容。接着遍历文档中所有的``标签,并将这些标签中的文字内容写入到另一个叫做`five_star.txt`的文本段落件里。
全部评论 (0)
还没有任何评论哟~


