
NLTK在健康领域英文文本中的分词、词性标注及词频统计
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本研究运用Python NLTK库对健康领域的英文文本进行分词与词性标注,并统计分析词汇频率,为相关主题的深入探讨提供数据支持。
import re
import numpy as np
import pandas as pd
import nltk.tokenize as tk
import nltk.corpus as nc
handle_file = health_handel.csv # 分词后要保存的数据文件路径
# 读取数据
data = pd.read_excel(health.xlsx)
print(data.head(10))
stopwords = nc.stopwords.words(english) # 停用词
tokenizer = tk.WordPunctTokenizer() # 分词器
全部评论 (0)
还没有任何评论哟~


