
Python文本挖掘系统。
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
文本挖掘系统系统说明,具备了文本过滤、去重以及邮件实时通知等关键特性。该系统还集成了文本关键字提取功能,能够精准地识别文本中的重要信息。此外,它还提供了文本分类(即打标签)的功能,便于对文本进行归类和管理。同时,该系统还支持文本推荐,例如基于景点评价的个性化推荐服务。为了保证系统的稳定性和适应性,我们采用了中英文双语系统架构图。在分词方面,我们采用了英文分词工具包NLTK,并利用pip安装nltk;同时,我们也采用中文分词工具包jieba,通过pip安装jiebajieba。jieba使用主词典文件和用户词典文件进行分词,主词典文件(user_dict)作为分词白名单,用于定义允许分词的单词列表。用户词典user_dict则允许自定义分词白名单,添加无法正确分词的单词及其频率到主字典dict文件中或用户词典user_dict中(每行一个)。关于停用词、黑名单和白名单:stopwords定义了需要排除的停用词,可以随时添加重启的单词;blackwords则用于过滤黑名单单词,同样可以随时添加需要过滤的单词(每行一个)。
全部评论 (0)
还没有任何评论哟~


