
粤语分词工具:Cantonese-Corpus
5星
- 浏览量: 0
- 大小:None
- 文件类型:ZIP
简介:
Cantonese-Corpus是一款专业的粤语分词工具,旨在为语言研究者和学习者提供准确、高效的文本处理服务。
粤语分析
使用pycantonese作为粤语语料库及分析工具。
分词工具采用jieba进行分词处理,但需从pycantonese中获取相应的字典文件以支持粤语词汇的正确切分。
具体操作:
- 使用.datainit_dict.txt 文件初始化分词模型,可以添加一些常用词语。格式为:[单词] [词频] [词性]。例如:嗰度 120 r
- 运行word_dictionary.py脚本以生成词汇字典,在.data文件夹下会创建名为dict.txt的文件。
- 使用word_segment.py进行分词操作,运行后可以查看到相应的分词结果。
全部评论 (0)
还没有任何评论哟~


