
基于BTM主题模型的短文本分类研究论文.pdf
5星
- 浏览量: 0
- 大小:None
- 文件类型:PDF
简介:
本论文探讨了基于BTM(Bag-of-Topics Model)的主题模型在短文本分类中的应用效果,通过实验分析验证其优势与局限。
为了解决短文本特征较少导致传统文本分类算法效果不佳的问题,提出了一种结合BTM主题模型与改进的特征权重计算方法来进行短文本分类的新策略。具体而言,在TF-IWF的基础上降低词频(term frequency)的影响,并引入了词语分布熵的概念来优化权重计算方式。此外,利用BTM主题模型中每个主题下的词汇补充那些词数较少文档的内容,同时选择每篇文档在各个主题中的概率分布作为另一部分特征输入。通过KNN算法进行多组分类实验后发现,该方法相比传统的TF-IWF等传统方法,在F1值上提高了约10%,从而验证了此综合特征提取策略的有效性。
全部评论 (0)
还没有任何评论哟~


