
Yelp 数据集中的业务类别预测。
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
类别预测信息检索最终项目(IUB 2014)所涉及的任务包括:首先,我们旨在通过分析提供的评论文本,准确地预测餐厅所属的类别。其次,任务则要求根据评论文本来推断用户对该餐厅的评分。用于此项目的关键数据集为Yelp数据集,并参与了相关的挑战赛。采用的方法主要分为两部分:第一部分借鉴了信息检索中的语言模型,具体而言,每个文档都以主题分布的形式呈现。我们运用了潜在狄利克雷分配(LDA),这是一种强大的主题建模技术,从每个类别的评论文本中提取出相应的代表性主题分布。我们假设各类别的文档是由多种主题混合而成,而文档的主题分布更能反映业务类别而非简单的词袋模型。为了衡量文档之间的相似度,我们采用了余弦相似度和海灵格距离等指标。第二部分则利用机器学习方法来预测用户对评论的评分。针对每一个特定用户,我们构建了一系列特征,这些特征主要来源于评论文本中的情感信息,并借助斯坦福NLP情感分析工具进行详细的分析和推导。随后,我们使用J48算法对训练数据进行建模和训练,并通过测试数据集对模型的性能进行评估。为了全面评估方法的有效性,我们采用了均方根误差(RMSE)、精确度、召回率以及准确率等多种指标进行综合考量。
全部评论 (0)
还没有任何评论哟~


