本研究利用包含3460万条亚马逊用户评论的大型语料库,深入探讨了电商环境中消费者评论的情感倾向及其对产品销售的影响。通过先进的自然语言处理技术,我们解析和分类这些海量数据中的情感信息,为商家提供基于数据分析的产品改进策略建议,并帮助潜在买家做出更明智的购买决策。
概述
我们利用了Jure Leskovec在18年收集的数据集来构建一个情感字典,该字典包含97,436个唯一单词,并且每个单词都对应着零中心浮点情感得分。
过程
首先对数据进行了预处理以删除不必要的信息。我们的分析仅限于评论文本及其对应的星级评分。在完成预处理后,我们使用MapReduce技术来计算每颗星(从1到5)下各个词汇的出现频率。随后根据这些词频编写了一种情感评估算法来推算每个单词的情感得分。
结果
正面评价相关词汇及相应分数如下:
- 好的:0.152603809091
- 伟大的:3.78021467713
- 惊人的:6.8840020218
- 精彩的:6.54080771437
- 完美的:5.78771983374
- 非同凡响:5.72747983897
- 最好的:6.05087919002
负面评价相关词汇及相应分数如下:
- 坏的:-5