
用Python编写的论坛帖子情感分析代码及数据包(可直接运行).rar
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
这段资源包含一个使用Python语言编写的论坛帖子情感分析代码和相关数据包,用户可以下载后直接运行进行情感分析实验。
课程项目文本分类分析
二、项目内容:爬取川大匿名社区SCUinfo在一段时间内的帖子,并对其进行情感分类分析,包括情绪分类(积极,消极)以及帖子内容关联分析等。
三、个人工作完成报告
3.1 工作概述:负责数据收集、预处理及简单的情感分析任务。
3.2 爬虫方案:
scuinfo为动态加载网页并且有移动端验证。使用Scrapy尝试爬取数据失败,需要对爬虫进行大量定制优化以提高效率。最终选择了之前用于爬取QQ空间的方式:利用selenium库调用firefox浏览器驱动,并通过代码模拟人为操作来获取页面数据。
在得到对应的数据后,利用etree和xpath选取目标节点的数据。
优点:
- 能轻松解决网页动态加载、登录验证及移动端验证等问题
缺点:
- 需要保持浏览器前台运行且为单线程模式,爬取效率相对较低
关键代码如下所示。
全部评论 (0)
还没有任何评论哟~


