
从前程无忧网抓取和可视化分析大数据职位信息的数据.rar
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本项目从中国知名招聘网站——前程无忧网获取并分析大数据职位的相关数据。通过数据清洗、统计与可视化等手段,深入了解当前市场的大数据职位需求及趋势。
# 51job_spiders 前程无忧爬虫
【程序运行前确保项目需要的库都已下载】
## 数据爬取:
1. 修改 `51job_info.py` 文件中的第66行代码,根据需求调整页数,默认为2页。如需进行大量数据分析,请修改成更高数值(例如:1000页)。
2. 运行 `51job_info.py` 脚本段落件。
3. 输入职位关键词,比如“大数据”、“C语言”或“软件开发”等。
4. 爬取到的数据将保存在名为 `51job.xls` 的Excel表格中。
程序中的注释包含了大量调试信息,在遇到异常时可以打开相关部分查看运行情况。爬取过程中因为单页内容较多,请耐心等待,确保数据完整获取。如果未能成功爬取任何信息,则可能是缺少必要的库包或该网页的源码已被修改,需要重新定义正则表达式。
## 数据清洗与可视化:
1. 运行 `51job_clean.py` 文件。
2. 默认情况下代码会对非大数据相关职位进行过滤,请根据实际搜索需求调整清洗条件。
3. 清洗后的数据将保存在名为 `51job2.xls` 的Excel表格中。如果发现错误的数据,可以通过修改清洗规则或手动删除来修正问题。
4. 运行 `51job_view.py` 文件生成动态图表,并通过浏览器打开 `.html` 格式的文件进行查看。
以上步骤可帮助用户完成从数据收集到分析展示的整个过程,请根据具体需求调整相应参数。
全部评论 (0)
还没有任何评论哟~


