
基于Flask的数据集(ZIP文件)
5星
- 浏览量: 0
- 大小:None
- 文件类型:ZIP
简介:
这是一个使用Python Flask框架构建的数据集网站项目,用户可以下载ZIP格式封装的数据集合。
下载完对应的数据集之后需解压对应的zip包。
本项目包含四个.ipynb文件,下面分别阐述各个文件的功能:
数据采集:从前程无忧网站和猎聘网以关键词“数据挖掘”爬取相关岗位信息。前程无忧上共爬取了270页,超过1万多条数据;而猎聘网上只获取了400多条岗位要求文本数据。所有爬取的数据均被存储到csv文件中。
数据清洗:对采集的数据进行处理,包括去除重复项和缺失值、重新编码变量、创建特征字段以及分词等操作。
数据库存储:将清洗后的数据全部储存至MySQL数据库,并使用jieba.analyse下的extract_tags函数获取文本中的关键词及其权重大小,以便绘制词云图。
基于Flask的前后端交互:利用Python轻量级框架Flask搭建Web可视化系统。在static文件夹中包含css和js文件(大部分为百度开源ECharts),并通过自定义controller.js使用ajax调用flask已设定好的路由,将数据异步刷新至templates下的main.html页面。
全部评论 (0)
还没有任何评论哟~


