
基于Spark的新闻推荐系统——集成爬虫与Web网站的功能模块
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本项目开发了一种基于Apache Spark的大规模新闻推荐系统,结合了自动化的网络爬虫和用户友好的Web界面,实现个性化新闻内容推送。
News_recommend项目是一个基于大数据计算引擎的新闻推荐系统——今日小站。该项目包括爬虫、新闻网站(前端与后端)以及使用Spark技术的推荐系统。
一. 爬虫开发环境:pycharm+python3,软件架构为mysql + scrapy + splash。
项目描述:负责周期性地从今日头条首页抓取新闻,并过滤掉重复内容,然后将数据存入MySQL数据库中。
二. 新闻网站:
开发环境包括IntelliJ IDEA、maven和git等工具,运行在Linux系统上。技术栈是mysql+springboot。
项目概述:今日小站是一个基于Spring Boot框架的Web应用,在用户完成注册登录后可以追踪用户的浏览行为,并向用户提供个性化的新闻推荐结果。
三. 推荐系统:
开发环境为IntelliJ IDEA、maven和git,同样运行在Linux操作系统上。技术栈包括zookeeper + flume等组件。
全部评论 (0)
还没有任何评论哟~


