
人工智能项目实践之网络爬虫——古诗词爬取与文本分析,涵盖13个朝代的3万余名诗人及85万首诗歌数据,并实现主题分类和相关作品推荐
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本项目通过网络爬虫技术收集了跨越13个朝代、涉及3万余名诗人的85万首古诗词数据,运用文本分析进行主题分类并提供个性化作品推荐。
该项目涉及古诗词爬虫及文本挖掘技术,涵盖13个朝代的超过3万条诗人数据、85万多首诗词作品的数据集,并包括主题聚类、相关诗词推荐、藏头诗生成以及诗词翻译等功能的算法实现。项目开源了以下内容:
- 爬虫和数据清洗代码(具体功能见文件第一行注释)
- 数据整理结果:13个朝代的诗人信息,85万多首古诗词作品,超过10万条意象记录,近2万首附有译文、注解与赏析的诗词
- 各个朝代不同省市的诗人分布情况
- 主题聚类和推荐模型(topic_model&LSA)
- 使用GPT2-Chinese-old_gpt_2实现藏头诗生成功能,并提供训练好的模型,支持用户输入格律、风格及特定字词自动生成诗歌
- 利用Bert构建翻译模型,包含预训练的模型文件,在输入文言文或古诗词后能够输出相应的白话文解释。
全部评论 (0)
还没有任何评论哟~


