Advertisement

人工智能项目实践之网络爬虫——古诗词爬取与文本分析,涵盖13个朝代的3万余名诗人及85万首诗歌数据,并实现主题分类和相关作品推荐

  • 5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
本项目通过网络爬虫技术收集了跨越13个朝代、涉及3万余名诗人的85万首古诗词数据,运用文本分析进行主题分类并提供个性化作品推荐。 该项目涉及古诗词爬虫及文本挖掘技术,涵盖13个朝代的超过3万条诗人数据、85万多首诗词作品的数据集,并包括主题聚类、相关诗词推荐、藏头诗生成以及诗词翻译等功能的算法实现。项目开源了以下内容: - 爬虫和数据清洗代码(具体功能见文件第一行注释) - 数据整理结果:13个朝代的诗人信息,85万多首古诗词作品,超过10万条意象记录,近2万首附有译文、注解与赏析的诗词 - 各个朝代不同省市的诗人分布情况 - 主题聚类和推荐模型(topic_model&LSA) - 使用GPT2-Chinese-old_gpt_2实现藏头诗生成功能,并提供训练好的模型,支持用户输入格律、风格及特定字词自动生成诗歌 - 利用Bert构建翻译模型,包含预训练的模型文件,在输入文言文或古诗词后能够输出相应的白话文解释。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • ——13385
    优质
    本项目通过网络爬虫技术收集了跨越13个朝代、涉及3万余名诗人的85万首古诗词数据,运用文本分析进行主题分类并提供个性化作品推荐。 该项目涉及古诗词爬虫及文本挖掘技术,涵盖13个朝代的超过3万条诗人数据、85万多首诗词作品的数据集,并包括主题聚类、相关诗词推荐、藏头诗生成以及诗词翻译等功能的算法实现。项目开源了以下内容: - 爬虫和数据清洗代码(具体功能见文件第一行注释) - 数据整理结果:13个朝代的诗人信息,85万多首古诗词作品,超过10万条意象记录,近2万首附有译文、注解与赏析的诗词 - 各个朝代不同省市的诗人分布情况 - 主题聚类和推荐模型(topic_model&LSA) - 使用GPT2-Chinese-old_gpt_2实现藏头诗生成功能,并提供训练好的模型,支持用户输入格律、风格及特定字词自动生成诗歌 - 利用Bert构建翻译模型,包含预训练的模型文件,在输入文言文或古诗词后能够输出相应的白话文解释。
  • 码(gsww.zip)
    优质
    gsww.zip包含用于从古诗文网抓取数据的Python代码和相关资源。此工具旨在帮助用户收集网站上的古典诗词文献信息,便于研究与学习。 此压缩包包含使用scrapy框架爬取古诗文网全部代码的示例,希望能为正在学习或使用scrapy框架的人提供参考。
  • 4汇总表(含者、).xlsx
    优质
    此Excel表格汇集了唐代约四万首诗歌,详细记录每首诗词的名称及其全文,并标注其创作作者,是研究唐诗的重要资料库。 唐诗四万首的整理工作已经完成,包括作者、诗歌名称以及诗词内容。
  • 资料集,者、内容
    优质
    这是一部全面汇集中国古代诗歌的作品集,收录了从先秦至明清各个时期著名诗人及其经典作品,详细提供每位作者的生平背景、所处朝代以及具体诗词内容。 我有将近一千首古诗的数据集,其中包括作者、朝代、题目以及内容的信息。
  • 学习记录:抓
    优质
    本篇博客记录了作者在学习和实践网络爬虫技术过程中,如何利用Python编写代码来抓取古诗文网上的诗歌与文章的过程及心得。 目标网站:https://so.gushiwen.org/shiwen/default.aspx 爬虫目的:从该网站抓取古诗的内容、作者及朝代,并保存到本地文件中。 爬虫程序: ```python # -*- coding:utf-8 -*- import requests import re def write_data(data): with open(诗词.txt, a) as f: f.write(data) for i in range(1, 10): url = http://example.com # 示例网址,实际应替换为正确的URL地址 ```
  • 合集(txt格式)
    优质
    本作品汇集了七万余首古诗词,以简洁明了的TXT格式提供,便于阅读与研究,是文学爱好者和学者不可多得的资料库。 某诗词网站爬取的古诗词数据(.txt)文件中共有74701首古诗词。每首诗包含诗名、年代、作者及正文内容,并且各首诗之间以空行分隔,便于处理。
  • 利用 Scrapy 架构中国三百
    优质
    本项目使用Scrapy框架设计并实现了对“中国古诗网”上《唐诗三百首》的数据爬取工作,旨在收集和整理古典文学资源。 使用 scrapy 爬虫架构爬取中国古诗网的唐诗三百首。
  • 表格结构SQL(dt_a_table_bbs_2020-05-13.sql),包含422
    优质
    本文件为dt_a_table_bbs_2020-05-13.sql,内含422首古诗词的结构化数据表,便于SQL查询和分析。每首诗包括标题、作者及全文等信息。 提供一个包含422首古诗词的SQL文件,其中包括每首诗的标题、作者、朝代、内容及注解的信息。该文件可以直接用于创建数据库并导入数据。
  • 用Python编写【1钟】生成
    优质
    本教程教授如何利用Python编程语言,在短短一分钟内创作出具有古典韵味的诗词。通过简单的代码实现自动化古诗生成,适合对文学和计算机科学都感兴趣的初学者探索尝试。 使用Python的gensim库进行词向量训练可以在一分钟内完成,而基于这些词向量生成诗词歌赋仅需一秒。
  • 自动
    优质
    简介:自动诗歌创作的人工智能写词机能够运用先进的自然语言处理技术,解析与学习海量文学作品,自动生成风格各异、富有创意的诗词,为文学创作提供新颖灵感。 通过运用深度学习中的自然语言处理技术来自动学习全唐诗,并最终能够创作出符合固定格式的唐诗。