人工智能项目实践之网络爬虫——古诗词爬取与文本分析，涵盖13个朝代的3万余名诗人及85万首诗歌数据，并实现主题分类和相关作品推荐-ITADN社区

人工智能项目实践之网络爬虫——古诗词爬取与文本分析，涵盖13个朝代的3万余名诗人及85万首诗歌数据，并实现主题分类和相关作品推荐

优质

本项目通过网络爬虫技术收集了跨越13个朝代、涉及3万余名诗人的85万首古诗词数据，运用文本分析进行主题分类并提供个性化作品推荐。该项目涉及古诗词爬虫及文本挖掘技术，涵盖13个朝代的超过3万条诗人数据、85万多首诗词作品的数据集，并包括主题聚类、相关诗词推荐、藏头诗生成以及诗词翻译等功能的算法实现。项目开源了以下内容： - 爬虫和数据清洗代码（具体功能见文件第一行注释） - 数据整理结果：13个朝代的诗人信息，85万多首古诗词作品，超过10万条意象记录，近2万首附有译文、注解与赏析的诗词 - 各个朝代不同省市的诗人分布情况 - 主题聚类和推荐模型（topic_model&LSA） - 使用GPT2-Chinese-old_gpt_2实现藏头诗生成功能，并提供训练好的模型，支持用户输入格律、风格及特定字词自动生成诗歌 - 利用Bert构建翻译模型，包含预训练的模型文件，在输入文言文或古诗词后能够输出相应的白话文解释。

古诗文网数据爬取代码(gsww.zip)

优质

gsww.zip包含用于从古诗文网抓取数据的Python代码和相关资源。此工具旨在帮助用户收集网站上的古典诗词文献信息，便于研究与学习。此压缩包包含使用scrapy框架爬取古诗文网全部代码的示例，希望能为正在学习或使用scrapy框架的人提供参考。

唐代诗歌4万首汇总表（含作者、诗名及全文）.xlsx

优质

此Excel表格汇集了唐代约四万首诗歌，详细记录每首诗词的名称及其全文，并标注其创作作者，是研究唐诗的重要资料库。唐诗四万首的整理工作已经完成，包括作者、诗歌名称以及诗词内容。

古诗资料集，涵盖作者、朝代、题目及内容

优质

这是一部全面汇集中国古代诗歌的作品集，收录了从先秦至明清各个时期著名诗人及其经典作品，详细提供每位作者的生平背景、所处朝代以及具体诗词内容。我有将近一千首古诗的数据集，其中包括作者、朝代、题目以及内容的信息。

爬虫学习记录：抓取古诗文网

优质

本篇博客记录了作者在学习和实践网络爬虫技术过程中，如何利用Python编写代码来抓取古诗文网上的诗歌与文章的过程及心得。目标网站：https://so.gushiwen.org/shiwen/default.aspx 爬虫目的：从该网站抓取古诗的内容、作者及朝代，并保存到本地文件中。爬虫程序： ```python # -*- coding:utf-8 -*- import requests import re def write_data(data): with open(诗词.txt, a) as f: f.write(data) for i in range(1, 10): url = http://example.com # 示例网址，实际应替换为正确的URL地址 ```

七万首古诗词纯文本合集（txt格式）

优质

本作品汇集了七万余首古诗词，以简洁明了的TXT格式提供，便于阅读与研究，是文学爱好者和学者不可多得的资料库。某诗词网站爬取的古诗词数据（.txt）文件中共有74701首古诗词。每首诗包含诗名、年代、作者及正文内容，并且各首诗之间以空行分隔，便于处理。

利用 Scrapy 架构爬取中国古诗网上的唐诗三百首

优质

本项目使用Scrapy框架设计并实现了对“中国古诗网”上《唐诗三百首》的数据爬取工作，旨在收集和整理古典文学资源。使用 scrapy 爬虫架构爬取中国古诗网的唐诗三百首。

古诗词表格结构与数据SQL（dt_a_table_bbs_2020-05-13.sql），包含422首诗词

优质

本文件为dt_a_table_bbs_2020-05-13.sql，内含422首古诗词的结构化数据表，便于SQL查询和分析。每首诗包括标题、作者及全文等信息。提供一个包含422首古诗词的SQL文件，其中包括每首诗的标题、作者、朝代、内容及注解的信息。该文件可以直接用于创建数据库并导入数据。

用Python编写诗歌【1分钟】生成古诗词

优质

本教程教授如何利用Python编程语言，在短短一分钟内创作出具有古典韵味的诗词。通过简单的代码实现自动化古诗生成，适合对文学和计算机科学都感兴趣的初学者探索尝试。使用Python的gensim库进行词向量训练可以在一分钟内完成，而基于这些词向量生成诗词歌赋仅需一秒。

自动诗歌创作的人工智能写词机

优质

简介：自动诗歌创作的人工智能写词机能够运用先进的自然语言处理技术，解析与学习海量文学作品，自动生成风格各异、富有创意的诗词，为文学创作提供新颖灵感。通过运用深度学习中的自然语言处理技术来自动学习全唐诗，并最终能够创作出符合固定格式的唐诗。

是否确定退出登录?

人工智能项目实践之网络爬虫——古诗词爬取与文本分析，涵盖13个朝代的3万余名诗人及85万首诗歌数据，并实现主题分类和相关作品推荐

全部评论 (0)