简介: AG News数据集是一个包含大约20,000条新闻文章的数据集合,用于文本分类任务,涵盖四个不同的主题类别。该数据集旨在促进新闻文章自动归类研究。
AG 新闻语料库包含超过 100 万篇新闻文章,这些文章由 ComeToMyHead 在一年多的时间里从超过 2,000 家不同的新闻来源收集而来。ComeToMyHead 是一个自 2004 年 7 月开始运行的学术性新闻搜索引擎。
AG 新闻主题分类数据集是从上述语料库中构建出来的,它由 Xiang Zhang 构建,并用于论文《Character-level Convolutional Networks for Text Classification》中的文本分类基准测试。该文发表于 Advances in Neural Information Processing Systems 28 (NIPS 2015)。
AG 新闻主题分类数据集选取了原始语料库中最大的四个类别,每个类包含3万个训练样本和1,900个测试样本。总的训练样例共有12万条,测试样例7600条。
文件classes.txt包含了对应于每个标签的类别列表。
train.csv 和 test.csv 文件中列出了所有的训练样本作为逗号分隔值(CSV)格式的数据。其中包含3列:类索引(从 1 到 4),标题和描述。标题与描述用双引号()包围,内部出现的双引号则使用两个连续的双引号()表示;换行符用反斜杠后跟字母 n (\n) 表示。
AG News数据集是一个包含大约20,000条新闻文章的数据集合,用于文本分类任务,涵盖四个不同的主题类别。该数据集旨在促进新闻文章自动归类研究。
AG 新闻语料库包含超过 100 万篇新闻文章,这些文章由 ComeToMyHead 在一年多的时间里从超过 2,000 家不同的新闻来源收集而来。ComeToMyHead 是一个自 2004 年 7 月开始运行的学术性新闻搜索引擎。
AG 新闻主题分类数据集是从上述语料库中构建出来的,它由 Xiang Zhang 构建,并用于论文《Character-level Convolutional Networks for Text Classification》中的文本分类基准测试。该文发表于 Advances in Neural Information Processing Systems 28 (NIPS 2015)。
AG 新闻主题分类数据集选取了原始语料库中最大的四个类别,每个类包含3万个训练样本和1,900个测试样本。总的训练样例共有12万条,测试样例7600条。
文件classes.txt包含了对应于每个标签的类别列表。
train.csv 和 test.csv 文件中列出了所有的训练样本作为逗号分隔值(CSV)格式的数据。其中包含3列:类索引(从 1 到 4),标题和描述。标题与描述用双引号()包围,内部出现的双引号则使用两个连续的双引号()表示;换行符用反斜杠后跟字母 n (\n) 表示。