本数据集包含IMDb电影评论及其情感标签,采用神经网络技术进行文本分类,旨在研究与开发先进的自然语言处理和机器学习模型。
ACLIMDB_v1 是一个大型电影评论数据集,由斯坦福大学提供。该数据集包含50,000条电影评论(其中一半为正面评价,另一半为负面评价)。这些评论被分为训练和验证两个部分,每个部分各有25,000条评论,并且正负比例相同。此外,还有5,000条未标注的影评。
另一个数据集是rt-polaritydata,这是一个较小的数据集,同样由IMDB整理而成。该数据集包含10,662条电影评论(正面和负面各占一半)。这些评论已经经过初步处理,包括分隔标点符号并转换为小写形式,并且每行是一则简短的电影评价。