
该模型作为图像字幕任务的基准。
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
图像字幕生成器(基线模型)适用于Windows用户,通过使用命令行(cmd)代替传统的Bash shell。此外,该虚拟机环境不支持在TensorFlow框架下进行GPU训练。数据集Flickr8K数据集(Flickr8k_Dataset.zip)包含8092张JPEG图像,并附带名为Flickr8k_text.zip(包含大量文件,这些文件包含了照片的不同描述或标题)的资源,该资源来源于多个来源。该数据集总大小约为2.2兆字节,并预先定义了三个子集:一个包含6,000张图像的训练数据集、一个包含1,000张图像的开发数据集以及一个包含1,000张图像的测试数据集。为了便于使用,提供了详细的运行说明:首先,请下载数据集文件并将其放置在GitHub存储库中。建议您的文件夹结构如下所示:其中包含“data”目录,并在“data”目录下进一步包含“Flickr8k_Dataset”和“Flickr8k_text”两个子目录,以及“.gitignore”、“train.py”、“eval.py”等文件。
全部评论 (0)
还没有任何评论哟~


