
下载Conceptual Captions:高效可靠地获取海量图片
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
Conceptual Captions项目提供了一个大规模的图像-文本配对数据集。用户可以轻松下载此资源,用于训练机器学习模型识别和描述图像内容,促进计算机视觉研究的发展。
下载概念字幕数据并将来自以下位置的数据放置在指定文件夹中:
- Train_GCC-training.tsv(训练分组,共3,318,333条)
- Validation_GCC-1.1.0-Validation.tsv(验证拆分,共15,840条)
测试分割数据包含大约12,500个个人认可的图像标题对,并且不公开。
运行`download_data.py`脚本后,下载的图片将分别存放在training和validation文件夹中。您可以根据需要停止并继续下载过程,尽管这可能不是最佳设置,但可以充分利用连接速度。请注意,此脚本之前版本使用了不同的文件命名方案;如果您要恢复先前开始的下载,则可能会遇到重复或无法下载的网页文件。
请在完成后检查`downloaded_validation_report.tsv`中的记录,并清理那些未成功下载、仅返回网页的文件。
全部评论 (0)
还没有任何评论哟~


