
CLIP(对比语言-图像预训练):基于多种图像和文本配对训练的神经网络-Python开发
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
简介:CLIP是一种创新的神经网络模型,通过大规模多模态数据集中的图文配对进行预训练,利用Python实现,旨在提升机器理解和生成自然语言的能力。
CLIP(对比语言-图像预训练)是在各种(图像,文本)对上训练的神经网络。与GPT-2和3的零射功能类似,可以用自然语言指示它预测给定图像的相关文本片段,而无需直接针对任务进行优化。我们发现,在ImageNet上的测试中,CLIP的表现可以与原始ResNet50相匹配,并且在实现“零镜头”效果时不需要使用任何原始1.28M带有标签的示例。
全部评论 (0)
还没有任何评论哟~


