
Vision Transformer模型
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
简介:Vision Transformer(ViT)是一种深度学习模型,用于计算机视觉任务。它将图像视为一系列标记序列,利用Transformer架构在多个基准数据集上取得了卓越性能。
视觉变压器的作者包括Alexey Dosovitskiy、Lucas Beyer、Alexander Kolesnikov、Dirk Weissenborn、翟小华(技术贡献)、Thomas Unterthiner、Mostafa Dehghani、Matthias Minderer、Georg Heigold、Sylvain Gelly、Jakob Uszkoreit和Neil Houlsby(建议)。Andreas Steiner准备了开源发布版。该存储库包含了在imagenet21k数据集上预训练的模型,并提供了微调这些已发布模型的代码。
模型概述:我们将图像分割成固定大小的块,线性地嵌入每个块,添加位置嵌入,然后将所得矢量序列馈送到标准变压器中。
全部评论 (0)
还没有任何评论哟~


