
ViT-Pytorch: 图像的视觉变压器Pytorch版本重现(图片描述16x16字符)
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
简介:本项目为ViT模型在Pytorch框架下的实现,致力于图像识别任务,通过Transformer架构革新CNN主导地位,适用于学术研究与应用开发。
视觉变压器(Vision Transformer, ViT)是基于Alexey Dosovitskiy、Lucas Beyer、Alexander Kolesnikov、Dirk Weissenborn、翟小华、Thomas Unterthiner、Mostafa Dehghani,Matthias Minderer,Georg Heigold,Sylvain Gelly,Jakob Uszkoreit和Neil Houlsby共同发表的论文进行PyTorch重写实现。研究结果表明,在大型数据集上直接应用Transformers到图像补丁并在其基础上预训练可以显著提升图像识别任务的效果。Vision Transformer采用标准Transformer编码器及固定大小的图像块,实现了在图像分类领域的最新技术水平。为了执行分类任务,作者采用了向序列中添加一个额外的学习型“分类令牌”的常规方法。
全部评论 (0)
还没有任何评论哟~


