
ViT: 图像的16x16字符值分析
5星
- 浏览量: 0
- 大小:None
- 文件类型:ZIP
简介:
本文介绍了ViT模型在图像处理中的应用,具体探讨了其对16x16字符值矩阵的分析方法和效果。通过这种方式,探索视觉Transformer的新可能。
视觉变形金刚
在PyTorch中实现的一种使用变压器样式编码器的模型,在视觉分类任务上达到了最先进的性能。
### 特征
- 香草维生素(Vanilla ViT)
- 混合ViT,支持BiTResNets作为骨干网
- 混合ViT,支持AxialResNets作为骨干网
### 训练脚本
包括:
- 支持线性衰减的训练脚本
- 正确的超级参数设置
### 全轴向ViT
在Imagenet-1K和Imagenet-21K数据集上的结果。
### 安装说明
创建环境:
```bash
conda env create -f environment.yml
```
准备数据集:
```bash
mkdir data
cd data
ln -s pathtodataset imagenet
```
运行脚本:
对于非分布式训练,使用如下命令:
```bash
python train.py --model ViT --name vit_logs
```
对于分布式训练,请参考相关文档。
全部评论 (0)
还没有任何评论哟~


