
VQA:视觉问答系统
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
简介:VQA(Visual Question Answering)是一种人工智能技术,通过分析图像内容并理解自然语言问题来提供准确的答案。
VQA 视觉问答运行代码需要在执行前下载相关的训练、验证和测试数据集。
对于基于CNN的模型,按照以下顺序运行脚本以获得最佳结果:
1. `image_preprocessing_CNN.py`:从图像中提取特征。
2. `preprocess-QA.py`:从问题中提取特征。
3. `train_models_cnn.py`:使用L2正则化(参数为0.0005)训练模型,共进行50个周期。
对于基于ResNet-18的模型,则按照以下顺序运行脚本:
1. `image_preprocessing_resnet18.py`:从图像中提取特征。
2. `preprocess-QA.py`:从问题中提取特征。
3. `train_models.py`:使用L2正则化(参数为0.001)训练模型,共进行50个周期。
此外,可以使用以下脚本来查看日志:
- `view-logs.py logs/
全部评论 (0)
还没有任何评论哟~


