
如何正确使用nohup在服务器上持续运行训练程序并检查进度及visdom可视化
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本文将详细介绍如何在服务器端利用nohup命令使深度学习训练脚本持续运行,并通过特定方法监控其状态,同时介绍如何设置Visdom进行实时性能和数据可视化。
在使用服务器进行长时间模型训练(例如Mask模型)时,由于我通过SSH登录到服务器上,一旦断网或退出账号,程序就会被终止。为了能够不间断地运行训练程序,并且随时查看模型的可视化结果,总结了一些常用的远程训练指令。
nohup 是 no hang up 的缩写,即不挂断的意思。使用nohup命令可以将程序后台运行并持续进行,即使在用户退出登录后也不会中断程序的执行。此外,还可以通过指定输出文件来实时查看训练过程中的日志和结果,并结合visdom等工具实现模型可视化。
以下是一些基本操作:
1. 使用 nohup 将训练程序后台不间断地运行。
2. 指定输出文件以便于查看训练情况。
3. 结合 CUDA 进行 GPU 训练的同时,使用 visdom 实现实时的监控和可视化。
全部评论 (0)
还没有任何评论哟~


