
在dolphinscheduler中,两台机器上的任务无法立即停止,而另一台则可以
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本篇文章探讨了DolphinScheduler平台中一个特定问题:为何仅有一台服务器能即时终止作业调度,其余设备则不能。文中深入分析此现象背后的原因,并提供可能的解决方案和优化建议。
在分布式部署的DolphinScheduler环境中,有三个worker节点和三个master节点。操作步骤为:分别停止运行于215、216、217机器上的工作流实例。
现象显示,在点击停止按钮后,位于215和216机器的任务仍然处于运行状态,而位于217机器上的任务则进入了kill状态。
问题定位通过打印三台机器的worker进程dump信息发现:在处理停止任务时,215、216机器上相关线程陷入了waiting状态。深入调查后,发现问题出现在processUtils.killYarnJob逻辑中(对于hive和spark客户端执行的任务而言,只需终止本地进程即可;yarn上的任务会自动取消)。
解决方案是移除或修改涉及killYarnJob的代码部分,以确保停止操作能够正确地在所有机器上生效。
全部评论 (0)
还没有任何评论哟~


