在超級電腦上常會用到工作調度工具
簡單來說就是,電腦有大量的運算資源給使用者共用,但必須先申請才能使用相對應的資源,
例如我今天需要三個節點,我先把申請丟上去,等到有三個節點空出來之後會再分配給我使用,
雖然也有互動模式可以使用,但通常會事先寫好要跑的流程,交出去後過一陣子再來看結果即可。
不同地方的超級電腦會使用不同的工具,目前我有遇到的是以下三種:slurm, LSF, PBSPro
寫下簡單的對照表,知道其中一個,就可以比較好上手其他類似的工具。
slurm | LSF | PBSPro | |
---|---|---|---|
檢查工作資訊 | squeue |
bjobs |
qstat |
繳交 script | sbatch |
bsub |
qsub |
申請互動模式 | salloc |
busb -Is $SHELL |
qsub -I |
跑平行程式 | srun |
jsrun |
|
顯示節點資訊 |
sinfo / sinfo_t_idle
|
bqueues , bhosts
|
pbsnodes |
帳號資料 | sacct |
bacct |
|
取消工作 | scancel |
bkill |
qdel |
修改/檢查工作設定 | scontrol |
bstop , bresume , bmod
|