This shows you the differences between two versions of the page.
Next revision | Previous revision | ||
howtouseslurm_001 [2019/05/12 22:17] – created tmatejuk | howtouseslurm_001 [2023/08/01 01:08] (current) – external edit 127.0.0.1 | ||
---|---|---|---|
Line 1: | Line 1: | ||
- | Slurm | + | ===== Slurm ===== |
Slurm - to system zarzadzania zasobami. Dzieki jego uzyciu nie dopuszcza sie do sytuacji kiedy wiele procesow obliczeniowych tego samego lub roznych uzytkownikow / uzytkowniczek probuje uzyc tych samych zasobow ( rdzenie, pamiec, dysk, ... ) co moze doprowadzic do znacznego wydluzenia czasu ich wykonania, lub wrecz ich przerwania. Inne podobne programy to LSF, PBS/Torque, SGE ich porownanie mozna znalezc [tu.] | Slurm - to system zarzadzania zasobami. Dzieki jego uzyciu nie dopuszcza sie do sytuacji kiedy wiele procesow obliczeniowych tego samego lub roznych uzytkownikow / uzytkowniczek probuje uzyc tych samych zasobow ( rdzenie, pamiec, dysk, ... ) co moze doprowadzic do znacznego wydluzenia czasu ich wykonania, lub wrecz ich przerwania. Inne podobne programy to LSF, PBS/Torque, SGE ich porownanie mozna znalezc [tu.] | ||
Line 9: | Line 9: | ||
kolejka (ang. queue) - grupa zadan obliczeniowych, | kolejka (ang. queue) - grupa zadan obliczeniowych, | ||
- | sinfo | + | ==== sinfo ==== |
- | Polecenie sinfo wyswietla informacje o dostepnych partycjach i zasobach. Na ponizszym przykladzie widac ze na anthill23 sa dostepne 4 partycje | + | Polecenie sinfo wyswietla informacje o dostepnych partycjach i zasobach. Na ponizszym przykladzie widac ze na anthill23 sa dostepne 4 partycje long, medium, short, test. Kazda z partycji ma inny maksymalny czas wykonywania zadania (TIMELIMIT : long - 6 dni, medium |
Line 18: | Line 18: | ||
[anowak@anthill23 tmp]$ sinfo | [anowak@anthill23 tmp]$ sinfo | ||
PARTITION AVAIL TIMELIMIT | PARTITION AVAIL TIMELIMIT | ||
- | all | + | long up 6-00: |
- | all up 1-00: | + | medium |
- | all up 1-00: | + | short up 1-00: |
- | all up 1-00: | + | test* up |
- | long up 14-00: | + | |
- | long up 14-00: | + | |
- | long up 14-00: | + | |
- | long up 14-00: | + | |
- | short up 45:00 | + | |
- | short up 45:00 | + | |
- | short up 45:00 1 alloc ant009 | + | |
- | short up 45:00 45 idle ant[002-006,011-012, | + | |
- | test* up | + | |
- | test* up 20:00 5 mix ant[007-008, | + | |
- | test* up 20:00 1 alloc ant009 | + | |
- | test* up 20:00 45 idle ant[002-006, | + | |
[anowak@anthill23 tmp]$ | [anowak@anthill23 tmp]$ | ||
</ | </ | ||
- | squeue | + | ==== squeue |
- | Podglad aktualnie wykonywanych i czekajacych na wykonanie zadan obliczeniowych mozliwy jest za pomoca polecenie | + | Podglad aktualnie wykonywanych i czekajacych na wykonanie zadan obliczeniowych mozliwy jest za pomoca polecenie |
Line 52: | Line 40: | ||
60571 long | 60571 long | ||
60580 long | 60580 long | ||
- | 60588 long | ||
60560 long | 60560 long | ||
60561 long | 60561 long | ||
- | 59295 long make_kno | + | 59295 long make_kno |
[anowak@anthill23 tmp]$ | [anowak@anthill23 tmp]$ | ||
</ | </ | ||
- | scancel | + | ==== scancel |
- | + | ||
- | Polecenie scancel sluzy do zakonczenia zadania, ktore znajduje sie w kolejce. Najpierw wydajemy polecenie squeue w celu poznania numeru zadania, ktore chcemy zatrzymac. A nastepnie np. w celu zatrzymania zadania o numerze 59295 wydajemy polecenie : | + | |
+ | Polecenie '' | ||
+ | < | ||
[anowak@anthill23 tmp]$ scancel 59295 | [anowak@anthill23 tmp]$ scancel 59295 | ||
+ | </ | ||
+ | ==== tworzenie zadan obliczeniowych, | ||
- | tworzenie zadan obliczeniowych, | + | Krotkie zadania, kompilacje oprogramowania, |
- | + | ||
- | Krotkie zadania, kompilacje oprogramowania, | + | |
< | < | ||
[anowak@anthill23 tmp]$ srun --ntasks=2 --mem=1G --pty bash -l | [anowak@anthill23 tmp]$ srun --ntasks=2 --mem=1G --pty bash -l | ||
- | anowak@ant100 | + | anowak@ant007 |
- | ant100 | + | ant007 |
- | anowak@ant100 | + | anowak@ant007 |
logout | logout | ||
[anowak@anthill23 tmp]$ | [anowak@anthill23 tmp]$ | ||
Line 83: | Line 70: | ||
- | tworzenie zadan obliczeniowych, | + | ==== tworzenie zadan obliczeniowych, |
- | Najczesciej wykorzytywany tryb rezerwowania zasobow klastra. Polega na przygotowaniu skryptu, ktory przekazujemy do wykonania na klastrze poleceniem sbatch. Cecha charakterystyczna takiego skryptu (te pliki nazywane sa batch-ami), jest to ze w ich naglowku dodaje sie dyrektywy #SBATCH, ktore sluza do definiowania, z ktorych | + | Najczesciej wykorzytywany tryb rezerwowania zasobow klastra. Polega na przygotowaniu skryptu, ktory przekazujemy do wykonania na klastrze poleceniem sbatch. Cecha charakterystyczna takiego skryptu (te pliki nazywane sa batch-ami), jest to ze w ich naglowku dodaje sie dyrektywy |
< | < | ||
#SBATCH --ntasks=2 | #SBATCH --ntasks=2 | ||
#SBATCH --mem=400M | #SBATCH --mem=400M | ||
- | #SBATCH --partition=all # nazwa partycji na ktorej ma byc wykonany skrypt | + | #SBATCH --partition=short # nazwa partycji na ktorej ma byc wykonany skrypt |
#SBATCH --job-name=" | #SBATCH --job-name=" | ||
#SBATCH --time=2-3: | #SBATCH --time=2-3: | ||
Line 98: | Line 85: | ||
- | + | W pelni funkcjonalne przyklady plikow batch mozna znalezc | |
- | W pelni funkcjonalne przyklady plikow batch mozna znalezc | + | |