This shows you the differences between two versions of the page.
| Next revision | Previous revision | ||
| howtouseslurm_001 [2019/05/12 22:17] – created tmatejuk | howtouseslurm_001 [2023/08/01 01:08] (current) – external edit 127.0.0.1 | ||
|---|---|---|---|
| Line 1: | Line 1: | ||
| - | Slurm | + | ===== Slurm ===== |
| Slurm - to system zarzadzania zasobami. Dzieki jego uzyciu nie dopuszcza sie do sytuacji kiedy wiele procesow obliczeniowych tego samego lub roznych uzytkownikow / uzytkowniczek probuje uzyc tych samych zasobow ( rdzenie, pamiec, dysk, ... ) co moze doprowadzic do znacznego wydluzenia czasu ich wykonania, lub wrecz ich przerwania. Inne podobne programy to LSF, PBS/Torque, SGE ich porownanie mozna znalezc [tu.] | Slurm - to system zarzadzania zasobami. Dzieki jego uzyciu nie dopuszcza sie do sytuacji kiedy wiele procesow obliczeniowych tego samego lub roznych uzytkownikow / uzytkowniczek probuje uzyc tych samych zasobow ( rdzenie, pamiec, dysk, ... ) co moze doprowadzic do znacznego wydluzenia czasu ich wykonania, lub wrecz ich przerwania. Inne podobne programy to LSF, PBS/Torque, SGE ich porownanie mozna znalezc [tu.] | ||
| Line 9: | Line 9: | ||
| kolejka (ang. queue) - grupa zadan obliczeniowych, | kolejka (ang. queue) - grupa zadan obliczeniowych, | ||
| - | sinfo | + | ==== sinfo ==== |
| - | Polecenie sinfo wyswietla informacje o dostepnych partycjach i zasobach. Na ponizszym przykladzie widac ze na anthill23 sa dostepne 4 partycje | + | Polecenie sinfo wyswietla informacje o dostepnych partycjach i zasobach. Na ponizszym przykladzie widac ze na anthill23 sa dostepne 4 partycje long, medium, short, test. Kazda z partycji ma inny maksymalny czas wykonywania zadania (TIMELIMIT : long - 6 dni, medium |
| Line 18: | Line 18: | ||
| [anowak@anthill23 tmp]$ sinfo | [anowak@anthill23 tmp]$ sinfo | ||
| PARTITION AVAIL TIMELIMIT | PARTITION AVAIL TIMELIMIT | ||
| - | all | + | long up 6-00: |
| - | all up 1-00: | + | medium |
| - | all up 1-00: | + | short up 1-00: |
| - | all up 1-00: | + | test* up |
| - | long up 14-00: | + | |
| - | long up 14-00: | + | |
| - | long up 14-00: | + | |
| - | long up 14-00: | + | |
| - | short up 45:00 | + | |
| - | short up 45:00 | + | |
| - | short up 45:00 1 alloc ant009 | + | |
| - | short up 45:00 45 idle ant[002-006,011-012, | + | |
| - | test* up | + | |
| - | test* up 20:00 5 mix ant[007-008, | + | |
| - | test* up 20:00 1 alloc ant009 | + | |
| - | test* up 20:00 45 idle ant[002-006, | + | |
| [anowak@anthill23 tmp]$ | [anowak@anthill23 tmp]$ | ||
| </ | </ | ||
| - | squeue | + | ==== squeue |
| - | Podglad aktualnie wykonywanych i czekajacych na wykonanie zadan obliczeniowych mozliwy jest za pomoca polecenie | + | Podglad aktualnie wykonywanych i czekajacych na wykonanie zadan obliczeniowych mozliwy jest za pomoca polecenie |
| Line 52: | Line 40: | ||
| 60571 long | 60571 long | ||
| 60580 long | 60580 long | ||
| - | 60588 long | ||
| 60560 long | 60560 long | ||
| 60561 long | 60561 long | ||
| - | 59295 long make_kno | + | 59295 long make_kno |
| [anowak@anthill23 tmp]$ | [anowak@anthill23 tmp]$ | ||
| </ | </ | ||
| - | scancel | + | ==== scancel |
| - | + | ||
| - | Polecenie scancel sluzy do zakonczenia zadania, ktore znajduje sie w kolejce. Najpierw wydajemy polecenie squeue w celu poznania numeru zadania, ktore chcemy zatrzymac. A nastepnie np. w celu zatrzymania zadania o numerze 59295 wydajemy polecenie : | + | |
| + | Polecenie '' | ||
| + | < | ||
| [anowak@anthill23 tmp]$ scancel 59295 | [anowak@anthill23 tmp]$ scancel 59295 | ||
| + | </ | ||
| + | ==== tworzenie zadan obliczeniowych, | ||
| - | tworzenie zadan obliczeniowych, | + | Krotkie zadania, kompilacje oprogramowania, |
| - | + | ||
| - | Krotkie zadania, kompilacje oprogramowania, | + | |
| < | < | ||
| [anowak@anthill23 tmp]$ srun --ntasks=2 --mem=1G --pty bash -l | [anowak@anthill23 tmp]$ srun --ntasks=2 --mem=1G --pty bash -l | ||
| - | anowak@ant100 | + | anowak@ant007 |
| - | ant100 | + | ant007 |
| - | anowak@ant100 | + | anowak@ant007 |
| logout | logout | ||
| [anowak@anthill23 tmp]$ | [anowak@anthill23 tmp]$ | ||
| Line 83: | Line 70: | ||
| - | tworzenie zadan obliczeniowych, | + | ==== tworzenie zadan obliczeniowych, |
| - | Najczesciej wykorzytywany tryb rezerwowania zasobow klastra. Polega na przygotowaniu skryptu, ktory przekazujemy do wykonania na klastrze poleceniem sbatch. Cecha charakterystyczna takiego skryptu (te pliki nazywane sa batch-ami), jest to ze w ich naglowku dodaje sie dyrektywy #SBATCH, ktore sluza do definiowania, z ktorych | + | Najczesciej wykorzytywany tryb rezerwowania zasobow klastra. Polega na przygotowaniu skryptu, ktory przekazujemy do wykonania na klastrze poleceniem sbatch. Cecha charakterystyczna takiego skryptu (te pliki nazywane sa batch-ami), jest to ze w ich naglowku dodaje sie dyrektywy |
| < | < | ||
| #SBATCH --ntasks=2 | #SBATCH --ntasks=2 | ||
| #SBATCH --mem=400M | #SBATCH --mem=400M | ||
| - | #SBATCH --partition=all # nazwa partycji na ktorej ma byc wykonany skrypt | + | #SBATCH --partition=short # nazwa partycji na ktorej ma byc wykonany skrypt |
| #SBATCH --job-name=" | #SBATCH --job-name=" | ||
| #SBATCH --time=2-3: | #SBATCH --time=2-3: | ||
| Line 98: | Line 85: | ||
| - | + | W pelni funkcjonalne przyklady plikow batch mozna znalezc | |
| - | W pelni funkcjonalne przyklady plikow batch mozna znalezc | + | |