Zusammenfassung

Im November 2016 wurde mit Arbeitsgruppen aus der Informatik, Physik, Biologie und Chemie ein HPC-Cluster für Forschung und Lehre in Betrieb genommen. Dieser Cluster wird vom URZ administrativ betreut und bietet den beteiligten Arbeitsgruppen antragslos Rechenkapazität für ihre numerischen Forschungsprojekte zur Verfügung. Der HPC-Cluster wurde in zwei Phasen aufgebaut und wird kontiuerlich erweitert. Derzeit umfasst der Cluster 313 Rechenknoten, von denen einige zusätzliche GPU-Beschleuniger oder große Arbeitsspeicher besitzen.


Diese Anleitung richtet sich besonders an folgende Zielgruppen: 

  • nur am Antrag beteiligten Arbeitsgruppen



SLURM (Simple Linux Utility for Resource Management)

Laden: module laod slurm


Verfügbare Partitionen:

 Partition Nodes RechenknotenSharedMaxTime
b_test node001Broadwell Standardno3:00:00
b_standardnode[002-126,131-136]Broadwell Standardyes8-08:00:00
b_fatnode[137-140]Broadwell Fat
yes3:00:00
s_testnode141Skylake Standardno8-08:00:00
s_standardnode[142-268]Skylake Standardyes8-08:00:00
s_fatnode[269-272]Skylake Fatyes8-08:00:00
gpu_p100node[127-129]2 NVIDIA Tesla P100yes8-08:00:00
 gpu_v100 node1302 NVIDIA Tesla V100yes8-08:00:00

Standardmäßig werden die Knoten  im Shared- Mode  genutzt, d.h. es sind mehrere Jobs und/oder mehrere Nutzer pro Knoten zugelassen. Dies wird über das  Resource Allocation Plugin konfiguriert.

SelectTypeParameters=CR_CPU_Memory

D.h. neben den Cores wird auch der Speicher beachtet.

Ohne Angabe des benötigten Speichers  geht SLURM davon aus, dass der gesamte Speicher des Knotens benötigt wird  Ein zweiter Job wird dann auf diesem Knoten nicht gestartet.

Mit dem  Job- Parameter   --mem-per-cpu   allokiert SLURM entsprechend. Weitere Jobs können auf dem Knoten anlaufen.


SLURM Kommandos:

sinfo Partition- und Nodestatus auflisten
squeue Jobs auflisten
sbatch Job abschicken
sstat Status laufender Jobs
scancel Job abbrechen
scontrol Informationen über Konfiguaration und Status
salloc Ressourcenzuordnung für interaktive Jobs
srun Jobschritte in Skript oder interaktiven Job starten
sview graphisches Nutzerinterface


Job- Parameter:

Die Parameter können über die Direktive #SBATCH im Script definiert werden.

Parameter    #SBATCH
 Job-Name---job-name=name
 Partition---partition=partition
 Anzahl Nodes---nodes=n
 Prozesse pro Nodes---tasks-per-node=n
 Walltime-Limit ---time=hh:mm:ss
 Memory pro CPU --mem-per-cpu==<MB>
 Stdout---output=filename
 E-Mail-Adresse ---mail-user=address
 E-Mail-Benachrichtigung---mail-type=BEGIN
---mail-type=END
---mail-type=FAIL
---mail-type=ALL

Eine vollständige Beschreibung der parameter finden Sie in der SLURM Dokumentation


Titel: "Queuesystem SLURM"

Stand: 07.04.2020