Zusammenfassung

Im November 2016 wurde mit Arbeitsgruppen aus der Informatik, Physik, Biologie und Chemie ein HPC-Cluster für Forschung und Lehre in Betrieb genommen. Dieser Cluster wird vom URZ administrativ betreut und bietet den beteiligten Arbeitsgruppen antragslos Rechenkapazität für ihre numerischen Forschungsprojekte zur Verfügung. Der HPC-Cluster wurde in zwei Phasen aufgebaut und wird kontiuerlich erweitert. Derzeit umfasst der Cluster 313 Rechenknoten, von denen einige zusätzliche GPU-Beschleuniger oder große Arbeitsspeicher besitzen.

Diese Anleitung richtet sich besonders an folgende Zielgruppen:

nur am Antrag beteiligten Arbeitsgruppen

SLURM (Simple Linux Utility for Resource Management)

Laden: module laod slurm

Verfügbare Partitionen:

Partition	Nodes	Rechenknoten	Shared	MaxTime
b_test	node001	Broadwell Standard	no	3:00:00
b_standard	node[002-126,131-136]	Broadwell Standard	yes	8-08:00:00
b_fat	node[137-140]	Broadwell Fat	yes	3:00:00
s_test	node141	Skylake Standard	no	8-08:00:00
s_standard	node[142-268]	Skylake Standard	yes	8-08:00:00
s_fat	node[269-272]	Skylake Fat	yes	8-08:00:00
gpu_p100	node[127-129]	2 NVIDIA Tesla P100	yes	8-08:00:00
gpu_v100	node130	2 NVIDIA Tesla V100	yes	8-08:00:00

Standardmäßig werden die Knoten im Shared- Mode genutzt, d.h. es sind mehrere Jobs und/oder mehrere Nutzer pro Knoten zugelassen. Dies wird über das Resource Allocation Plugin konfiguriert.

SelectTypeParameters=CR_CPU_Memory

D.h. neben den Cores wird auch der Speicher beachtet.

Ohne Angabe des benötigten Speichers geht SLURM davon aus, dass der gesamte Speicher des Knotens benötigt wird Ein zweiter Job wird dann auf diesem Knoten nicht gestartet.

Mit dem Job- Parameter --mem-per-cpu allokiert SLURM entsprechend. Weitere Jobs können auf dem Knoten anlaufen.

SLURM Kommandos:

sinfo	Partition- und Nodestatus auflisten
squeue	Jobs auflisten
sbatch	Job abschicken
sstat	Status laufender Jobs
scancel	Job abbrechen
scontrol	Informationen über Konfiguaration und Status
salloc	Ressourcenzuordnung für interaktive Jobs
srun	Jobschritte in Skript oder interaktiven Job starten
sview	graphisches Nutzerinterface

Job- Parameter:

Die Parameter können über die Direktive #SBATCH im Script definiert werden.

Parameter	#SBATCH
Job-Name	---job-name=name
Partition	---partition=partition
Anzahl Nodes	---nodes=n
Prozesse pro Nodes	---tasks-per-node=n
Walltime-Limit	---time=hh:mm:ss
Memory pro CPU	--mem-per-cpu==<MB>
Stdout	---output=filename
E-Mail-Adresse	---mail-user=address
E-Mail-Benachrichtigung	---mail-type=BEGIN ---mail-type=END ---mail-type=FAIL ---mail-type=ALL

Eine vollständige Beschreibung der parameter finden Sie in der SLURM Dokumentation.

Titel: "Queuesystem SLURM"

Stand: 07.04.2020