Zusammenfassung
Im November 2016 wurde mit Arbeitsgruppen aus der Informatik, Physik, Biologie und Chemie ein HPC-Cluster für Forschung und Lehre in Betrieb genommen. Dieser Cluster wird vom URZ administrativ betreut und bietet den beteiligten Arbeitsgruppen antragslos Rechenkapazität für ihre numerischen Forschungsprojekte zur Verfügung. Der HPC-Cluster wurde in zwei Phasen aufgebaut und wird kontiuerlich erweitert. Derzeit umfasst der Cluster 316 Rechenknoten, von denen einige zusätzliche GPU-Beschleuniger oder große Arbeitsspeicher besitzen. Der Cluster bekam im März 2024 einen komplett neuen Software-Stack auf Basis von AlmaLinux 9.
Diese Anleitung richtet sich besonders an folgende Zielgruppen:
- nur am Antrag beteiligten Arbeitsgruppen
Das Initialsystem (Phase 1) basiert auf Intel Xeon "Broadwell" Prozessoren und bietet insgesamt 140 Knoten mit jeweils 24 CPU-Kernen. Einzelne dieser Rechnenknoten bieten zusätzlich leistungsfähige NVIDIA GPU-Karten oder sind für Anwendungen mit großem Arbeitsspeicherbedarf spezialisiert. Im Detail besitzt die Broadwell-Partition folgende Knoten:
- 131 Standardknoten mit jeweils
- 24 CPU-Kernen (2x Intel Xeon E5-2650v4 12 Core 2,2 Ghz)
- 128 GB Arbeitsspeicher
- 4 Fat-Knoten mit jeweils
- 24 CPU-Kernen (2x Intel Xeon E5-2650v4 12 Core 2,2 Ghz)
- 1 TB Arbeitsspeicher
- 3 GPU-Knoten mit jeweils
- 24 CPU-Kernen (2x Intel Xeon E5-2650v4 12 Core 2,2 Ghz)
- 128 GB Arbeitsspeicher
- 2 NVIDIA Tesla P100 16GB HBM2 Grafikkartenbeschleunigern
- 1 GPU-Knoten mit jeweils
- 24 CPU-Kernen (2x Intel Xeon E5-2650v4 12 Core 2,2 Ghz)
- 128 GB Arbeitsspeicher
- 2 NVIDIA Tesla V100 16GB HBM2 Grafikkartenbeschleunigern
- 1 GPU-Knoten mit jeweils
- 24 CPU-Kernen (2x Intel Xeon E5-2650v4 12 Core 2,2 Ghz)
- 128 GB Arbeitsspeicher
- 2 NVIDIA Tesla A100 40GB HBM2 Grafikkartenbeschleunigern
In einer Erweiterungsrunde (Phase 2) mit neuen und alten Arbeitsgruppen wurde das ARA-System 2017/18 um 175 Knoten mit Intel Xeon "Scalable" Prozessoren erweitert. Die Skylake-Partition bietet zusätzlich folgende Knoten:
- 152 Standardknoten mit jeweils
- 36 CPU-Kernen (2x Intel Xeon Gold 6140 18 Core 2,3 Ghz)
- 192 GB Arbeitsspeicher
- 16 Hadoop-Knoten mit jeweils
- 36 CPU-Kernen (2x Intel Xeon Gold 6140 18 Core 2,3 Ghz)
- 192 GB Arbeitsspeicher
- einer lokalen SSD
- 4 Fat-Knoten mit jeweils
- 64 CPU-Kernen (4x Intel Xeon Gold 6130 16 Core 2,1 Ghz)
- 1.5 TB Arbeitsspeicher
- 2 GPU-Knoten mit jeweils
- 16 CPU-Kernen (2x Intel Xeon Gold 6134 8 Core 3,2 Ghz)
- 256 GB Arbeitsspeicher
- 4x NVIDIA Tesla V100 Grafikkartenbeschleunigern und NV-Link
- 1 GPU-Knoten mit jeweils
- 16 CPU-Kernen (2x Intel Xeon Gold 6134 8 Core 3,2 Ghz)
- 768 GB Arbeitsspeicher
- 8x NVIDIA Tesla V100 Grafikkartenbeschleunigern und NV-Link
Für die lang- und kurzfristige Speicherung von Daten verfügt das ARA-System über eine
- HOME-Partition mit 80 TB Speicherkapazität (NFS-Dateisystem)
- DATA-Partition mit 80 TB Speicherkapazität (NFS-Dateisystem)
- WORK-Partition mit 524 TB Speicherkapazität (paralleles BeeGFS-Dateisystem).
Der Anschluß der Rechen- und Storageserver erfolgt über einen High Speed Interconnect (HSCI) auf Basis der aktuellen Intel Omni- Path Technologie mit bis zu 100 Gbit/s Linkbandbreite. Serverseitig werden Intel Omni-Path PCIe x8 HFI Adapter mit einer maximalen Bandbreite von 58 Gbit/s verwendet.
Das Betriebssystem ist AlmaLinux release 9.3. Der Zugang zum System erfolgt, nach erfolgreichem Antrag, per ssh über die zwei Login-Knoten (login1.ara.uni-jena.de, login2.ara.uni-jena.de) mit der URZ-ID. Als Queuing-System verwenden wir SLURM.
Weitere Einzelheiten zur Nutzung des Systems erfahren Sie demnächst.
Titel: "HPC-Cluster ARA für rechenintensive Forschungsprojekte"
Stand: 17.04.2024