Zusammenfassung

Im November 2016 wurde mit Arbeitsgruppen aus der Informatik, Physik, Biologie und Chemie ein HPC-Cluster für Forschung und Lehre in Betrieb genommen. Dieser Cluster wird vom URZ administrativ betreut und bietet den beteiligten Arbeitsgruppen antragslos Rechenkapazität für ihre numerischen Forschungsprojekte zur Verfügung. Der HPC-Cluster wurde in zwei Phasen aufgebaut und wird kontiuerlich erweitert. Derzeit umfasst der Cluster 316 Rechenknoten, von denen einige zusätzliche GPU-Beschleuniger oder große Arbeitsspeicher besitzen. Der Cluster bekam im März 2024 einen komplett neuen Software-Stack auf Basis von AlmaLinux 9.

Diese Anleitung richtet sich besonders an folgende Zielgruppen: 

  • nur am Antrag beteiligten Arbeitsgruppen


Das Initialsystem (Phase 1) basiert auf Intel Xeon "Broadwell" Prozessoren und bietet insgesamt 140 Knoten mit jeweils 24 CPU-Kernen. Einzelne dieser Rechnenknoten bieten zusätzlich leistungsfähige NVIDIA GPU-Karten oder sind für Anwendungen mit großem Arbeitsspeicherbedarf spezialisiert. Im Detail besitzt die Broadwell-Partition folgende Knoten:

  • 131 Standardknoten mit jeweils
    • 24 CPU-Kernen (2x Intel Xeon E5-2650v4 12 Core 2,2 Ghz)
    • 128 GB Arbeitsspeicher
  • 4 Fat-Knoten mit jeweils
    • 24 CPU-Kernen (2x Intel Xeon E5-2650v4 12 Core 2,2 Ghz)
    • 1 TB Arbeitsspeicher
  • 3 GPU-Knoten mit jeweils
    • 24 CPU-Kernen (2x Intel Xeon E5-2650v4 12 Core 2,2 Ghz)
    • 128 GB Arbeitsspeicher
    • 2 NVIDIA Tesla P100 16GB HBM2 Grafikkartenbeschleunigern
  • 1 GPU-Knoten mit jeweils
    • 24 CPU-Kernen (2x Intel Xeon E5-2650v4 12 Core 2,2 Ghz)
    • 128 GB Arbeitsspeicher
    • 2 NVIDIA Tesla V100 16GB HBM2 Grafikkartenbeschleunigern
  • 1 GPU-Knoten mit jeweils
    • 24 CPU-Kernen (2x Intel Xeon E5-2650v4 12 Core 2,2 Ghz)
    • 128 GB Arbeitsspeicher
    • 2 NVIDIA Tesla A100 40GB HBM2 Grafikkartenbeschleunigern

In einer Erweiterungsrunde (Phase 2) mit neuen und alten Arbeitsgruppen wurde das ARA-System 2017/18 um 175 Knoten mit Intel Xeon "Scalable" Prozessoren erweitert. Die Skylake-Partition bietet zusätzlich folgende Knoten:

  • 152 Standardknoten mit jeweils
    • 36 CPU-Kernen (2x Intel Xeon Gold 6140 18 Core 2,3 Ghz)
    • 192 GB Arbeitsspeicher
  • 16 Hadoop-Knoten mit jeweils
    • 36 CPU-Kernen (2x Intel Xeon Gold 6140 18 Core 2,3 Ghz)
    • 192 GB Arbeitsspeicher
    • einer lokalen SSD
  • 4 Fat-Knoten mit jeweils
    • 64 CPU-Kernen (4x Intel Xeon Gold 6130 16 Core 2,1 Ghz)
    • 1.5 TB Arbeitsspeicher
  • 2 GPU-Knoten mit jeweils
    • 16 CPU-Kernen (2x Intel Xeon Gold 6134 8 Core 3,2 Ghz)
    • 256 GB Arbeitsspeicher
    • 4x NVIDIA Tesla V100 Grafikkartenbeschleunigern und NV-Link
  • 1 GPU-Knoten mit jeweils
    • 16 CPU-Kernen (2x Intel Xeon Gold 6134 8 Core 3,2 Ghz)
    • 768 GB Arbeitsspeicher
    • 8x NVIDIA Tesla V100 Grafikkartenbeschleunigern und NV-Link

Für die lang- und kurzfristige Speicherung von Daten verfügt das ARA-System über eine

  • HOME-Partition mit 80 TB Speicherkapazität (NFS-Dateisystem)
  • DATA-Partition mit 80 TB Speicherkapazität (NFS-Dateisystem)
  • WORK-Partition mit 524 TB Speicherkapazität (paralleles BeeGFS-Dateisystem).

Der Anschluß der Rechen- und Storageserver erfolgt über einen High Speed Interconnect (HSCI) auf Basis der aktuellen Intel Omni- Path Technologie mit bis zu 100 Gbit/s Linkbandbreite. Serverseitig werden Intel Omni-Path PCIe x8 HFI Adapter mit einer maximalen Bandbreite von 58 Gbit/s verwendet.

Das Betriebssystem ist AlmaLinux release 9.3. Der Zugang zum System erfolgt, nach erfolgreichem Antrag, per ssh über die zwei Login-Knoten (login1.ara.uni-jena.de, login2.ara.uni-jena.de) mit der URZ-ID. Als Queuing-System verwenden wir SLURM.

Weitere Einzelheiten zur Nutzung des Systems erfahren Sie demnächst.



Titel: "HPC-Cluster ARA für rechenintensive Forschungsprojekte"

Stand: 17.04.2024