Zuse Cluster

Architektur des Clusters

Der Zuse-Cluster ist ein hybrider Parallelrechner mit einem Login Node, einem Master Node und 28 Compute Nodes. Alle Nodes sind mit zwei Intel Xeon Quad Core CPUs, lokalen Arbeitsspeicher und lokalen Festplatten ausgestattet.


Die Nodes sind sowohl über Gigabit Ethernet als auch InfiniBand miteinander verbunden, wobei Gigabit Ethernet als Management-Netzwerk und InfiniBand als Hochgeschwindigkeits-Netzwerk fungiert. Da die Nodes direkt über den IB-Switch miteinander verbunden sind, kann die Kommunikation zwischen den Nodes ohne zusätzliche Hops stattfinden.


Als Betriebssystem kommt Scientific Linux, ein RedHat Enterprise Clone, zum Einsatz. Wir haben die 64-bit Version mit Support für 32-bit installiert.

zuse
Fig.1: Zuse

Komponente des Clusters

Alle Nodes sind mit 2 CPUs vom Typ Intel Xeon E5520, 48 GB Hauptspeicher und einem DDR Infiniband Adapter (Mellanox MHGH19-XTC) ausgestattet.


Service-Nodes

  • Dell PowerEdge R710

Compute-Nodes: node1 - node28

  • Dell PowerEdge R610

CPU: Intel Xeon E5520

  • Basistakt: 2.26GHz, Turbotakt: 2.53GHz, 4C/8T, Cache: 8MB, 5,86GT/s QPI

Infiniband Adapter: Mellanox MHGH19-XTC

  • Link Speed: Double Data Rate (DDR)
  • Signaling rate: 5 Gbit/s
  • Theoretical effective throughput: 4 Gbit/s
  • Speeds for 4x links: 16 Gbit/s

Interconnect: DDR Infiniband

  • Mellanox MTS3600R-1UNC

Interconnect: Gigabit Ethernet

  • Dell PowerConnect 6248

Messungen

Auf dem Zuse-Cluster wurde Ende 2009/Anfang 2010 der HPL-Benchmark ausgeführt. Der Cluster besitzt eine theoretische Performance Rpeak von 2,025 TFLOPS (28 * 8 Cores * 2,26 GHz * 4 IPC). Mit optimierten Benchmarkparametern erreicht das gesamte System eine Leistung Rmax von 1,874 TFLOPS.


Benchmark Resultate:

  • Rmax = 1,874 TFLOPS
  • Rpeak = 2,025 TFLOPS
  • e = Rmax/Rmax = 92,5 %
  • Nmax = 412500 (entspricht 1267 TiB bzw. 94 % des gesamt verfügbaren Arbeitsspeicher)
  • Nhalf = 23750 (entspricht 4,2 TiB bzw. 3 ‰ des gesamten RAMs)

Im direkten Vergleich ist der Zuse-Cluster damit so leistungsstark wie ASCI Red bzw. ein Zehntel so schnell wie der Letztplatzierte in der Top 500 Liste von November 2009. Als Ausgangsbasis für die Messung wurde der zum Intel Math Kernel mitgelieferte HPL-Benchmark verwendet, der nachträglich noch optimiert wurde. Für die Kommunikation wurde das Intel MPI genutzt (siehe auch Netzwerk-Messungen). Als BLAS kam der Intel Math Kernel zum Einsatz, der ggü. GotoBLAS minimal bessere Resultate lieferte.


Die Netzwerk-Performance der zur Verfügung stehenden MPI-Implementierungen wurde unmittelbar nach Inbetriebnahme des Systems getestet. Hierfür wurde ein MPI-PingPong-Benchmark verwendet. Infiniband stand als primäres Kommunikationsmedium für die Anwendungsprogramme des Cluster im Vordergrund der Messungen. Im Ergebnis zeigte sich, dass das Intel MPI im Infiniband-Bereich die besten Resultate zeigt - sowohl in Hinsicht auf Bandbreite/Latenzzeit als auch auf die Streuung der Bandbreite. Dies trifft besonderes bei großen Nachrichtenpaketen zu. Im Bereich kleiner Pakete (< 122KiB) fallen die Unterschiede zwischen den MPI-Implementierungen kaum ins Gewicht.


Bandbreiten Messungen:


Latenz Zeiten: