Der Zuse-Cluster ist ein hybrider Parallelrechner mit einem Login Node, einem Master Node und 28 Compute Nodes. Alle Nodes sind
mit zwei Intel Xeon Quad Core CPUs, lokalen Arbeitsspeicher und lokalen Festplatten ausgestattet.
Die Nodes sind sowohl über Gigabit Ethernet als auch InfiniBand miteinander verbunden, wobei Gigabit Ethernet als
Management-Netzwerk und InfiniBand als Hochgeschwindigkeits-Netzwerk fungiert. Da die Nodes direkt über den IB-Switch
miteinander verbunden sind, kann die Kommunikation zwischen den Nodes ohne zusätzliche Hops stattfinden.
Als Betriebssystem kommt Scientific Linux, ein RedHat Enterprise Clone, zum Einsatz. Wir haben die 64-bit Version mit
Support für 32-bit installiert.
Image
Komponente des Clusters
Alle Nodes sind mit 2 CPUs vom Typ Intel Xeon E5520, 48 GB Hauptspeicher und einem DDR Infiniband Adapter (Mellanox MHGH19-XTC) ausgestattet.
Auf dem Zuse-Cluster wurde Ende 2009/Anfang 2010 der
HPL-Benchmark ausgeführt. Der Cluster besitzt eine theoretische Performance Rpeak von 2,025 TFLOPS (28 * 8 Cores * 2,26 GHz * 4 IPC).
Mit optimierten Benchmarkparametern erreicht das gesamte System eine Leistung Rmax von 1,874 TFLOPS.
Benchmark Resultate:
Rmax = 1,874 TFLOPS
Rpeak = 2,025 TFLOPS
e = Rmax/Rmax = 92,5 %
Nmax = 412500 (entspricht 1267 TiB bzw. 94 % des gesamt verfügbaren Arbeitsspeicher)
Nhalf = 23750 (entspricht 4,2 TiB bzw. 3 ‰ des gesamten RAMs)
Im direkten Vergleich ist der Zuse-Cluster damit so leistungsstark wie
ASCI Red bzw. ein Zehntel so schnell wie der Letztplatzierte in der Top 500 Liste von November 2009. Als Ausgangsbasis für die Messung
wurde der zum Intel Math Kernel mitgelieferte HPL-Benchmark verwendet, der nachträglich noch optimiert wurde. Für die Kommunikation wurde
das Intel MPI genutzt (siehe auch Netzwerk-Messungen). Als BLAS kam der Intel Math Kernel zum Einsatz, der ggü. GotoBLAS minimal bessere
Resultate lieferte.
Die Netzwerk-Performance der zur Verfügung stehenden MPI-Implementierungen wurde unmittelbar nach Inbetriebnahme des Systems getestet.
Hierfür wurde ein MPI-PingPong-Benchmark verwendet. Infiniband stand als primäres Kommunikationsmedium für die Anwendungsprogramme des
Cluster im Vordergrund der Messungen. Im Ergebnis zeigte sich, dass das Intel MPI im Infiniband-Bereich die besten Resultate zeigt -
sowohl in Hinsicht auf Bandbreite/Latenzzeit als auch auf die Streuung der Bandbreite. Dies trifft besonderes bei großen
Nachrichtenpaketen zu. Im Bereich kleiner Pakete (< 122KiB) fallen die Unterschiede zwischen den MPI-Implementierungen kaum ins Gewicht.