Beschleunigt durch NVIDIA Tesla V100-Grafikprozessoren und NVSwitch
Ein neues Zeitalter der Informationstechnologie bricht an, in dem KI und High Performance Computing (HPC) unsere Welt verwandeln.
Von selbstfahrenden Autos bis hin zu Simulationen des globalen Klimas: Um die neuen Herausforderungen zu meistern, sind enorme Rechenressourcen erforderlich. NVIDIA HGX-2 ist auf Multi-Precision-Computing ausgelegt. Hierbei wird wissenschaftliches High-Precision-Computing mit der Schnelligkeit von KI-Computing kombiniert, bei dem die Präzision normalerweise geringer ist. So entsteht eine einheitliche, flexible und leistungsstarke Plattform, mit der sich diese massiven Herausforderungen bewältigen lassen.
Dank der Beschleunigung durch 16 NVIDIA® Tesla® V100-Grafikprozessoren und mithilfe von NVIDIA NVSwitch™ bietet die HGX-2 eine beispiellose Rechenleistung, Bandbreite und Speichertopologie, um umfangreiche Modelle schneller zu trainieren, Datensätze zu analysieren und Simulationen schneller und effizienter zu berechnen. Die 16 Tesla V100-Grafikprozessoren agieren als einheitlicher 2-PetaFLOPS-Beschleuniger mit einem Grafikprozessor-Gesamtspeicher von einem halben Terabyte (TB), sodass damit die rechenintensivsten Aufgaben erledigt werden können und der„ weltweit größte Grafikprozessor“ bereitgestellt werden kann.
Die Komplexität der KI-Modelle hat enorm zugenommen. Sie erfordern einen großen Speicher, mehrere Grafikprozessoren und eine extrem schnelle Verbindung zwischen den Grafikprozessoren, um eine ordnungsgemäße Funktion zu gewährleisten. Mit NVSwitch, die alle Grafikprozessoren und den einheitlichen Speicher verbinden, verfügt die HGX-2 über die notwendige Leistungsfähigkeit zur Unterstützung dieser neuen Modelle, um ein schnelleres Training der modernen KI zu ermöglichen. Eine einzelne HGX-2 ersetzt 300 Server mit CPU, sodass erheblich weniger Kosten anfallen und auch der Platz- und Energiebedarf im Rechenzentrum reduziert wird.
Modelle des maschinellen KI-Lernens machen das Laden, Umwandeln und Verarbeiten sehr großer Datensätze notwendig, um Erkenntnisse zu erlangen. Mit 0,5 TB vereinheitlichtem Speicher, auf den auf einer Bandbreite von 16 TB/s zugegriffen werden kann, und einer multilateralen Grafikprozessorkommunikation mit NVSwitch verfügt HGX-2 über die Leistung, Berechnungen riesiger Datensätze zu laden und durchzuführen, um schnell handlungsorientierte Erkenntnisse zu erlangen. Mit der RAPIDS Open-Source-Software für maschinelles Lernen ersetzt eine einzige HGX-2 rund 544 CPU-basierte Server und führt zu einer erheblichen Kosten- und Platzersparnis.
HPC-Anwendungen erfordern leistungsfähige Serverknoten mit ausreichender Rechenleistung, um eine hohe Anzahl von Berechnungen pro Sekunde durchzuführen. Durch die enorme Erhöhung der Rechendichte jedes Knotens wird die Anzahl der erforderlichen Server erheblich reduziert. Dies führt zu großen Kosteneinsparungen und senkt den Platz- und Energiebedarf in Rechenzentren. Für HPC-Simulationen und die damit verbundene hochdimensionale Matrix-Multiplikation muss ein Prozessor Daten aus vielen Umgebungen abrufen, um die Berechnung zu vereinfachen. Daher ist die Verbindung der Grafikprozessoren durch NVSwitch ideal. Ein einzelner HGX-2-Server ersetzt 60 reine CPU-Server.
Dank NVSwitch kann jeder Grafikprozessor mit einem anderen Grafikprozessor mit voller Bandbreite von 2,4 TB/Sek. kommunizieren, um die größten KI- und HPC-Probleme zu beheben. Jeder Grafikprozessor hat vollen Zugriff auf 0,5 TB des HBM2-Gesamtspeichers und ist in der Lage, die umfangreichsten Datensätze zu verarbeiten. Da durch NVSwitch ein einheitlicher Serverknoten bereitgestellt wird, können komplexe KI- und HPC-Anwendungen erheblich beschleunigt werden.
HGX-1 | HGX-2 | |
---|---|---|
Leistung | 1 PetaFLOPS Tensor-Operationen 125 TeraFLOPS Single-Precision-Leistung 62 TeraFLOPS Double-Precision-Leistung |
2 PetaFLOPS Tensor-Operationen 250 TeraFLOPS Single-Precision-Leistung 125 TeraFLOPS Double-Precision-Leistung |
Grafikprozessoren | 8 × NVIDIA Tesla V100 | 16 × NVIDIA Tesla V100 |
Grafikprozessorspeicher | 256 GB (gesamt) 7,2 TB/s Bandbreite |
512 GB (gesamt) 16 TB/s Bandbreite |
NVIDIA CUDA® Recheneinheiten | 40,960 | 81,920 |
NVIDIA Tensor-Recheneinheiten | 5,120 | 10,240 |
Kommunikationskanal | Hybrid-Cube-Mesh mit NVLink 300 GB/s Bisektionsbandbreite | NVSwitch mit NVLink 2.4 TB/s Bisektionsbandbreite |