Architecture Grace Hopper
Lors du discours inaugural de la conférence GTC, qui se tient cette année du 31 au 24 mars 2022, Jensen Huang, CEO de NVIDIA, introduit sa nouvelle architecture de processeurs graphiques (GPU), Hopper, et le premier à l’intégrer, le H100 Tensor Core.
Ce dernier serait trois fois plus rapide en moyenne que le précédent (calculs en FP16, 2 pétaflops, en TensorFloat32, un format qui serait comparable au FP32, 1 pétaflop, et FP64, 60 téraflops), A100, lancé il y a deux ans, voire jusqu’à six fois plus rapide pour certaines tâches d’intelligence artificielle (IA).
Une puissance qui a un prix : le doublement de la consommation électrique à 700 watts. NVIDIA prétend que ce GPU offre trois fois les performances par watt du A100.
Au total, on disposerait d’une performance de 4 téraflops pour l’IA, au nouveau format FP8.
Les innovations de rupture
Le processeur graphique est fabriqué avec un procédé personnalisé de 4 nanomètres de TSMC. Il contient 80 milliards de transistors. Ce serait le premier compatible avec le standard PCIe 5, doublant la bande passante à 128 gigaoctets par seconde, et le premier à utiliser de la mémoire HBM3, pour une bande passante mémoire de 3 téraoctets par seconde, 50 % de plus que l’A100.
NVIDIA met en avant le Transformer Engine de l’architecture Hopper, nommée en hommage à Grace Hopper, une pionnière américaine de l’informatique.
Cet engin serait capable de gérer la précision de ses modèles, en alternant entre des formats à 8 et 16 bits, sans perdre de précision, pour des entraînements jusqu’à 6 fois plus rapides qu’avec un A100.
Le H100 serait aussi le premier à être compatible avec l’informatique confidentielle : en coordination avec un processeur Intel ou AMD, un environnement d’exécution de confiance est établi, c’est-à-dire un environnement virtualisé à l’abri de l’hyperviseur, du processeur, et de toute personne avec un accès physique à la machine. Ce qui est d’autant plus intéressant pour les organisations déportant leur informatique dans des nuages tiers.
Facteurs de formes et systèmes
Le H100 est compatible avec la quatrième génération de l’interconnexion NVLink : avec un commutateur NVLink, on peut réunir 256 H100 en réseau avec une bande passante neuf fois plus élevée que celle de la génération précédente.
Enfin, le H100 inaugure de nouvelles instructions DPX, qui accélèrent la programmation dynamique, une méthode qui permettrait d’accélérer une large catégorie d’algorithmes, par 40, par rapport à des processeurs, et par 7, par rapport aux GPU précédents.
NVIDIA met à jour sa gamme de serveurs avec cette nouvelle puce : le DGX H100 est équipé de 8 GPU. En réseau, on peut créer une grappe de 32 DGX H100, nommée DGX SuperPOD, pour des performances d’un exaflop en FP8.
On pourrait même interconnecter jusqu’à 32 DGX SuperPOD entre eux.
Le nouveau supercalculateur de NVIDIA, Eos, sera composé de 18 DGX SuperPOD, pour 18 exaflops de FP8. Un chiffre qui étonne, car les résultats sont rarement linéaires quand on multiplie le matériel.
Concrètement, trois facteurs de forme seront proposés pour le H100, disponibles au troisième trimestre : H100 SXM, exclusivement disponible avec les cartes serveurs HGX 100 ; Une carte PCIe pour des serveurs standards qui pourront en intégrer une ou deux ; et la H100 CNX, une carte PCIe intégrant également une carte réseau intelligente ConnectX-7, fruit de l’acquisition de Mellanox, pour les charges de travail qui nécessitent une grande bande passante.