ARM lance deux nouveaux processeurs pour sa plateforme Neoverse

Ce mardi, ARM complète sa plateforme Neoverse, dédiée aux centres de données et aux serveurs, par deux processeurs et un interconnect.

Neoverse V1

Le Neoverse V1 est conçu pour les charges de travail exigeantes et les mathématiques vectorielles. Il offrirait 50 % d’instruction par cycle (à procédé de fabrication et fréquence constante), ce qui est massif, par rapport au Neoverse N1.

On pourrait s’attendre à des performances 1,8 fois supérieures pour les charges de travail basées sur les vecteurs, et même 4 fois plus pour l’apprentissage automatique.

La philosophie de conception derrière le Neoverse V1 est de développer la microarchitecture la plus large jamais produite par ARM, afin d’offrir plus d’instructions dédiées à des marchés tels que l’informatique à haute performance et l’informatique à l’échelle exa ( 1 000 pétas).

Pour attendre ces performances, la microarchitecture a été radicalement revue avec des pipelines plus larges et plus profondes, et une unité de vecteurs 2×256 bits pour exécuter les instructions des extensions flexibles de vecteurs (scalable vector extensions, SVE). Ces dernières sont compatibles avec le nouveau format de données bfloat16 pour l’intelligence artificielle et l’apprentissage automatique.

La plateforme Neoverse V1 est extrêmement flexible, autorisant des solutions à multi chiplets et multi sockets, avec une compatibilité au top pour la mémoire DDR5, HBM3, les entrées sorties PCIe5, la mémoire attachée CXL2.0 ou les accélérateurs cohérents.

Elle bénéficie de fonctionnalités avancées, telles que MPAM, le système de partition et de contrôle de la mémoire, CBusy ou Completer Busy, une fonctionnalité de flexibilité, qui régule automatiquement le trafic dans un système congestionné.

La gestion d’alimentation est améliorée avec MPMM, mécanisme de mitigation de consommation maximale, qui permet de tourner à la fréquence maximale même avec beaucoup de cœurs, et Dispatch Throttling, pour une mise au ralenti légèrement plus accentuée que nécessaire, pour une économie proportionnellement nettement supérieure d’énergie.

Neoverse N2

Le processeur Neoverse N2 est le premier à exploiter l’architecture ARMv9 présentée il y a quelques semaines, dans le but d’offrir des améliorations de performance, d’efficacité énergétique et de sécurité.

Le Neoverse N2 serait 40 % plus rapide que le N1 en performance sur un unique fil d’exécution.

C’est le premier compatible avec SVE2, un sur ensemble de SVE : alors que ce dernier était conçu pour l’informatique à haute performance et l’apprentissage automatique, SVE2 étend les instructions de SVE pour traiter d’autres données en dehors de ces deux domaines : vision par ordinateur, multimédia, traitement LTE, génomique, bases de données en mémoire, web et logiciel à but général.

Le but du Neoverse N2 est d’offrir des performances largement supérieures au N1 tout en conservant une superficie et une efficience énergétique similaire à celle du N1.

L’architecture du N2 est beaucoup moins remaniée que celle du V1. Toutefois, elle bénéficie de nombreuses fonctionnalités identiques, telles que la gestion de la mémoire MPAM ou Completer Busy.

La sécurité est l’une des priorités du N2, qui introduit l’authentification de pointeurs (Pointer Authentication, PAC) ; et les instructions ciblées de branches (Branch Targe Instructions, BTI), qui protègent contre la programmation orientée retour et la programmation orientée sauts.

Avec les extensions d’étiquetage de la mémoire (Memory Tagging Extension, MTE), on dispose d’un mécanisme qui détecte les violations de la sécurité de la mémoire, qui sont au cœurs de 70 % de toutes les vulnérabilités de sécurité.

Secure EL2 sont des extensions pour la virtualisation et la gestion de partitions sûres.

 

CMN-700

L’interconnect CMN-700 de réseau cohérent à mailles est le successeur du CMN-600.

Il est compatible avec de nombreux standards ouvertes (AMBA AXI5, ACE5-lite, CXS, et  CCIX), offre de hautes performances dans un maillage à l’échelle, réduit l’intégration dans un système sur puce, maximise la densité de traitement et optimise la distribution de la mémoire tampon.