Microsoft et NVDIA annoncent Megatron-Turing NLG 530B (MT-NLG) le modèle génératif de langage naturel de type Megatron-Turing, qui serait le modèle entraîné monolithique à transformation de langage naturel le plus puissant à ce jour, avec 530 milliards de paramètres.
Pour simplifier, il s’agit d’un modèle d’intelligence artificielle, basé sur les réseaux neuronaux (à 105 couches), spécialisé dans le traitement du langage naturel. Comme tous ces types de modèles, il faut les entraîner avec des données avant de pouvoir les exploiter.
La plupart des modèles ne peuvent transférer leur apprentissage, contrairement aux modèles à transformation.
Un modèle génératif est un modèle statistique défini par opposition à un modèle discriminatif, qui cherche à décrire chaque classe et à en déduire à quel point une donnée présente les caractéristiques de cette classe.
Son avantage est de permettre d’estimer la confiance d’une prédiction et donc de formuler un rejet de prédiction, ce qui est impossible en modèle discriminatif, et de générer de nouvelles données à partir de probabilités conditionnelles.
Son désavantage est qu’il nécessite beaucoup plus de calculs.
MT- NLG est le successeur de Turing NLG 17B de Microsoft et de Megatron-LM de NVIDIA. Il possède trois fois plus de paramètres que les modèles les plus grands actuels de ce type, ce qui lui permet d’offrir une précision inégalée pour des tâches de langage naturel, telles que :
- Prédire la fin d’une phrase ;
- Compréhension de lecture ;
- Raisonnement « de bon sens » ;
- Inférences en langage naturel ;
- Désambiguïsation du sens d’un mot.
Toute chose égale par ailleurs, plus un modèle inclut de paramètres, plus il nécessite de données et de temps d’entraînement, et plus riche et plus nuancée est sa compréhension du langage naturel.
L’entraînement devient un défi, car on ne peut plus faire tenir les paramètres dans la mémoire des processeurs graphiques (GPU), même les plus puissants, et la quantité énorme d’opérations nécessite d’optimiser à la fois les algorithmes, les logiciels et le matériel informatique, afin que la durée d’un entraînement reste raisonnable.
Le modèle a donc été entraîné sur Selene, un superordinateur de NVIDIA (6e superordinateur du monde en performance), composé de 560 serveurs DGX A100 serveurs interconnectés par HDR infiniband, chaque serveur intégrant huit cartes accélératrices NVIDIA 100 avec mémoire dédiée de 80 Go chacune, pour un total de 4 480 GPUs, chacun avec une performance de 113 téraflops par seconde, ainsi que des processeurs AMD EPYC 7742 64Cpour un total de 555 520 cœurs et 1 120 000 Go de mémoire vive.
La famille de machines virtuelles ND A100 v4 de Microsoft Azure exploite la même architecture que Selene.
En s’appuyant sur Megatron-LM, le modèle de langage naturel à transformation de NVIDIA et de DeepSpeed, la bibliothèque d’optimisation d’apprentissage profond de Microsoft, les deux partenaires ont développé un système 3D parallèle efficace et extensible, qui peut combiner le parallélisme basé sur les données, les pipelines et le découpage de tenseurs, ce qui le rend capable de répondre au défi énoncé ci-dessus.
MT-NLG a été entraîné avec une série de données appelée The Pile, composée de 825 Go de textes issus de Wikipedia, de journaux académiques, de nouvelles, etc., soit l’équivalent d’environ un million de livres de 500 pages.
La qualité et les résultats obtenus représenteraient un grand bond en avant dans la quête d’atteindre le plein potentiel de l’intelligence artificielle appliquée au langage naturel, et les avancées logicielles, qui permettent d’entraîner plus vite et à moindre coût, pourront être exploitées par des projets tiers.