Phi obtiendrait des résultats similaires à Llama2 tout en nécessitant beaucoup moins de paramètres
Phi obtiendrait des résultats similaires à Llama2 tout en nécessitant beaucoup moins de paramètres

Microsoft lance Phi-3 un concurrent de GPT 3.5

Microsoft présente dans un document académique signé par 84 chercheurs Phi-3, une famille de grands modèles linguistiques, dont le plus petit, Phi-3-mini, rivaliserait avec GPT-3.5 d’Open AI et Mistral 8x7B, d’après des tests académiques aussi bien que des tests internes.

Phi-3-mini est un modèle à 3,5 milliards de paramètres, et pourrait tourner sur un téléphone moderne : avec une quantification sur 4 bits, il ne nécessite que 1,8 Go de mémoire ; Phi-3-small est un modèle à 7 milliards de paramètres, et Phi-3-medium est un modèle à 14 milliards de paramètres.

Microsoft avance que l’innovation de cette famille de modèles réside dans l’ensemble de données d’entraînement, un surensemble de celui de Phi-2, composé de données fortement filtrées de la toile et des données synthétiques.

Le modèle serait optimisé pour la robustesse, la sûreté, et un format de bavardage.

Ces données d’entraînement permettraient d’obtenir les mêmes scores que des modèles concurrents avec 25 fois plus de paramètres.

Microsoft se serait inspiré de la façon dont les enfants apprennent de livres de chevet, des livres qui décrivent des sujets généraux à l’aide d’un vocabulaire simple et limité.

Revers de la médaille : ce modèle ne peut pas stocker autant de « connaissances factuelles » que des modèles avec beaucoup plus de paramètres.

Les auteurs du document soutiennent que cette faiblesse peut être surmontée en l’alliant à un moteur de recherche.

La seconde faiblesse est la limitation de Phi-3-mini à l’anglais. Une faiblesse qui commence à disparaître avec Phi-3-small.

Les principaux modèles concurrents, hormis ceux déjà mentionnés, sont Claude 3 Haiku d’Anthropic, Gemma 2B et 7B de Google, et Llama 3 8B de Meta.