Microsoft lance Phi-3-mini : fonctionne sur iPhone et offre des performances comparables à ChaGPT 3.5

Microsoft a dévoilé un petit modèle de langage qui pourrait donner du fil à retordre à GPT 3.5 et fonctionner sur un iPhone. Il s’appelle Phi-3-mini et sa principale caractéristique est d’avoir des performances considérables mais de petites dimensions, ce qui le rend attractif pour les installations locales sur des appareils mobiles tels que les smartphones.

Phi-3-mini possède 3,8 milliards de paramètres mais il a été formé sur pas moins de 3 300 milliards de jetons.

Le paramètre d’un LLM est une valeur que le modèle apprend au cours de la formation et est régulé par un processus appelé « rétropropagation » qui implique le calcul de l’erreur entre les prédictions du modèle, la sortie réelle et la régulation des paramètres lui-même pour minimiser cette erreur. erreur.

Les paramètres servent donc à identifier les relations entre les différents mots et expressions de la langue, permettant au modèle de générer des résultats similaires à ceux humains et de faire des prédictions précises. Sans ces paramètres, un modèle de langage ne serait pas capable d’effectuer des tâches de traitement du langage naturel avec un haut niveau de précision.

Par conséquent, généralement, plus le nombre de paramètres est grand (dans les LLM, nous parlons de milliards), plus le modèle est capable de relier les différents mots de manière exacte, augmentant ainsi l’agilité prédictive d’un LLM dans la construction d’une phrase.

Mais la qualité d’un modèle est également liée à la quantité (et à la qualité) des données utilisées pour sa formation, par exemple dans le cas de Phi-3-mini, nous parlons de 3 300 milliards de jetons, c’est-à-dire de mots ou de morceaux de mots. Un nombre considérable.

Testé avec succès sur un iPhone 14

Dans l’étude publiée par Microsoft avec laquelle le Phi-3-mini a été annoncé, l’entreprise écrit par l’intermédiaire de ses chercheurs que «Grâce à sa petite taille, le Phi-3-mini peut être quantifié sur 4 bits et n’occupe donc qu’environ 1,8 Go de mémoire. Nous avons testé le modèle quantifié sur l’iPhone 14 avec la puce A16 Bionic, fonctionnant nativement sur l’appareil et complètement hors ligne, atteignant plus de 12 jetons par seconde».

Ouvrir l’original

La quantification d’un LLM se réfère à ses poids. Dans un LLM, les poids déterminent l’importance de chaque entrée dans un réseau neuronal et sont également appris au cours du processus de formation. Lorsque le réseau neuronal génère des jetons (c’est-à-dire dans le cas des LLM, des mots puis du texte), il utilise les poids appris pendant l’entraînement pour déterminer quel jeton est le plus susceptible d’être généré ensuite.

Avoir des poids quantifiés réduit la précision de ces liens et par conséquent la précision du modèle, car en effet la quantité d’informations que le modèle peut utiliser pour faire des prédictions sur le texte à générer est réduite.

Cependant, réduire les poids présente deux avantages : cela permet d’utiliser moins de RAM et d’accélérer les opérations mathématiques nécessaires à l’inférence, c’est-à-dire l’utilisation réelle d’un LLM pour faire des prédictions.

Selon Microsoft Phi-3-mini, qui dispose d’une fenêtre contextuelle de 4 096 jetons (c’est-à-dire le nombre maximum de jetons que le modèle peut traiter en même temps), a des performances globales qui rivalisent avec celles de modèles comme le Mixtral 8x7B et le GPT-3.5. Ce dernier est le modèle OpenAI qui donne toujours vie à ChatGPT dans une version gratuite.

Ouvrir l’original

Pour Microsoft, la puissance et l’innovation du Phi-3-mini sont la conséquence de cet ensemble de données de formation de 3 300 milliards de jetons.qui est une version à l’échelle de celle utilisée pour Phi-2, composée de données Web considérablement filtrées et de données synthétiques (c’est-à-dire générées artificiellement par des algorithmes).

Microsoft travaille également sur le paramètre Phi-3-small à 7 milliards et le paramètre Phi-3-medium à 14 milliards. De plus, il a déjà réussi à étendre la fenêtre contextuelle du Phi-3-mini jusqu’à 128 Ko (soit 128 000 tokens) grâce à l’utilisation d’un « extender » appelé LongRoPE.

Testé avec succès sur un iPhone 14

Related posts