MAI-1 est le modèle de 500 milliards de paramètres de Microsoft. OpenAI devrait-il s’inquiéter ?

Microsoft forme un grand modèle de langage (LLM) appelé MAI-1 qui pourrait rivaliser avec les modèles de Google, Anthropic et même ceux de son partenaire OpenAI.

La nouvelle vient du journal The Information, selon lequel, pour la première fois depuis qu’il a investi plus de 10 milliards de dollars dans OpenAI, Microsoft forme en interne un nouveau modèle suffisamment grand pour rivaliser avec les IA de ses adversairesmais aussi avec ceux d’OpenAI lui-même.

Suite aux développements de MAI-1, Mustafa Suleyman, embauché en mars pour gérer la nouvelle organisation interne appelée Microsoft AI. Suleyman a été co-fondateur de DeepMind en 2010, chez Google jusqu’en 2022 et fondateur de la startup Inflection AI qui a donné naissance au « chatbot personnel » Pi.

Aux côtés de Suleyman, Microsot a embauché une partie du personnel de la startup et a payé 650 millions de dollars pour l’utilisation de ses propriétés intellectuelles. En fait, il semble que certaines données de formation proviennent directement d’Inflection AI, bien que deux sources au sein de Microsoft aient déclaré que MAI-1 est un projet distinct de celui précédemment développé par la startup. D’autres données proviendraient plutôt d’autres sources. Les informations cite également le texte généré par GPT-4 d’OpenAI.

Microsoft est-il en train de construire un rival pour ChatGPT ?

A la fin de la formation, MAI-1 devrait avoir environ 500 milliards de paramètresce qui ferait du modèle interne de Microsoft un adversaire redoutable.

Bien qu’il n’y ait pas de données officielles d’OpenAI, le modèle GPT-4 – qui donne vie à la version payante de ChatGPT et du Copilot de Microsoft – devrait avoir 220 milliards de paramètres entraînés sur 8 ensembles de poids distincts pour un total de 1760 milliards de paramètres (comme l’a déclaré le célèbre ingénieur George Hotz, qui n’est cependant pas un employé d’OpenAI).

Ce type de formation est appelé « mélange d’experts » (combinaison d’experts). L’idée de base est de diviser le modèle en plusieurs sous-ensembles spécialisés ou « experts », chacun étant formé pour travailler sur un sous-ensemble spécifique de données ou de tâches.

Ensuite, lors de l’inférence, lorsque le modèle reçoit l’invite d’un utilisateur, un mécanisme de routage est utilisé pour déterminer quel sous-groupe d’experts est le plus pertinent pour traiter cette contribution spécifique.

Microsoft a déjà publié des modèles open source, comme le petit Phi-3, mais MAI-1 se situe à un niveau nettement supérieur. Il n’a pas encore été établi à quoi servira MAI-1, mais son annonce pourrait être présentée lors de la prochaine conférence Build de Microsoft qui se tiendra du 21 au 23 mai, a rapporté The Information.

Microsoft est-il en train de construire un rival pour ChatGPT ?

Related posts