Intelligence artificielle

À l’intérieur de Phi-3 Mini de Microsoft : Un modèle d’IA léger qui frappe au-dessus de son poids

Published May 1, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Microsoft a récemment dévoilé son dernier modèle de langage léger appelé Phi-3 Mini, qui lance une série de modèles d’IA compacts conçus pour offrir des performances de pointe tout en étant suffisamment petits pour fonctionner efficacement sur des appareils à ressources de calcul limitées. Avec seulement 3,8 milliards de paramètres, Phi-3 Mini est une fraction de la taille des géants de l’IA comme GPT-4, mais il promet de rivaliser avec leurs capacités dans de nombreux domaines clés.

Le développement de Phi-3 Mini représente un jalon important dans la quête pour démocratiser les capacités d’IA avancées en les rendant accessibles sur une plus grande variété de matériel. Sa petite empreinte lui permet d’être déployé localement sur les smartphones, les tablettes et d’autres appareils de périphérie, surmontant ainsi les problèmes de latence et de confidentialité associés aux modèles basés sur le cloud. Cela ouvre de nouvelles possibilités pour des expériences intelligentes sur appareil dans divers domaines, allant des assistants virtuels et de l’IA conversationnelle aux assistants de codage et aux tâches de compréhension du langage.

: 4-bit quantized phi-3-mini running natively on an iPhone

Sous le capot : Architecture et formation

Au cœur de Phi-3 Mini se trouve un modèle de décodeur de transformateur construit sur une architecture similaire à celle du modèle Llama-2 open source. Il comporte 32 couches, 3072 dimensions cachées et 32 têtes d’attention, avec une longueur de contexte par défaut de 4 000 jetons. Microsoft a également introduit une version de long contexte appelée Phi-3 Mini-128K, qui étend la longueur du contexte à 128 000 jetons en utilisant des techniques comme LongRope.

Ce qui distingue Phi-3 Mini, cependant, c’est sa méthodologie de formation. Plutôt que de s’appuyer uniquement sur la force brute de jeux de données massifs et de puissance de calcul, Microsoft s’est concentré sur la curation d’un jeu de données de formation de haute qualité et dense en raisonnement. Ces données sont composées de données Web filtrées, ainsi que de données synthétiques générées par des modèles de langage plus importants.

Le processus de formation suit une approche en deux phases. Dans la première phase, le modèle est exposé à une gamme diversifiée de sources Web visant à lui enseigner les connaissances générales et la compréhension du langage. La deuxième phase combine des données Web encore plus filtrées avec des données synthétiques conçues pour inculquer des compétences en raisonnement logique et une expertise de niche.

Microsoft se réfère à cette approche comme le “régime de données optimal”, un écart par rapport au “régime de calcul optimal” ou au “régime de sur-formation” employé par de nombreux grands modèles de langage. L’objectif est de calibrer les données de formation pour qu’elles correspondent à l’échelle du modèle, en fournissant le bon niveau de connaissances et de capacités de raisonnement tout en laissant suffisamment de capacité pour d’autres capacités.

: Qualité des nouveaux modèles Phi-3, telle que mesurée par les performances sur le benchmark Massive Multitask Language Understanding (MMLU)

Cette approche centrée sur les données a porté ses fruits, car Phi-3 Mini obtient des performances remarquables sur une large gamme de benchmarks universitaires, souvent rivalisant ou surpassant des modèles beaucoup plus grands. Par exemple, il obtient 69 % sur le benchmark MMLU pour l’apprentissage et la compréhension multıtâches et 8,38 sur le benchmark MT pour le raisonnement mathématique – des résultats qui sont à la hauteur de modèles comme Mixtral 8x7B et GPT-3.5.

Sécurité et robustesse

Parallèlement à ses performances impressionnantes, Microsoft a placé une forte emphase sur la sécurité et la robustesse dans le développement de Phi-3 Mini. Le modèle a subi un processus de formation postérieure rigoureux impliquant une formation fine supervisée (SFT) et une optimisation de préférence directe (DPO).

La phase SFT utilise des données hautement ciblées dans divers domaines, notamment les mathématiques, la programmation, le raisonnement, la conversation, l’identité du modèle et la sécurité. Cela aide à renforcer les capacités du modèle dans ces domaines tout en lui inculquant une forte identité et un comportement éthique.

La phase DPO, en revanche, se concentre sur la direction du modèle pour l’éloigner de comportements indésirables en utilisant des réponses rejetées comme exemples négatifs. Ce processus couvre les données de format de chat, les tâches de raisonnement et les efforts de RAI, en veillant à ce que Phi-3 Mini se conforme aux principes de Microsoft en matière d’IA éthique et digne de confiance.

Pour améliorer encore son profil de sécurité, Phi-3 Mini a été soumis à des tests de piratage et à des tests automatisés approfondis sur des dizaines de catégories de préjudice RAI. Une équipe de piratage indépendante de Microsoft a examiné de manière itérative le modèle, en identifiant les domaines d’amélioration, qui ont ensuite été abordés grâce à des ensembles de données ciblés et à une nouvelle formation.

Cette approche à plusieurs facettes a considérablement réduit l’incidence de réponses nuisibles, d’inexactitudes factuelles et de biais, comme le démontrent les benchmarks internes de RAI de Microsoft. Par exemple, le modèle présente des taux de défauts faibles pour la poursuite de contenu nuisible (0,75 %) et la synthèse (10 %), ainsi qu’un faible taux de non-fondement (0,603), indiquant que ses réponses sont fermement ancrées dans le contexte donné.

Applications et cas d’utilisation

Avec ses performances impressionnantes et ses mesures de sécurité robustes, Phi-3 Mini est bien adapté à une large gamme d’applications, en particulier dans des environnements à ressources limitées et des scénarios liés à la latence.

L’une des perspectives les plus passionnantes est le déploiement d’assistants virtuels intelligents et d’IA conversationnelle directement sur les appareils mobiles. En fonctionnant localement, ces assistants peuvent fournir des réponses instantanées sans nécessiter de connexion réseau, tout en veillant à ce que les données sensibles restent sur l’appareil, ce qui répond aux préoccupations en matière de confidentialité.

Les solides capacités de raisonnement de Phi-3 Mini en font également un atout précieux pour l’assistance à la programmation et la résolution de problèmes mathématiques. Les développeurs et les étudiants peuvent bénéficier d’une complétion de code, d’une détection de bogues et d’explications sur l’appareil, ce qui rationalise les processus de développement et d’apprentissage.

Au-delà de ces applications, la polyvalence du modèle ouvre des opportunités dans des domaines tels que la compréhension du langage, la synthèse de texte et la réponse à des questions. Sa petite taille et son efficacité en font un choix attractif pour intégrer des capacités d’IA dans une large gamme d’appareils et de systèmes, des appareils intelligents pour la maison aux systèmes d’automatisation industrielle.

Regard vers l’avenir : Phi-3 Small et Phi-3 Medium

Alors que Phi-3 Mini est déjà une réalisation remarquable en soi, Microsoft a des plans encore plus ambitieux pour la famille de modèles Phi-3. L’entreprise a déjà présenté deux modèles plus grands, Phi-3 Small (7 milliards de paramètres) et Phi-3 Medium (14 milliards de paramètres), qui devraient repousser les limites des performances pour les modèles de langage compacts.

Phi-3 Small, par exemple, utilise un tokenizer plus avancé (tiktoken) et un mécanisme d’attention regroupé, ainsi qu’une couche d’attention sparse en blocs, pour optimiser son empreinte mémoire tout en maintenant des performances de récupération de contexte à long terme. Il intègre également 10 % de données multilingues supplémentaires, améliorant ainsi ses capacités en matière de compréhension et de génération de langage dans plusieurs langues.

Phi-3 Medium, en revanche, représente une augmentation significative de l’échelle, avec 40 couches, 40 têtes d’attention et une dimension d’incrustation de 5 120. Bien que Microsoft note que certains benchmarks puissent nécessiter une affination supplémentaire du mélange de données de formation pour tirer pleinement parti de cette capacité accrue, les résultats initiaux sont prometteurs, avec des améliorations substantielles par rapport à Phi-3 Small sur des tâches comme MMLU, TriviaQA et HumanEval.

Limitations et orientations futures

Malgré ses capacités impressionnantes, Phi-3 Mini, comme tous les modèles de langage, n’est pas sans limites. L’une des faiblesses les plus notables est sa capacité relativement limitée à stocker des connaissances factuelles, comme en témoigne sa performance inférieure sur des benchmarks comme TriviaQA.

Cependant, Microsoft estime que cette limitation peut être atténuée en complétant le modèle avec des capacités de recherche, lui permettant de récupérer et de raisonner sur des informations pertinentes à la demande. Cette approche est démontrée dans l’interface de chat Hugging Face Chat-UI, où Phi-3 Mini peut utiliser la recherche pour améliorer ses réponses.

Un autre domaine d’amélioration est la capacité multilingue du modèle. Bien que Phi-3 Small ait fait les premiers pas en incorporant des données multilingues supplémentaires, un travail supplémentaire est nécessaire pour débloquer pleinement le potentiel de ces modèles compacts pour les applications translinguistiques.

En regardant vers l’avenir, Microsoft s’engage à continuer à faire progresser la famille de modèles Phi, en abordant leurs limites et en élargissant leurs capacités. Cela peut impliquer des affinements supplémentaires des données de formation et de la méthodologie, ainsi que l’exploration de nouvelles architectures et de techniques spécifiquement conçues pour les modèles de langage compacts et à haute performance.

Conclusion

Le Phi-3 Mini de Microsoft représente un saut important dans la démocratisation des capacités d’IA avancées. En offrant des performances de pointe dans un package compact et efficace en termes de ressources, il ouvre de nouvelles possibilités pour des expériences intelligentes sur appareil dans une large gamme d’applications.

L’approche innovante de formation de Phi-3 Mini, qui met l’accent sur des données de haute qualité et denses en raisonnement plutôt que sur la puissance brute de calcul, s’est avérée être un facteur de changement, permettant à Phi-3 Mini de frapper au-dessus de sa catégorie de poids. Combiné avec ses solides mesures de sécurité et ses efforts de développement continus, la famille de modèles Phi est susceptible de jouer un rôle crucial dans l’élaboration de l’avenir des systèmes intelligents, en rendant l’IA plus accessible, efficace et digne de confiance que jamais.

Alors que l’industrie technologique continue de repousser les limites de ce qui est possible avec l’IA, l’engagement de Microsoft en faveur de modèles légers et à haute performance comme Phi-3 Mini représente un écart rafraîchissant par rapport à la sagesse conventionnelle selon laquelle “plus c’est grand, mieux c’est”. En démontrant que la taille n’est pas tout, Phi-3 Mini a le potentiel d’inspirer une nouvelle vague d’innovation axée sur la maximisation de la valeur et de l’impact de l’IA grâce à une curation de données intelligente, à une conception de modèle réfléchie et à des pratiques de développement responsables.

Aayush Mittal

J'ai passé les cinq dernières années à me plonger dans le monde fascinant de l'apprentissage automatique et de l'apprentissage profond. Ma passion et mon expertise m'ont conduit à contribuer à plus de 50 projets de génie logiciel divers, avec un accent particulier sur l'IA/ML. Ma curiosité permanente m'a également attiré vers le traitement automatique des langues, un domaine que je suis impatient d'explorer plus en détail.

Unite.AI