Intelligence Artificielle

La bataille entre les modèles de langage Open Source et Closed Source : une analyse technique

Publié 12 février 2024

Ayush Mittal mital

Les grands modèles de langage (LLM) ont captivé la communauté de l’IA ces dernières années, ouvrant la voie à des percées dans le traitement du langage naturel. Derrière ce battage médiatique se cache un débat complexe : ces modèles puissants doivent-ils être open source ou fermés ?

Dans cet article, nous analyserons la différenciation technique entre ces approches pour comprendre les opportunités et les limites que chacune présente. Nous aborderons les aspects clés suivants :

Définir les LLM open source et fermés
Transparence architecturale et personnalisation
Analyse comparative des performances
Exigences de calcul
Polyvalence des applications
Accessibilité et licence
Confidentialité et confidentialité des données
Accompagnement et support commercial

À la fin, vous aurez une perspective éclairée sur les compromis techniques entre les LLM open source et fermés pour guider votre propre stratégie d'IA. Allons-y !

Définir les LLM Open Source et Closed Source

Les LLM open source disposent d'architectures de modèles, de codes sources et de paramètres de pondération accessibles au public. Cela permet aux chercheurs d'inspecter les composants internes, d'évaluer la qualité, de reproduire les résultats et de créer des variantes personnalisées. Parmi les principaux exemples, citons ConstitutionalAI d'Anthropic, LLaMA de Meta et GPT-NeoX d'EleutherAI.

En revanche, les LLM à source fermée traitent l’architecture et les pondérations des modèles comme des actifs propriétaires. Des entités commerciales comme Anthropic, DeepMind et OpenAI les développent en interne. Sans code ou détails de conception accessibles, la reproductibilité et la personnalisation sont limitées.

Transparence architecturale et personnalisation

L'accès aux composants internes open source du LLM ouvre des opportunités de personnalisation tout simplement impossibles avec les alternatives fermées.

En ajustant l'architecture du modèle, les chercheurs peuvent explorer des techniques telles que l'introduction d'une connectivité clairsemée entre les couches ou l'ajout de jetons de classification dédiés pour améliorer les performances sur des tâches de niche. Avec l'accès aux paramètres de pondération, les développeurs peuvent transférer, apprendre des représentations existantes ou initialiser des variantes avec des blocs de construction pré-entraînés tels que les intégrations T5 et BERT.

Cette personnalisation permet aux LLM open source de mieux servir des domaines spécialisés tels que la recherche biomédicale, la génération de code et l'éducation. Cependant, l’expertise requise peut constituer un obstacle à la réalisation de mises en œuvre de qualité production.

Les LLM à source fermée offrent une personnalisation limitée car leurs détails techniques restent exclusifs. Cependant, leurs bailleurs de fonds consacrent d’importantes ressources à la recherche et au développement internes. Les systèmes résultants repoussent les limites de ce qui est possible avec une architecture LLM généralisée.

Ainsi, bien que moins flexibles, les LLM à source fermée excellent dans les tâches en langage naturel largement applicables. Ils simplifient également l'intégration en se conformant aux interfaces établies comme la norme OpenAPI.

Analyse comparative des performances

Malgré la transparence architecturale, mesurer les performances LLM open source présente des défis. Leur flexibilité permet d’innombrables configurations et stratégies de réglage possibles. Cela permet également aux modèles préfixés comme « open source » d’inclure des techniques propriétaires qui faussent les comparaisons.

Les LLM à source fermée affichent des objectifs de performance plus clairement définis à mesure que leurs bailleurs de fonds se comparent et annoncent des seuils métriques spécifiques. Par exemple, Anthropic fait connaître la précision de ConstitutionalAI sur les ensembles de problèmes NLU sélectionnés. Microsoft souligne comment GPT-4 dépasse les références humaines dans la boîte à outils de compréhension du langage SuperGLUE.

Cela dit, ces critères étroitement définis ont été critiqués pour avoir surestimé les performances dans les tâches du monde réel et sous-représenté les échecs. Une évaluation LLM véritablement impartiale reste une question de recherche ouverte – pour les approches open source et fermée.

Exigences de calcul

La formation de grands modèles de langage nécessite des ressources informatiques étendues. OpenAI a dépensé des millions de dollars pour former GPT-3 sur l'infrastructure cloud, tandis qu'Anthropic a consommé plus de 10 millions de dollars de GPU pour ConstitutionalAI.

Le projet de loi pour de tels modèles exclut la plupart des individus et des petites équipes de la communauté open source. En fait, EleutherAI a dû supprimer le modèle GPT-J de l'accès public en raison de l'explosion des coûts d'hébergement.

Sans poches profondes, les réussites open source LLM exploitent les ressources informatiques données. LAION a organisé son modèle LAION-5B axé sur la technologie à l'aide de données collaboratives. Le projet à but non lucratif Anthropic ConstitutionalAI a utilisé l'informatique bénévole.

Le grand soutien technologique d'entreprises comme Google, Meta et Baidu fournit aux efforts de sources fermées le carburant financier nécessaire pour industrialiser le développement LLM. Cela permet d'atteindre des niveaux inimaginables pour les initiatives locales – il suffit de voir le modèle Gopher à 280 milliards de paramètres de DeepMind.

Polyvalence des applications

La personnalisation des LLM open source permet de s'attaquer à des cas d'utilisation hautement spécialisés. Les chercheurs peuvent modifier de manière agressive les composants internes du modèle pour améliorer les performances sur des tâches de niche telles que la prédiction de la structure des protéines, la génération de documentation de code et la vérification mathématique des preuves.

Cela dit, la possibilité d’accéder au code et de le modifier ne garantit pas une solution efficace spécifique à un domaine sans les bonnes données. Des ensembles de données de formation complets pour des applications restreintes nécessitent des efforts considérables pour être organisés et tenus à jour.

Ici, les LLM à source fermée bénéficient des ressources nécessaires pour rechercher des données de formation auprès de référentiels internes et de partenaires commerciaux. Par exemple, DeepMind autorise des bases de données telles que ChEMBL pour la chimie et UniProt pour les protéines afin d'étendre la portée des applications. L'accès aux données à l'échelle industrielle permet à des modèles comme Gopher d'atteindre une polyvalence remarquable malgré l'opacité architecturale.

Accessibilité et licences

La licence permissive des LLM open source favorise le libre accès et la collaboration. Des modèles tels que GPT-NeoX, LLaMA et Jurassic-1 Jumbo utilisent des accords tels que Creative Commons et Apache 2.0 pour permettre la recherche non commerciale et une commercialisation équitable.

En revanche, les LLM à code source fermé comportent des licences restrictives qui limitent la disponibilité des modèles. Les entités commerciales contrôlent étroitement l'accès pour protéger les flux de revenus potentiels issus des API de prédiction et des partenariats d'entreprise.

Naturellement, des organisations comme Anthropic et Cohere facturent l’accès aux interfaces ConstitutionalAI et Cohere-512. Cependant, cela risque de marginaliser des domaines de recherche importants et de fausser le développement vers des industries bien financées.

Les licences ouvertes posent également des problèmes, notamment en matière d'attribution et de responsabilité. Cependant, pour les cas d’utilisation en recherche, les libertés accordées par l’accessibilité open source offrent des avantages évidents.

Confidentialité et confidentialité des données

Les ensembles de données de formation pour les LLM regroupent généralement le contenu provenant de diverses sources en ligne telles que des pages Web, des articles scientifiques et des forums de discussion. Cela risque de faire apparaître des informations personnellement identifiables ou autrement sensibles dans les résultats du modèle.

Pour les LLM open source, l’examen minutieux de la composition des ensembles de données constitue le meilleur garde-fou contre les problèmes de confidentialité. L'évaluation des sources de données, les procédures de filtrage et la documentation des exemples trouvés lors des tests peuvent aider à identifier les vulnérabilités.

Malheureusement, les LLM de source fermée excluent un tel audit public. Les consommateurs doivent plutôt compter sur la rigueur des processus d’examen internes basés sur les politiques annoncées. Pour le contexte, Azure Cognitive Services promet de filtrer les données personnelles tandis que Google spécifie des examens formels de confidentialité et un étiquetage des données.

Dans l’ensemble, les LLM open source permettent une identification plus proactive des risques de confidentialité dans les systèmes d’IA avant que ces failles ne se manifestent à grande échelle. Les homologues fermés offrent une transparence relativement limitée sur les pratiques de traitement des données.

Soutien et support commerciaux

Le potentiel de monétisation des LLM à source fermée incite à des investissements commerciaux importants pour le développement et la maintenance. Par exemple, anticipant les rendements lucratifs de son portefeuille Azure AI, Microsoft a conclu des partenariats de plusieurs milliards de dollars avec OpenAI autour des modèles GPT.

En revanche, les LLM open source s'appuient sur des bénévoles qui consacrent du temps personnel à l'entretien ou sur des subventions fournissant un financement à durée limitée. Cette asymétrie des ressources met en danger la continuité et la longévité des projets open source.

Cependant, les obstacles à la commercialisation permettent également aux communautés open source de se concentrer sur le progrès scientifique plutôt que sur le profit. Et la nature décentralisée des écosystèmes ouverts atténue la dépendance excessive à l’égard des intérêts soutenus d’un seul bailleur de fonds.

En fin de compte, chaque approche implique des compromis en termes de ressources et d’incitations. Les LLM de source fermée bénéficient d'une plus grande sécurité de financement mais concentrent leur influence. Les écosystèmes ouverts favorisent la diversité mais souffrent d’une incertitude accrue.

Naviguer dans le paysage LLM Open Source et Closed Source

Pour choisir entre un LLM open source ou fermé, il faut faire correspondre les priorités organisationnelles telles que la personnalisation, l'accessibilité et l'évolutivité avec les capacités du modèle.

Pour les chercheurs et les startups, l’open source offre plus de contrôle pour adapter les modèles à des tâches spécifiques. La licence facilite également le partage gratuit d’informations entre collaborateurs. Cependant, la lourdeur de l’approvisionnement en données et infrastructures de formation peut nuire à la viabilité dans le monde réel.

À l’inverse, les LLM à source fermée promettent des améliorations de qualité considérables grâce à un financement et des données suffisants. Cependant, les restrictions concernant l'accès et les modifications limitent la transparence scientifique tout en contraignant les déploiements aux feuilles de route des fournisseurs.

En pratique, les normes ouvertes relatives aux spécifications d'architecture, aux points de contrôle des modèles et aux données d'évaluation peuvent contribuer à compenser les inconvénients des deux approches. Des fondations communes comme Transformer de Google ou les benchmarks REALTO d'Oxford améliorent la reproductibilité. Les normes d'interopérabilité comme ONNX permettent de combiner des composants issus de sources ouvertes et fermées.

En fin de compte, ce qui compte, c'est de choisir le bon outil – open source ou fermé – pour le travail à accomplir. Les entités commerciales qui soutiennent les LLM à source fermée exercent une influence indéniable. Mais la passion et les principes des communautés scientifiques ouvertes continueront de jouer un rôle crucial dans le progrès de l’IA.

Ayush Mittal

J'ai passé les cinq dernières années à m'immerger dans le monde fascinant du Machine Learning et du Deep Learning. Ma passion et mon expertise m'ont amené à contribuer à plus de 50 projets de génie logiciel divers, avec un accent particulier sur l'IA/ML. Ma curiosité continue m'a également attiré vers le traitement automatique du langage naturel, un domaine que j'ai hâte d'explorer davantage.

Unite.AI