Connect with us

Intelligence artificielle

La Bataille des Modèles de Langage Open Source vs Closed Source : Une Analyse Technique

mm
open source vs close source LLM

Les grands modèles de langage (LLM) ont captivé la communauté de l’IA ces dernières années, menant à des avancées dans le traitement automatique des langues. Derrière l’hype se cache un débat complexe – ces modèles puissants devraient-ils être open source ou closed source ?

Dans cet article, nous allons analyser la différenciation technique entre ces approches pour comprendre les opportunités et les limites que chacune présente. Nous allons couvrir les aspects clés suivants :

  • Définition des modèles de langage open source et closed source
  • Transparence architecturale et personnalisabilité
  • Évaluation des performances
  • Exigences computationnelles
  • Polyvalence des applications
  • Accessibilité et licence
  • Confidentialité et confidentialité des données
  • Soutien et financement commercial

À la fin, vous aurez une perspective éclairée sur les compromis techniques entre les modèles de langage open source et closed source pour guider votre propre stratégie d’IA. Plongeons dans le sujet !

Définition des Modèles de Langage Open Source et Closed Source

Les modèles de langage open source ont des architectures de modèle, des codes source et des paramètres de poids accessibles publiquement. Cela permet aux chercheurs d’inspecter les internes, d’évaluer la qualité, de reproduire les résultats et de créer des variantes personnalisées. Les exemples de premier plan incluent ConstitutionalAI d’Anthropic, LLaMA de Meta et GPT-NeoX d’EleutherAI.

En revanche, les modèles de langage closed source traitent l’architecture du modèle et les poids comme des actifs propriétaires. Des entités commerciales comme Anthropic, DeepMind et OpenAI les développent en interne. Sans code accessible ou détails de conception, la reproductibilité et la personnalisation sont limitées.

Transparence Architecturale et Personnalisabilité

L’accès aux internes des modèles de langage open source débloque des opportunités de personnalisation qui ne sont simplement pas possibles avec les alternatives closed source.

En ajustant l’architecture du modèle, les chercheurs peuvent explorer des techniques comme l’introduction d’une connectivité éparsse entre les couches ou l’ajout de jetons de classification dédiés pour améliorer les performances sur des tâches de niche. Avec l’accès aux paramètres de poids, les développeurs peuvent transférer l’apprentissage de représentations existantes ou initialiser des variantes avec des blocs de construction pré-entraînés comme les embeddings T5 et BERT.

Cette personnalisation permet aux modèles de langage open source de mieux servir des domaines spécialisés comme la recherche biomédicale, la génération de code et l’éducation. Cependant, l’expertise requise peut augmenter la barrière pour livrer des implementations de production de qualité.

Les modèles de langage closed source offrent une personnalisation limitée car leurs détails techniques restent propriétaires. Cependant, leurs soutiens consacrent des ressources considérables à la recherche et au développement internes. Les systèmes qui en résultent poussent les limites de ce qui est possible avec une architecture de modèle de langage généralisé.

Ainsi, même si elles sont moins flexibles, les modèles de langage closed source excellent dans les tâches de langage naturel largement applicables. Ils simplifient également l’intégration en se conformant aux interfaces établies comme la norme OpenAPI.

Évaluation des Performances

Malgré la transparence architecturale, mesurer les performances des modèles de langage open source introduit des défis. Leur flexibilité permet des configurations et des stratégies de réglage infinies. Cela permet également aux modèles présentés comme « open source » d’inclure en réalité des techniques propriétaires qui déforment les comparaisons.

Les modèles de langage closed source affichent des objectifs de performance plus clairement définis car leurs soutiens évaluent et publient des seuils de métriques spécifiques. Par exemple, Anthropic publie l’exactitude de ConstitutionalAI sur des ensembles de problèmes NLU curatés. Microsoft met en évidence la façon dont GPT-4 dépasse les références humaines sur l’outil de compréhension du langage SuperGLUE.

Cependant, ces benchmarks étroits ont été critiqués pour surestimer les performances sur des tâches du monde réel et sous-estimer les échecs. L’évaluation réellement impartiale des modèles de langage reste une question de recherche ouverte – pour les approches open source et closed source.

Exigences Computationnelles

La formation de grands modèles de langage exige des ressources computationnelles considérables. OpenAI a dépensé des millions pour former GPT-3 sur une infrastructure cloud, tandis qu’Anthropic a consommé jusqu’à 10 millions de dollars de GPU pour ConstitutionalAI.

La facture pour de tels modèles exclut la plupart des individus et des petites équipes de la communauté open source. En fait, EleutherAI a dû retirer le modèle GPT-J de l’accès public en raison de coûts d’hébergement explosifs.

Sans poches profondes, les histoires de réussite des modèles de langage open source utilisent des ressources de calcul données. LAION a curé son modèle LAION-5B axé sur la technologie en utilisant des données fournies par la foule. Le projet non lucratif Anthropic ConstitutionalAI a utilisé un calcul de bénévoles.

Le soutien des grandes entreprises comme Google, Meta et Baidu fournit aux efforts closed source le carburant financier nécessaire pour industrialiser le développement des modèles de langage. Cela permet une mise à l’échelle à des longueurs impensables pour les initiatives de base – comme le modèle Gopher de 280 milliards de paramètres de DeepMind.

Polyvalence des Applications

La personnalisation des modèles de langage open source permet de traiter des cas d’utilisation hautement spécialisés. Les chercheurs peuvent modifier agressivement les internes du modèle pour améliorer les performances sur des tâches de niche comme la prédiction de la structure des protéines, la génération de documentation de code et la vérification des preuves mathématiques.

Cependant, la capacité d’accéder et de modifier le code ne garantit pas une solution de domaine spécifique efficace sans les bonnes données. Les ensembles de données de formation complets pour des applications étroites nécessitent des efforts considérables pour les curer et les mettre à jour.

Ici, les modèles de langage closed source bénéficient des ressources pour sourcer des données de formation à partir de référentiels internes et de partenaires commerciaux. Par exemple, DeepMind licence des bases de données comme ChEMBL pour la chimie et UniProt pour les protéines pour étendre la portée des applications. L’accès aux données à l’échelle industrielle permet à des modèles comme Gopher d’atteindre une polyvalence remarquable malgré l’opacité architecturale.

Accessibilité et Licence

La licence permissive des modèles de langage open source favorise l’accès gratuit et la collaboration. Des modèles comme GPT-NeoX, LLaMA et Jurassic-1 Jumbo utilisent des accords comme Creative Commons et Apache 2.0 pour permettre la recherche non commerciale et la commercialisation équitable.

En revanche, les modèles de langage closed source portent des licences restrictives qui limitent la disponibilité du modèle. Les entités commerciales contrôlent étroitement l’accès pour protéger les flux de revenus potentiels provenant des API de prédiction et des partenariats d’entreprise.

Compréhensiblement, des organisations comme Anthropic et Cohere facturent l’accès à des interfaces comme ConstitutionalAI et Cohere-512. Cependant, cela risque de mettre hors de portée des domaines de recherche importants, en orientant le développement vers les industries bien financées.

La licence ouverte pose également des défis, notamment en matière d’attribution et de responsabilité. Pour les cas d’utilisation de la recherche, cependant, les libertés accordées par l’accessibilité open source offrent des avantages clairs.

Confidentialité et Confidentialité des Données

Les ensembles de données de formation pour les modèles de langage agrègent généralement du contenu provenant de diverses sources en ligne comme des pages web, des articles scientifiques et des forums de discussion. Cela risque de rendre publique des informations personnellement identifiables ou autrement sensibles dans les sorties de modèle.

Pour les modèles de langage open source, examiner la composition de l’ensemble de données fournit la meilleure protection contre les problèmes de confidentialité. Évaluer les sources de données, les procédures de filtrage et documenter les exemples préoccupants trouvés pendant les tests peut aider à identifier les vulnérabilités.

Malheureusement, les modèles de langage closed source précluent une telle vérification publique. Au lieu de cela, les consommateurs doivent se fier à la rigueur des processus de révision internes basés sur les politiques annoncées. Pour le contexte, Azure Cognitive Services promet de filtrer les données personnelles tandis que Google spécifie des examens de confidentialité formels et un étiquetage de données.

Dans l’ensemble, les modèles de langage open source permettent une identification plus proactive des risques de confidentialité dans les systèmes d’IA avant que ces failles ne se manifestent à grande échelle. Les contreparties closed source offrent une transparence relativement limitée dans les pratiques de gestion des données.

Soutien et Financement Commercial

La possibilité de monétiser les modèles de langage closed source incite à des investissements commerciaux considérables pour le développement et la maintenance. Par exemple, en anticipant des rendements lucratifs de son portefeuille Azure AI, Microsoft a accepté des partenariats de plusieurs milliards de dollars avec OpenAI autour des modèles GPT.

En revanche, les modèles de langage open source dépendent de bénévoles allouant du temps personnel pour la maintenance ou de subventions fournissant un financement à court terme. Cette asymétrie des ressources risque la continuité et la longévité des projets open source.

Cependant, les barrières à la commercialisation libèrent également les communautés open source pour se concentrer sur le progrès scientifique plutôt que sur le profit. Et la nature décentralisée des écosystèmes open source atténue la dépendance à l’intérêt soutenu d’un seul soutien.

En fin de compte, chaque approche comporte des compromis autour des ressources et des incitations. Les modèles de langage closed source bénéficient d’une sécurité financière accrue mais concentrent l’influence. Les écosystèmes open source favorisent la diversité mais souffrent d’une incertitude accrue.

Navigation dans le Paysage des Modèles de Langage Open Source et Closed Source

La décision entre les modèles de langage open source et closed source nécessite de faire correspondre les priorités organisationnelles comme la personnalisation, l’accessibilité et la scalabilité avec les capacités du modèle.

Pour les chercheurs et les startups, les modèles open source offrent plus de contrôle pour ajuster les modèles à des tâches spécifiques. La licence facilite également le partage gratuit d’insights entre les collaborateurs. Cependant, la charge de sourcer des données de formation et des infrastructures peut miner la viabilité dans le monde réel.

Inversement, les modèles de langage closed source promettent des améliorations considérables de la qualité grâce à un financement abondant et des données. Cependant, les restrictions autour de l’accès et des modifications limitent la transparence scientifique tout en liant les déploiements aux feuilles de route des fournisseurs.

Dans la pratique, les normes ouvertes autour des spécifications d’architecture, des points de contrôle de modèle et des données d’évaluation peuvent aider à compenser les inconvénients des deux approches. Des fondations partagées comme le Transformer de Google ou les benchmarks REALTO d’Oxford améliorent la reproductibilité. Les normes d’interopérabilité comme ONNX permettent de mélanger des composants provenant de sources open et closed.

En fin de compte, ce qui compte, c’est de choisir l’outil approprié – open source ou closed source – pour la tâche en question. Les entités commerciales soutenant les modèles de langage closed source exercent une influence indéniable. Mais la passion et les principes des communautés de science ouverte continueront de jouer un rôle crucial dans la conduite du progrès de l’IA.

J'ai passé les cinq dernières années à me plonger dans le monde fascinant de l'apprentissage automatique et de l'apprentissage profond. Ma passion et mon expertise m'ont conduit à contribuer à plus de 50 projets de génie logiciel divers, avec un accent particulier sur l'IA/ML. Ma curiosité permanente m'a également attiré vers le traitement automatique des langues, un domaine que je suis impatient d'explorer plus en détail.