Leaders d’opinion

Ne construisez pas votre intelligence artificielle d’entreprise sur un accès emprunté

mm

Toutes les applications et déploiements d’intelligence artificielle d’entreprise ont été construits jusqu’à présent en supposant que l’accès aux modèles d’intelligence artificielle de pointe resterait possible et presque illimité. C’était la bonne mentalité, jusqu’à présent. La tendance était que les nouvelles capacités des modèles de pointe étaient commodifiées ou open-sourcées dans les 6 mois et donc l’accent était mis uniquement sur la compréhension des capacités futures le plus tôt possible. Les entreprises, les équipes ou les personnes qui pouvaient construire des produits en saisissant et en s’adaptant aux nouvelles capacités de pointe le plus tôt possible pour construire des applications ont gagné. Cependant, plusieurs signaux pourraient indiquer que cette ère va bientôt se terminer. La décision du département du Commerce des États-Unis de restreindre l’accès aux modèles Fable et Mythos d’Anthropic aux ressortissants américains n’était qu’un premier signe. Cependant, cette restriction a été levée plus tard après une coordination avec Anthropic, montrant à quel point les conditions d’accès peuvent changer rapidement et la nécessité de systèmes d’intelligence artificielle d’entreprise adaptables.

Les quatre raisons pour lesquelles l’accès aux modèles de pointe n’est pas garanti

La mentalité de construction pour les modèles de pointe uniquement pourrait cesser d’être la bonne si leur disponibilité cesse d’être garantie. Il y a au moins quatre raisons pour lesquelles cela pourrait se produire. Premièrement, l’économie de l’intelligence artificielle de pointe est basée sur des prix subventionnés qui ne dureront pas. Les préparatifs récents d’OpenAI et d’Anthropic pour leur introduction en bourse les ont obligés à ouvrir les livres et à révéler clairement le coût réel des services d’intelligence artificielle actuellement sponsorisés, qui peut ne pas être viable économiquement après l’introduction en bourse. Les rumeurs sont que l’abonnement privé de 200 $ offert par Anthropic coûte en réalité plusieurs milliers de dollars à l’entreprise. Par conséquent, les prix des jetons devraient continuer à augmenter, et l’ère de l’accès aux modèles de pointe artificiellement bon marché va se terminer.

Deuxièmement, les modèles de pointe ne deviennent pas moins chers à exécuter. Contrairement à l’informatique classique, où la loi de Moore a constamment réduit le coût de toute opération donnée au fil du temps, l’intelligence artificielle ne semble pas suivre cette courbe. Les modèles deviennent plus grands mais également plus gourmands en calcul. Tous nos ingénieurs ont épuisé leurs crédits Claude dans les 10 minutes suivant la sortie temporaire de Fable 5. Cela pourrait laisser penser que les prochains modèles de pointe nécessiteront plus de jetons, plus de calcul et plus d’infrastructure à chaque itération.

Troisièmement, il semble que de moins en moins de joueurs sont réellement restés dans la course pour les véritables modèles de pointe. Mistral, qui était l’espoir de l’Europe pour concurrencer les modèles de pointe sur la scène mondiale, a révisé ses ambitions pour devenir un modeste suiveur. Les modèles chinois sont des suiveurs rapides mais continuent de laguer derrière les meilleures sorties des laboratoires de pointe.

Enfin, les modèles de pointe pourraient simplement être trop dangereux pour être utilisés dans chaque application. Nous n’utilisons pas de réacteurs nucléaires miniaturisés dans les voitures, en partie parce que ce domaine est fortement réglementé et qu’il est dangereux. Les expériences d’Anthropic montrent qu’il est très difficile de garder un modèle de pointe sous contrôle pour s’assurer qu’il reste inoffensif tout en préservant ses capacités. Cela pourrait être une leçon à long terme et une raison sous-jacente à la réglementation américaine de Fable 5. Dans tous les cas, il est très probable que les modèles de pointe seront traités comme des actifs stratégiques par les États et qu’ils ne seront donc pas aussi librement disponibles qu’ils le sont actuellement.

Par conséquent, nous pourrions entrer dans un monde où les coûts des jetons comptent et où les modèles de pointe ne sont pas disponibles pour toutes les applications dans tous les pays.

Entre en scène la couche d’application

Dans un monde où chaque appel de modèle ne va pas au meilleur modèle disponible, comment pouvons-nous encore garantir que chaque tâche est résolue de manière fiable et avec le meilleur niveau de performance possible ? La réponse peut se trouver dans la soi-disant « couche d’application ».

Le PDG de NVIDIA, Jensen Huang, a décrit l’intelligence artificielle comme un gâteau à 5 couches: énergie, puces, centres de données, modèles et applications. Il soutient que la couche d’application est à la fois la plus importante et celle qui manque encore largement.

Pour certaines applications, telles que les chatbots, cette couche est extrêmement fine – essentiellement juste une interface de chat. Dans d’autres, telles que les applications industrielles et d’ingénierie avancées, elle est beaucoup plus importante et critique. C’est la couche déterminante de la chaîne de valeur. Lorsque l’accès à un modèle de pointe spécifique ne sera plus garanti, le rôle de la couche d’application sera d’uniformiser les résultats à travers les modèles et de contrôler les coûts des jetons.

Concrètement, si je veux effectuer une tâche complexe et critique, comme la refonte de ma chaîne de fabrication pour un nouveau modèle d’avion, je vais demander à un modèle de pointe puissant de m’aider. Le modèle pourrait être capable de déterminer comment le faire seul, de construire un outil de planification pour moi et de communiquer le résultat à toutes mes équipes. Cependant, si je passe à un modèle plus capable, moins coûteux ou d’un fournisseur différent, je pourrais perdre des performances ou perdre la cohérence dans ma sortie finale. Dans de nombreux cas pratiques dans les configurations d’entreprise, cette imprévisibilité n’est pas acceptable. C’est là que le rôle de la couche d’application est critique : au lieu de laisser le modèle opérer dans un espace ouvert et de compter sur ses capacités brutes pour produire le résultat, la couche d’application définit un canevas clair, un ensemble d’actions disponibles contraint et un périmètre défini dans lequel il peut opérer. Le modèle n’est plus invité à tout déterminer à partir de zéro, il est donné un canevas bien défini qui améliorera considérablement la probabilité que tout modèle se comporte bien.

En termes de coûts, mon modèle pourrait également décider d’effectuer des actions de bas niveau pour atteindre son objectif. Il pourrait réécrire un algorithme de planification à partir de zéro, construire une nouvelle interface pour me permettre de visualiser son travail ou même développer un nouvel outil d’optimisation. Mais cela pourrait être incroyablement coûteux en jetons, alors que de bonnes directives ou des outils préconstruits pourraient aider le modèle à atteindre le même résultat avec moins de jetons. C’est le rôle de la couche d’application. La bonne nouvelle est que les modèles ont tendance à être paresseux et à chercher des chemins plus courts, nous n’aurons donc peut-être pas besoin de les contraindre trop une fois qu’il aura accès à l’ensemble approprié de compétences, d’outils et de ressources de calcul.

En résumé, une bonne couche d’application fournira des compétences, des outils et des directives claires pour que le modèle opère de manière fiable et rentable. En plus d’améliorer les performances et de contrôler les coûts des jetons, cela signifie également que la dépendance à l’égard d’un modèle spécifique diminue. Si vous intégrez votre intelligence dans la couche d’application plutôt que dans le modèle lui-même, le modèle sous-jacent devient interchangeable. Dans de nombreux cas, cela pourrait faire la différence entre une intelligence artificielle expérimentale et une intelligence artificielle d’entreprise évolutives.

Appel à l’action pour les dirigeants d’entreprise

À travers les industries, nous rencontrons quotidiennement des dirigeants d’entreprise qui travaillent à établir leur pile d’intelligence artificielle. La plupart des entreprises commencent avec un ou plusieurs fournisseurs de modèles de pointe pour établir leur couche de modèle nécessaire dans leur pile. Pour la couche d’application, ils s’appuient soit sur des outils construits en interne, soit sur des capacités entièrement achetées, soit sur un mélange des deux.

L’interdiction d’Anthropic a été un rappel que cette pile peut être perturbée du jour au lendemain. Les architectures des entreprises doivent être prêtes pour lorsqu’il se produira à nouveau. Pour être prêt, les entreprises doivent considérer la rapidité de déploiement, mais également construire des solutions qui atténueront les effets des changements de modèle ainsi que les coûts des jetons croissants. Ce n’est pas un chemin facile, mais mon conseil serait :

  • Investissez dans votre application de manière stratégique et précoce. Les entreprises qui manquent le train auront toujours un écart par rapport aux premiers adoptants
  • Faites de l’agnosticisme du modèle un principe de conception, et non un contournement
  • Le coût du passage d’un modèle à un autre ne devrait pas être une question existentielle pour vos opérations
  • Partenarez avec des entreprises spécialisées qui peuvent benchmarker les modèles, valider les performances sur plusieurs configurations et aider à garantir des garanties de performance à long terme.

Les entreprises qui gagneront la partie dans la prochaine phase de l’intelligence artificielle d’entreprise ne sont pas nécessairement celles qui ont accès aux meilleurs modèles, mais celles qui auront construit la bonne couche autour d’eux. Les entreprises qui peuvent benchmarker les modèles, valider les performances sur plusieurs configurations et aider à garantir des garanties de performance à long terme seront celles qui gagneront.

Pierre est le directeur général de Neural Concept, qu'il a co-fondé en 2018. Pierre a obtenu un diplôme d'ingénieur en mathématiques appliquées et un master en recherche opérationnelle de l'Ecole Polytechnique en France. Après avoir travaillé comme ingénieur en optimisation et en apprentissage automatique pour Credit-Suisse à Londres, il a rejoint le laboratoire de vision par ordinateur à l'EPFL, où il a obtenu son doctorat sous la supervision du professeur Pascual Fua et du professeur Francois Fleuret. Ses recherches se sont concentrées sur l'apprentissage structuré profond et l'inférence variationnelle appliqués à la vision par ordinateur. Pendant et après sa thèse, Pierre a travaillé comme consultant en apprentissage automatique et en optimisation pour plusieurs entreprises telles que Thales, EFCables, Sonalytic (Spotify) et Honywell.