Intelligence artificielle

« Tokenmaxxing » révèle les défis de coûts de l’IA

mm
Closeup of stacks of gold tokens.

L’adoption de l’intelligence artificielle (IA) générative s’est étendue à mesure que les organisations intègrent l’IA dans leurs opérations. À mesure que son utilisation augmente, la quantité de puissance de calcul requise pour la soutenir augmente également, ce qui met l’accent sur les jetons que les modèles consomment pour traiter et générer des informations. Chaque invite, chaque réponse et chaque workflow automatisé repose sur eux, ce qui rend la consommation de jetons cruciale pour déterminer le coût du déploiement de l’IA.

Cela a contribué à l’émergence du tokenmaxxing, la pratique consistant à maximiser la valeur extraite des modèles d’IA grâce à des invites plus importantes et à des conversations plus longues. Même si cette application démontre les capacités et l’utilité croissantes des systèmes d’IA modernes, elle met également en évidence les coûts croissants associés à une consommation de jetons plus élevée.

Qu’est-ce que le tokenmaxxing ?

Le tokenmaxxing implique l’utilisation d’invites plus importantes et l’assignation de tâches complexes aux systèmes d’IA. Plutôt que de limiter l’IA à des questions simples ou à des demandes courtes, les utilisateurs fournissent des contextes étendus et s’appuient sur les modèles pour effectuer des flux de travail multisteps en une seule interaction. La tendance a gagné en importance à mesure que les fournisseurs d’IA introduisent des fenêtres de contexte plus grandes qui permettent aux modèles de traiter plus d’informations à la fois.

Les modèles plus capables ont également élargi la gamme de tâches que l’IA peut effectuer. Cela encourage les utilisateurs et les organisations à consolider la recherche, l’analyse et les activités de soutien à la décision en moins de demandes, mais plus exigeantes. En conséquence, le tokenmaxxing est devenu une réponse naturelle aux capacités croissantes des systèmes d’IA modernes.

Comment fonctionnent les jetons d’IA ?

Les jetons d’IA sont les unités de base de texte que les modèles de langage utilisent pour traiter et générer des informations. Au lieu de lire le texte comme des mots complets, les modèles d’IA décomposent le contenu en morceaux plus petits qui peuvent inclure des mots entiers, des parties de mots ou des caractères individuels. Les interactions avec l’IA impliquent deux types principaux de jetons : les jetons d’entrée et les jetons de sortie. Les jetons d’entrée comprennent les invites et le contexte de soutien, tandis que les jetons de sortie représentent le texte généré en réponse.

La plupart des fournisseurs d’IA utilisent un tarif basé sur les jetons, ce qui signifie que les clients sont facturés en fonction du nombre de jetons d’entrée et de sortie consommés. Les coûts augmentent à mesure que les invites deviennent plus longues, que les réponses deviennent plus détaillées ou que les applications gèrent des volumes plus importants de demandes. La consommation de jetons affecte de nombreuses applications d’IA, notamment les chatbots de service client et les outils de recherche d’IA, ce qui rend l’utilisation des jetons importante pour le coût global du déploiement.

Pourquoi les coûts de jetons croissants deviennent-ils un problème ?

À mesure que les organisations élargissent leur utilisation de l’IA générative, la consommation de jetons augmente plus rapidement que prévu. Ce qui commence comme une dépense d’exploitation gérable peut rapidement devenir un défi de coût important à mesure que les charges de travail d’IA s’étendent à travers les équipes et les processus métier.

La demande croissante de puissance de calcul d’IA

L’expansion de l’adoption de l’IA entraîne une augmentation marquée des coûts d’inférence à mesure que davantage d’individus et d’organisations s’appuient sur les outils d’IA tout au long de la journée. En fait, 26 % des Américains déclarent interagir avec eux plusieurs fois par jour, que ce soit par l’intermédiaire d’assistants virtuels ou de moteurs de recommandation. À mesure que l’utilisation augmente, les fournisseurs d’IA doivent traiter plus de demandes, ce qui entraîne des demandes de calcul plus élevées et une consommation de jetons plus importante.

Dans le même temps, les fenêtres de contexte plus grandes et les capacités multimodales augmentent la quantité d’informations que les modèles doivent traiter lors de chaque interaction. Les utilisateurs peuvent maintenant télécharger des documents longs et des images tout en attendant des réponses détaillées et sensibles au contexte.

Les agents d’IA amplifient ces coûts en effectuant plusieurs appels de modèle, en récupérant des informations et en effectuant des processus de raisonnement multisteps en arrière-plan. Ce qui apparaît comme une seule demande utilisateur peut en réalité impliquer de nombreuses interactions d’IA, ce qui augmente l’utilisation des jetons et les dépenses d’exploitation.

Les défis commerciaux créés par la tarification basée sur les jetons

La prévision des dépenses d’IA reste un défi car la consommation de jetons peut fluctuer considérablement à mesure que les modèles d’utilisation changent. Un projet qui apparaît comme rentable pendant les tests peut générer des dépenses nettement plus élevées une fois déployé à l’échelle de l’organisation. La demande saisonnière et l’expansion des charges de travail d’IA peuvent rendre difficile la prévision des dépenses mensuelles.

De nombreuses entreprises sont également confrontées au paradoxe selon lequel les déploiements d’IA réussis entraînent des dépenses d’exploitation plus élevées. À mesure que les entreprises ont recours à des agents d’IA pour améliorer la productivité et automatiser davantage de tâches, les coûts globaux peuvent augmenter rapidement même si le prix de chaque jeton diminue. Les agents d’IA effectuent plusieurs actions en arrière-plan, ce qui fait que l’utilisation des jetons augmente rapidement à mesure que l’adoption augmente.

Ces tendances ont suscité des inquiétudes quant à la rentabilité et à la gouvernance d’IA à l’échelle de l’entreprise. Les entreprises doivent déterminer comment allouer les coûts aux différents départements et garantir que les investissements dans l’IA génèrent une valeur mesurable. Dans le même temps, elles sont confrontées au défi permanent de concilier les performances du modèle avec l’efficacité coût, dans la mesure où les modèles les plus capables sont ceux qui ont les coûts d’exploitation les plus élevés.

Comment les entreprises réduisent les dépenses de jetons d’IA

L’augmentation des coûts de jetons a incité les entreprises à rechercher des moyens de maximiser la valeur de leurs investissements dans l’IA sans sacrifier les performances. À mesure que l’adoption de l’IA s’étend, elles mettent en œuvre une gamme de stratégies pour contrôler la consommation de jetons et maintenir des coûts d’exploitation prévisibles.

Stratégies d’optimisation pour les utilisateurs d’IA

Les entreprises réduisent la consommation de jetons grâce à des techniques d’ingénierie d’invite qui éliminent le texte inutile et améliorent l’efficacité. Des invites claires et ciblées, ainsi que des modèles standardisés, peuvent générer de meilleurs résultats tout en utilisant moins de jetons. De nombreuses entreprises utilisent également l’acheminement de modèle, où des modèles plus petits et moins coûteux gèrent les tâches routinières et que les modèles avancés sont réservés pour les travaux complexes qui nécessitent des capacités de raisonnement plus importantes.

La génération augmentée de récupération est une autre stratégie populaire car elle ne récupère que les informations les plus pertinentes au lieu d’envoyer de plus grandes quantités de contexte avec chaque demande. Cette approche réduit l’utilisation des jetons tout en maintenant la précision. Pour contrôler davantage les coûts, les organisations mettent en œuvre des outils de surveillance et des cadres de gouvernance d’IA qui fournissent une visibilité sur les modèles de consommation et soutiennent l’adoption responsable de l’IA.

Compromis réels entre coût et performance

Les entreprises choisissent des modèles d’IA moins coûteux pour les tâches routinières telles que la synthèse, la classification et l’extraction de données, où les capacités de raisonnement premium peuvent apporter une valeur ajoutée limitée. Les considérations de coût peuvent également influencer les décisions stratégiques plus larges.

Par exemple, Microsoft a apparemment mis fin aux licences de Claude Code car il ne souhaite plus louer l’intelligence d’un concurrent. Au lieu de cela, il dirige les développeurs vers un modèle de codage maison conçu pour Copilot. Des décisions comme celles-ci reflètent un effort croissant pour réduire les dépenses d’IA tout en maintenant le contrôle sur les investissements technologiques.

Cependant, une réduction excessive des coûts peut introduire de nouveaux défis. Les modèles moins coûteux peuvent produire des résultats moins précis ou nécessiter une surveillance humaine supplémentaire, ce qui réduit certains des économies anticipées. Les entreprises doivent évaluer des facteurs tels que la complexité des tâches et l’impact commercial lors de la sélection des modèles d’IA. L’objectif est de concilier l’efficacité et les performances, en veillant à ce que les réductions de coût n’aient pas lieu au détriment de la qualité ou de l’expérience utilisateur.

Comment les entreprises d’IA réagissent

Les fournisseurs d’IA offrent des options de modèles étagés et des structures de tarification flexibles pour répondre à différents modèles d’utilisation et budgets. Les entreprises peuvent choisir parmi une gamme de modèles présentant différents niveaux de performances et de coûts, ce qui leur permet de faire correspondre les capacités d’IA à des charges de travail spécifiques.

Par exemple, OpenAI propose des plans d’abonnement pour les utilisateurs qui souhaitent un accès prévisible et des dépenses mensuelles plus stables. Il propose également un tarification basé sur les jetons pour les clients ayant des charges de travail plus lourdes ou moins prévisibles.

Au-delà de la facturation traditionnelle basée sur l’utilisation, certains fournisseurs expérimentent des modèles de tarification basés sur les abonnements et les tâches, qui rendent les coûts plus faciles à prévoir. Dans le même temps, les modèles open source et les déploiements auto-hébergés gagnent en popularité en tant qu’alternatives à la facturation basée sur les jetons. Ces options peuvent donner aux entreprises un contrôle plus grand sur les dépenses d’exploitation et les infrastructures, même si elles nécessitent des compétences techniques et des ressources de calcul supplémentaires pour être gérées efficacement.

Équilibrer les performances et les dépenses d’IA

À mesure que l’adoption de l’IA s’étend, la consommation croissante de jetons crée de nouveaux défis de coût pour les entreprises et les fournisseurs d’IA. Les entreprises réagissent avec des stratégies telles que l’optimisation des invites, l’acheminement de modèle et des pratiques de gouvernance plus solides pour contrôler les dépenses de tokenmaxxing tout en maintenant les performances. En conséquence, la compréhension de l’économie des jetons devient une partie essentielle du succès de la mise à l’échelle et de la gestion des technologies d’IA.

Zac Amos est un écrivain technique qui se concentre sur l'intelligence artificielle. Il est également le rédacteur en chef des fonctionnalités chez ReHack, où vous pouvez lire davantage de ses travaux.