Il y a encore quelques mois, le mot d’ordre dans les comités de direction était clair : « Déployez l’intelligence artificielle partout, pour tout le monde, et le plus vite possible ». Portées par l’enthousiasme d’une révolution technologique sans précédent, les entreprises ont distribué des licences d’assistants IA à tour de bras.
Mais cette phase d’euphorie s’est vite transformée en bombe budgétaire pour nombre d’entre elles qui n’avaient pas forcément anticipé l’explosion de la consommation de tokens par leur salariés et, surtout, le coût réel de l’IA à volonté…
Une situation suffisamment critique pour voir émerger une pratique jusque-là impensable dans le monde du SaaS moderne : le rationnement de l’IA en interne.
IA : la douche froide des notes de frais technologiques
L’adoption massive de l’IA s’est accompagnée d’un angle mort majeur : son modèle de tarification.
Contrairement aux logiciels SaaS traditionnels facturés au forfait par utilisateur (comme Microsoft 365 ou Salesforce), les grands modèles de langage (LLM) comme GPT-4 ou Claude fonctionnent sur une consommation volumétrique.
Chaque mot analysé, chaque ligne de code générée et chaque image créée se mesurent en « tokens » (les fragments de mots qui servent d’unité de calcul à l’IA).
Cette subtilité technique s’est traduite par un choc budgétaire pour les directions informatiques (DSI).
Selon une enquête du Wall Street Journal, plusieurs grandes entreprises avaient épuisé leur budget annuel dédié à l’IA dès la fin du premier trimestre quand d’autres ont vu leurs dépenses doubler, voire tripler, en quelques mois.
À titre d’exemple, un ingénieur senior facturant 500 000 dollars par an peut aujourd’hui consommer plus de 250 000 dollars de tokens par an si ses requêtes de code ou ses analyses de bases de données tournent en continu.
Lorsqu’un « agent IA » passe cinq heures d’affilée à scanner un référentiel de code complexe pour tenter de résoudre un bug, il peut engloutir à lui seul le budget mensuel de tokens d’un département informatique.
Le constat est identique pour le traitement de texte ou le support client. Des requêtes en apparence anodines, multipliées par des milliers de salariés, se transforment en factures mensuelles à six chiffres qui pèsent lourdement sur les marges opérationnelles, alors même que les gains de productivité réels peinent encore à être rigoureusement mesurés.
L’heure est au rationnement de tokens
Face à cette flambée, le vent tourne. Les départements financiers et les DSI mettent en place des garde-fous drastiques pour encadrer les usages.
La fin de l’expérimentation débridée laisse place à une gestion de crise des ressources informatiques.
Plusieurs stratégies de rationnement et d’optimisation sont désormais appliquées en entreprise :
- Les quotas individuels et par département :
À l’image des forfaits téléphoniques des années 2000, les salariés se voient de plus en plus attribuer une enveloppe mensuelle de tokens. Une fois le plafond atteint, l’accès aux modèles d’IA les plus avancés (et les plus coûteux) est bloqué ou basculé vers des modèles d’ancienne génération, beaucoup moins onéreux. - Le floutage des accès :
Tout le monde n’a pas besoin d’un modèle ultra-performant de dernière génération pour corriger l’orthographe d’un e-mail. Les entreprises rationnalisent l’aiguillage des requêtes. Les tâches basiques sont redirigées vers des petits modèles open-source hébergés en interne, tandis que l’accès aux API premium comme GPT-4o est réservé à des cas d’usage précis et à forte valeur ajoutée (recherche R&D, analyse financière complexe). - Le suivi analytique de la « FinOps » IA :
Un nouveau segment de marché émerge, calqué sur l’optimisation des coûts du Cloud. Les outils de FinOps appliqués à l’IA permettent de cartographier en temps réel qui consomme quoi, afin de traquer les employés « hyper-consommateurs » ou les scripts automatisés mal optimisés qui tournent en boucle.
Un recentrage nécessaire sur le ROI
Ce rationnement obligatoire n’indique pas pour autant la mort de l’IA en entreprise, mais plutôt son entrée dans une phase de maturité pragmatique.
L’illusion que l’IA allait magiquement remplacer les structures de coûts traditionnelles sans coûts fixes majeurs s’est dissipée. Le coût marginal de l’IA reste élevé en raison de l’infrastructure colossale (data centers haut de gamme, puces, consommation d’énergie) que les fournisseurs d’IA répercutent logiquement sur leurs clients professionnels.
Pour les entreprises, le défi des prochains mois consistera à arbitrer scientifiquement la rentabilité de chaque token dépensé.
Si une requête IA coûte 2 dollars mais fait gagner 20 minutes à un cadre supérieur, l’investissement reste évident. Si elle sert à générer des compte-rendus de réunions de dix pages que personne ne lira, elle représente un gaspillage pur et simple.
En 2026, l’enjeu n’est plus de savoir si l’entreprise utilise l’IA, mais de savoir comment elle gère son budget de calcul. La sobriété numérique a trouvé son nouveau terrain de jeu : le portefeuille de tokens…
