Mesurer le ROI d'un projet IA sans se raconter d'histoires

Depuis dix-huit mois, je ne compte plus les business cases IA que l'on me demande de commenter. Une page de calcul, un ROI affiché entre 400 et 2 000 %, un « on rentabilise en six mois », et en général un enthousiasme qui interdit la seule question désagréable : sur quoi repose précisément ce chiffre ? Dans la majorité des cas que j'ouvre, le calcul est au mieux fragile, au pire construit sur trois pièges classiques que personne ne documente, parce qu'ils remettent en cause une décision déjà prise.

Ce n'est pas une critique gratuite. Je pense que l'IA produit de la valeur réelle, parfois spectaculaire. Mais cette valeur se joue à un niveau beaucoup plus bas que ce que le marketing affiche, et elle se gagne uniquement si l'on accepte de regarder le coût complet et pas seulement le prix de la licence ou le coût du prototype. Pour un dirigeant qui doit arbitrer, le défi n'est pas de savoir si l'IA marche. Il est de savoir combien elle coûte vraiment, combien elle rapporte vraiment, et dans quel délai. Cet article propose une méthode pour chiffrer honnêtement un projet IA : repérer les pièges de chiffrage, lister les postes de coût oubliés, définir ce que la valeur veut dire concrètement, et poser un business case défendable devant un comité d'audit.

Les trois pièges classiques du chiffrage marketing

Avant de parler méthode, il faut démonter ce qui ne marche pas. Dans la dizaine de business cases IA que j'ai examinés en détail sur les derniers mois, les mêmes trois biais reviennent systématiquement. Les reconnaître, c'est déjà éviter quatre-vingts pour cent des erreurs de chiffrage.

Piège 1 — La baseline fantôme. Le calcul affiche un gain, mais jamais la situation de référence qu'on compare. « L'IA permet de traiter 300 dossiers par jour contre 100 auparavant. » D'accord, mais ces 100 dossiers, ils étaient vraiment traités ? Dans quel délai ? À quel niveau de qualité ? Par qui ? Très souvent, la baseline retenue est une estimation optimiste de la situation actuelle, qui gonfle mécaniquement le gain. Les travaux du MIT Sloan Management Review sur l'écart entre adoption et impact économique de l'IA^[1] soulignent que la quasi-totalité des ROI annoncés s'appuient sur des comparaisons non instrumentées. Un gain chiffré sans mesure préalable de la baseline n'est pas un gain, c'est une hypothèse.

Piège 2 — La projection linéaire. On mesure un effet ponctuel, sur un périmètre limité, sur quelques semaines, et on multiplie. Si l'IA fait gagner deux heures par semaine à cinq utilisateurs sur le pilote, elle fera gagner deux heures par semaine à cinq cents utilisateurs en généralisation. Cette règle de trois est presque toujours fausse. Les effets d'échelle introduisent des coûts nouveaux (formation, support, gouvernance), des frictions (résistance, reparamétrage métier) et une hétérogénéité des usages que le pilote masquait. L'étude McKinsey sur le potentiel économique de l'IA générative^[2] estime que la dispersion des gains entre utilisateurs est d'un facteur cinq à dix. Moyenner à partir d'un pilote favorable, c'est projeter une valeur qui n'existe que sur ce pilote.

Piège 3 — L'anecdote de pilote érigée en preuve. « Un de nos chefs de projet a produit en deux heures ce qui lui prenait une journée. » Superbe. Cette anecdote est réelle et utile pour motiver un déploiement. Elle ne constitue pas une mesure. Les effets d'IA dans les organisations se mesurent sur des cohortes comparables, sur des périodes assez longues pour absorber les variations naturelles d'activité, avec des métriques définies avant et pas après le pilote. Une étude de Harvard Business Review sur le chiffrage des projets IA^[3] documente précisément cet écart entre cas individuel spectaculaire et effet agrégé mesurable. Confondre les deux, c'est garantir une déception au déploiement.

Ces trois pièges se reconnaissent à un signe : le business case tient sur une page et donne un chiffre unique. Un chiffrage sérieux prend plusieurs pages, assume des fourchettes, et distingue ce qui est mesuré, ce qui est estimé, et ce qui est projeté.

Le coût complet : les postes qu'on oublie systématiquement

Un projet IA ne se résume pas au prix du modèle ni à celui de la licence. Les postes de coût oubliés font souvent basculer un ROI brillant en ROI fragile. Voici l'inventaire complet, dans l'ordre dans lequel ils apparaissent sur un cycle de trois ans.

La préparation des données. C'est le poste le plus systématiquement sous-estimé. Pour un modèle prédictif, il représente généralement entre quarante et soixante pour cent du coût d'entraînement initial : collecte, nettoyage, réconciliation entre sources, étiquetage éventuel, documentation. Pour une solution d'IA générative connectée à un corpus interne, c'est l'indexation, la qualification des documents, la gestion des droits d'accès. J'avais déjà souligné dans data et IA : pourquoi les fondations comptent plus que les modèles que sans ce travail préalable, le modèle le plus puissant produit des résultats médiocres ou dangereux. Ce coût est inévitable, et il est souvent masqué dans un « travail interne » qu'on ne valorise pas. La feuille de route IA pour les PME propose un cadre pour anticiper et budgéter ces postes dès la phase de cadrage.

L'infrastructure. Selon le modèle retenu, l'infrastructure peut peser de façon très différente. Un modèle prédictif classique tourne sur quelques serveurs à quelques milliers d'euros par an. Une solution d'IA générative via API externe se facture à la consommation, et la facture peut exploser si l'usage décolle. Une solution d'IA souveraine hébergée en interne cumule matériel GPU, énergie, maintenance et sauvegarde. Le rapport Stanford AI Index^[4] documente une croissance continue du coût d'infrastructure pour les modèles de grande taille, malgré la baisse unitaire du coût par requête. Le calcul doit assumer cette tension.

Les licences logicielles et les API tierces. Prix annoncés souvent en euros par utilisateur et par mois, avec une tendance structurelle à la hausse, et des paliers de consommation au-delà desquels la facture bondit. Ajouter une marge de vingt à trente pour cent sur les tarifs affichés pour les trois ans à venir est une prudence raisonnable.

Le retraining et le monitoring. Un modèle en production dérive. Ses performances baissent silencieusement parce que la réalité qu'il modélise change : saisonnalité, nouveaux comportements, évolution du contexte métier. Il faut mesurer cette dérive, décider des seuils de ré-entraînement, tenir une discipline de surveillance. Le BCG Henderson Institute estime^[5] qu'un modèle prédictif bien piloté consomme entre quinze et trente pour cent de son coût initial chaque année en maintenance de performance. Les projets IA qui n'ont pas prévu ce poste voient leurs gains s'éroder sans comprendre pourquoi. C'est précisément ce qu'adresse l'article sur le MLOps appliqué au pilotage : mettre en place une discipline de surveillance des modèles en production.

La gouvernance et la conformité. Non pas au sens administratif, mais au sens où il faut du temps humain pour cadrer les usages, suivre les incidents, arbitrer les cas limites, tenir la documentation exigée par les audits internes ou par le règlement européen sur l'IA. Sur des usages sensibles, ce poste peut atteindre dix à quinze pour cent du coût total sur trois ans.

Le change management. Formation, accompagnement, redéfinition des processus métier, révision des fiches de poste, communication interne. Ce n'est pas du folklore RH : c'est la condition pour que le gain théorique devienne un gain mesurable. Sous-estimer ce poste, c'est garantir qu'une partie des utilisateurs n'utilisera jamais vraiment l'outil, et le ROI s'écroule d'autant.

La valeur mesurée, pas la valeur annoncée

Face à ces coûts, comment évaluer proprement la valeur ? Quatre leviers principaux, qu'il faut traiter séparément pour éviter les doubles-comptes.

Le gain de temps chargé. Le plus courant, le plus surévalué aussi. La règle saine : mesurer le temps total passé sur le livrable final, de bout en bout, avant et après l'IA. Inclure la rédaction initiale, les reprises, la supervision humaine, la validation. Multiplier le delta par le coût horaire chargé, incluant charges patronales et coûts de structure, pas par le seul salaire net. Sur des tâches de production textuelle, les gains nets réels observés se situent généralement entre quinze et trente-cinq pour cent, bien en dessous des chiffres marketing. Les cadres d'analyse que j'ai développés à propos des agents IA en pilotage détaillent comment distinguer gain brut et gain net.

Les erreurs évitées. Plus difficile à chiffrer, mais souvent plus impactant. Quand un modèle prédictif détecte une anomalie comptable qu'un humain aurait manquée, ou qu'un copilote attire l'attention sur un risque contractuel qui serait passé inaperçu, la valeur est réelle. Le bon chiffrage repose sur une probabilité d'occurrence estimée (sur historique ou sur benchmark) multipliée par le coût moyen de l'erreur. Il faut assumer la largeur des fourchettes : une erreur évitée se prouve mal. Mieux vaut un calcul prudent, défendable, qu'une prouesse non vérifiable.

La décision accélérée. Quand une information arrive plus vite, elle peut soit permettre une meilleure décision, soit éviter une perte liée à un retard. Valoriser ce levier demande de raisonner en coût d'opportunité : que se passe-t-il en gardant le rythme actuel ? Ce raisonnement contrefactuel est délicat, mais il est indispensable. Une décision accélérée a une valeur quantifiable, à condition de documenter précisément ce qu'on comparait. C'est précisément l'instrumentation que je conduis dans un diagnostic pilotage, avant de poser le moindre chiffrage de ROI.

L'élargissement du périmètre traité. Parfois l'IA ne remplace pas une tâche : elle permet d'en faire une nouvelle qu'on ne faisait pas. Analyser cent mille avis clients au lieu de mille, réécrire en langage clair des mille notifications auparavant envoyées en langage administratif, traiter des demandes entrantes en dehors des horaires d'ouverture. La valeur n'est pas un gain de temps : c'est un gain de couverture. Il se chiffre en valeur métier supplémentaire créée, en nouveau chiffre d'affaires capté, ou en réduction du coût d'externalisation précédent.

Ce qu'il ne faut pas compter : les gains annoncés mais non vérifiables, les effets d'image, la satisfaction utilisateur non corrélée à un indicateur métier, et tous les gains pilote non reproduits en production. Un business case sérieux assume une partie « valeur hypothétique non intégrée au ROI » : c'est elle qui distinguera un bon projet d'un projet exceptionnel si elle se matérialise, mais elle ne doit pas porter la décision initiale.

Cadrer un business case IA qui tient

Un business case défendable tient sur trois à cinq pages, pas une. Il comporte cinq blocs que l'on construit dans cet ordre précis, en commençant par le cadrage du problème, et non par le choix de l'outil, comme je le rappelais dans IA et pilotage : cadre, limites, cas d'usage.

Bloc 1 — Le cadrage. Quel problème métier résout-on, avec quelle sortie attendue, pour quelle population d'utilisateurs, dans quel horizon. Il faut avoir tranché avant ce bloc la question IA générative ou IA prédictive, parce qu'elle conditionne toute la suite du chiffrage. Un cadrage flou garantit un ROI flou.

Bloc 2 — La baseline instrumentée. Mesurer la situation actuelle, pas l'estimer. Combien de temps passé, combien d'erreurs, quel délai, quel volume traité. Cette mesure prend généralement deux à quatre semaines. Elle est la fondation du calcul, et son absence est le premier signe d'un chiffrage fragile.

Bloc 3 — Trois scénarios, pas un. Pessimiste, central, optimiste. Chaque scénario précise ses hypothèses (taux d'adoption, ampleur du gain par utilisateur, durée de montée en charge, dérive du modèle) et leur provenance (benchmark, pilote, estimation experte). La dispersion entre scénarios doit être franche : si les trois scénarios donnent des ROI très proches, c'est que l'analyse d'incertitude est incomplète.

Bloc 4 — Le coût complet sur trois ans. Un tableau, poste par poste, avec distinction claire entre investissement initial et run annuel. Le coût complet intègre les six postes détaillés plus haut. Les projets IA sérieux montrent un coût de run qui représente entre quarante et soixante pour cent du coût cumulé sur trois ans. Un chiffrage où le run est marginal est suspect.

Bloc 5 — La revue post-déploiement programmée. Le business case doit prévoir, dès sa validation, une revue à douze mois avec trois décisions possibles : continuer, pivoter, arrêter. Cette programmation protège contre le biais de sunk cost qui maintient des projets au-delà de leur utilité. L'OCDE insiste sur ce mécanisme de revue dans ses travaux sur la gouvernance des systèmes d'IA^[6] : sans point de sortie, il n'y a pas de discipline.

Suivre le ROI dans la durée, sans se bercer d'illusions

Un business case validé n'est pas un ROI démontré. Le travail réel commence au déploiement, et il dure aussi longtemps que le système reste en production. Trois disciplines de pilotage distinguent les projets qui tiennent de ceux qui dérivent.

Métriques opérationnelles à fréquence courte. Temps de réponse, taux d'adoption effective (pas déclarée), taux de reprise humaine sur les sorties du système, taux de satisfaction des utilisateurs finaux. Ces indicateurs se suivent en rythme hebdomadaire ou mensuel. Leur dégradation précède presque toujours une érosion de la valeur métier, avec plusieurs semaines d'avance sur les métriques financières.

Métriques financières consolidées à fréquence longue. Gain chiffré mesuré, coût run réel, écart au business case initial. À rythme trimestriel, puis semestriel une fois le régime atteint. Un écart sur une trimestre n'est pas significatif ; un écart soutenu sur deux trimestres l'est. L'Institut français des auditeurs et contrôleurs internes recommande^[7] de tenir un registre des écarts, documenté et archivé, pour toute solution IA en production. Cette discipline prépare les audits et, accessoirement, discipline la tentation de réécrire l'histoire du projet après coup.

Kill switch explicite. Un seuil, convenu au démarrage, en dessous duquel le projet est soit relancé en pilote correctif, soit arrêté. Sans ce seuil, tous les projets IA survivent, parce que personne ne veut porter la décision d'arrêt. Fixer le seuil en amont, c'est dépersonnaliser la décision et la rendre exécutable.

Un ROI IA honnête ne se démontre pas au lancement. Il se construit avec une baseline mesurée, un coût complet assumé, une valeur mesurée et non annoncée, et un pilotage régulier. Cette discipline rapporte : les organisations qui la tiennent sortent avec des projets qui durent et financent les suivants.

Questions fréquentes

À partir de quel seuil un projet IA devient-il vraiment rentable ?

Il n'y a pas de seuil universel, mais une règle de bon sens : si le gain net (valeur mesurée moins coût complet) ne dépasse pas le coût de l'intégration fonctionnelle dans les deux premières années, le projet n'a pas de marge de sécurité. Un ROI crédible sur un projet IA d'organisation se situe le plus souvent entre 15 et 40 % de gain net sur trois ans, avec une forte variance. Au-delà de 80 %, méfiance : soit le calcul ignore des coûts, soit la baseline est sous-estimée.

Peut-on chiffrer le ROI d'un projet IA avant même d'avoir fait un pilote ?

Oui, mais uniquement en fourchette large, avec deux ou trois scénarios, et surtout avec un engagement de révision après pilote. Un chiffrage pré-pilote sert à décider s'il vaut la peine de lancer le pilote, pas à engager un budget de déploiement. Les fourchettes doivent assumer leur largeur. Un ROI annoncé en valeur unique avant pilote est presque toujours un chiffre d'intention, pas un chiffre de décision. L'erreur consiste à sauter l'étape de validation terrain.

Comment distinguer gain de temps réel et gain de temps déclaré ?

Le gain de temps déclaré est ce que l'utilisateur estime subjectivement : très souvent surévalué, car il porte sur la tâche où l'IA intervient, pas sur la tâche entière. Le gain de temps réel se mesure en observant le temps total passé sur le livrable final, avant et après l'IA, en incluant les allers-retours, les corrections, la supervision et la validation humaine. Pour objectiver, on compare deux groupes comparables sur six à huit semaines, et on rapporte le delta au coût horaire chargé. Le gain réel vaut généralement entre 40 et 70 % du gain déclaré.

Le coût de retraining et de monitoring d'un modèle IA, combien ça pèse en moyenne ?

Sur un modèle prédictif en production, il faut compter entre 15 et 30 % du coût initial d'entraînement par an, pour couvrir la surveillance de la dérive, les re-entraînements périodiques et les mises à jour de pipeline. Pour une solution d'IA générative avec base documentaire, le coût récurrent porte surtout sur l'indexation, la mise à jour du corpus et la supervision qualité. Ignorer ce poste dans le ROI est la deuxième cause d'erreur de chiffrage après la baseline fantôme. Un projet IA sans enveloppe de run n'est pas un projet financé.

Que faire quand le ROI prévu d'un projet IA ne se matérialise pas ?

Trois étapes, dans cet ordre. Un, documenter précisément l'écart : ce qui est plus cher que prévu, ce qui a moins de valeur que prévu, ce qui n'a simplement pas été mesuré. Deux, faire la part entre erreur de chiffrage initial, erreur d'exécution et changement de contexte externe, chacun de ces cas appelant une réponse différente. Trois, décider entre ajustement (révision du périmètre ou du modèle), pivot (nouveau cas d'usage sur les mêmes fondations) ou arrêt. L'arrêt n'est pas un échec : c'est la marque d'une gouvernance saine.

Sources

MIT Sloan Management Review & BCG, The GenAI Divide — State of AI in Business, 2024. Étude sur l'écart persistant entre adoption déclarée de l'IA et impact économique mesurable dans les organisations.
McKinsey & Company, The Economic Potential of Generative AI — The Next Productivity Frontier, 2023-2024. Estimation de la valeur économique potentielle par fonction et cas d'usage, avec analyse de la dispersion réelle des gains.
Harvard Business Review, How to Calculate the Return on AI Investments, 2024. Cadre méthodologique pour distinguer chiffrage anecdotique et mesure agrégée dans les projets IA d'entreprise.
Stanford Institute for Human-Centered AI, AI Index Report 2024. Cartographie globale des coûts d'infrastructure et de la tendance continue à la hausse malgré la baisse du coût unitaire des requêtes.
BCG Henderson Institute, The AI Cost Curve — Building and Running Models Over Time, 2024. Référence sur la part du coût de run (monitoring, retraining, dérive) dans le coût total d'un modèle sur trois ans.
OCDE, Recommendation of the Council on Artificial Intelligence, 2019 (révision 2024). Cadre international de gouvernance des systèmes d'IA, incluant la discipline de revue périodique et de critère d'arrêt.
IFACI (Institut français de l'audit et du contrôle internes), Audit des dispositifs d'intelligence artificielle, cahier technique 2024. Bonnes pratiques de tenue de registre d'écarts et de contrôle interne des solutions IA en production.

Brice Béchet

Consultant en pilotage des organisations

Contrôleur de gestion sénior, data scientist et créateur d'effectivo.fr, application de prévision stratégique des effectifs (Anticipez. Simulez. Décidez) — j'accompagne les organisations à structurer leurs données et optimiser leur pilotage.

En savoir plus LinkedIn

Envie de chiffrer honnêtement votre prochain projet IA ?

Un diagnostic pilotage de deux à trois semaines permet d'instrumenter votre baseline, cadrer les postes de coût complet et poser un business case IA défendable devant un comité. Échangeons sur votre contexte.

Échanger sur mon projet

Études & Réflexions › Mesurer le ROI d'un projet IA sans se raconter d'histoires