Pourquoi votre projet IA ne doit pas dépendre d'un seul modèle

Vous avez choisi un modèle d'IA pour votre premier projet sérieux. Le piège n'est pas dans ce choix. Il est de construire toute votre architecture autour de lui.

Une architecture qui ne dépend pas d'un seul modèle, c'est une architecture conçue pour en changer sans tout réécrire : remplacer Claude par GPT, ou par un modèle libre installé chez vous, sans remettre en cause votre application. Voici pourquoi ce choix est probablement plus important que celui du modèle lui-même.

Le marché des modèles bouge trop vite pour qu'on s'y attache

Début 2026, près de 240 modèles sont évalués sur les grands bancs d'essai du secteur, d'après le recensement d'Incremys. Six mois plus tôt, ce paysage était différent. Six mois plus tard, il le sera encore.

Ce n'est pas un détail de veille techno. C'est la donnée centrale de toute décision d'architecture IA. Le prix d'un token (l'unité à laquelle se facture un modèle) s'effondre d'année en année à capacité égale. Mais la facture, elle, grimpe. Gartner le pointe : la consommation de tokens augmente plus vite que leur prix ne baisse, parce que les modèles qui raisonnent et les agents qui enchaînent les appels en consomment bien plus. Le coût total monte donc malgré la baisse unitaire. Raison de plus pour diriger chaque tâche vers le modèle le moins cher qui fait le travail.

Des modèles sont mis hors service avec quelques mois de préavis. Un acteur chinois ou un modèle libre rattrape, le temps d'un trimestre, le leader que vous aviez choisi.

Vous prenez votre décision sur une photo d'un marché qui rebat ses cartes tous les trimestres.

Les entreprises qui font tourner de l'IA en production sérieuse l'ont déjà intégré. Selon les données de Menlo Ventures, les organisations déploient typiquement trois modèles de fondation ou plus, en dirigeant chaque tâche vers le bon, précisément pour ne pas se lier à un seul fournisseur. Le mono-modèle n'est déjà plus la norme chez les équipes les plus avancées. S'y enfermer aujourd'hui, c'est une facture qu'on règle deux ans plus tard.

Ne branchez jamais votre application en direct sur un modèle

Le principe tient en une règle : votre application passe par un intermédiaire, une sorte de standard téléphonique. Elle lui adresse sa demande, lui la transmet au modèle du moment et rapporte la réponse, toujours dans le même format. Vous changez de modèle, l'intermédiaire reste, l'application ne s'aperçoit de rien. C'est ce que les architectes appellent une architecture « agnostique au modèle ».

Attention au contresens : ça ne veut pas dire « faites tourner dix modèles en parallèle ». Ça, c'est de la complexité gratuite. Ça veut dire une seule chose : derrière l'intermédiaire, on branche le modèle qu'on veut, et on en change sans toucher au reste.

Une telle architecture, c'est une voiture conçue pour qu'on puisse changer le moteur sans refaire la carrosserie. Le moteur, c'est le modèle. Le châssis, les sièges, le tableau de bord, c'est votre application. Le jour où un meilleur moteur sort, ou que le vôtre vous lâche, vous le remplacez en atelier sans reconstruire la voiture autour.

À l'inverse, voici à quoi ressemble une architecture qui se lie à un seul modèle, et qu'on croise hélas souvent :

le code l'appelle partout, sans rien entre les deux ;
les instructions données à l'agent sont taillées pour les manies d'un seul modèle, impossibles à rejouer ailleurs ;
la logique métier suppose que la réponse arrivera toujours dans le format exact de ce modèle-là.

Le jour où vous voulez changer, ce n'est plus une bascule, c'est une réécriture.

Schéma : une architecture indépendante du modèle - l'application passe par un intermédiaire unique, qui branche derrière lui des modèles interchangeables (Claude, GPT, Mistral, Llama, modèle local)

Notre favori aujourd'hui ne sera peut-être pas celui de demain

Soyons clairs, on a un favori. Chez D2L, on s'appuie majoritairement sur Claude pour le développement, pour des raisons assumées : qualité du code produit, écosystème d'agents, transparence sur ses propres limites. Aujourd'hui, c'est l'outil qui nous donne les meilleurs résultats. Mais demain, ce sera peut-être GPT, Mistral, ou un acteur qui n'existe pas encore.

Faut-il pour autant lier le destin de l'architecture d'un client à un seul éditeur ? Sûrement pas. Choisir le meilleur outil du moment, c'est une décision opérationnelle. Pouvoir en changer sans douleur, c'est une décision d'architecture. S'appuyer sur un outil et faire dépendre de lui la survie d'un projet qu'on veut voir tourner huit ans, ce sont deux choses différentes : la première est un confort de travail, la seconde une faute d'architecture.

Retour terrain

On a monté pour une agence de communication un outil qui pilote tout son pipeline commercial : acquisition de prospects, qualification, production de contenus. Il doit tourner des années. Alors on l'a conçu dès le départ pour passer d'un modèle à l'autre, ChatGPT comme Claude, sans toucher au code. Le jour où l'un prend l'avantage sur une tâche, on change la pièce et le reste tient. Concrètement, basculer une brique d'un modèle à l'autre nous prend une demi-journée, pas une réécriture.

Nos propres outils internes font l'inverse, et c'est très bien ainsi. Là, on prend le modèle qu'on maîtrise, jugé le meilleur sur l'instant, on produit, et on réévalue la fois d'après. Aucune couche d'abstraction, parce qu'il n'y a rien à faire durer.

Deux temporalités, une seule règle : on s'affranchit du modèle pour ce qui doit vivre des années, jamais pour ce qu'on jette le lendemain.

C'est ça, la posture qu'on défend : celle de l'architecte qui aime un outil sans enchaîner ses clients à un fournisseur. Ni le fanboy qui ne jure que par un modèle, ni le sceptique qui n'en branche aucun. Entre les deux, il y a la voie qui consiste à rester libre de profiter du meilleur, au fur et à mesure qu'il arrive.

Ce que cette liberté coûte, et quand elle ne vaut pas le coup

On ne va pas vous vendre une recette sans contrepartie. Cette liberté a un prix, et le passer sous silence serait malhonnête.

Concevoir cette couche intermédiaire demande un peu plus d'ingénierie au démarrage qu'un branchement direct. Elle impose aussi une petite discipline : avant d'utiliser la fonctionnalité propriétaire la plus clinquante d'un fournisseur, on se demande si on saura s'en passer le jour où on changera. Parfois on renonce à un gadget pour garder sa liberté. C'est un arbitrage, pas un dogme.

Et il y a des cas où ça ne vaut pas le coup. Un prototype jetable, un script interne qu'on lance une fois, une démonstration pour convaincre en interne : inutile d'y mettre une couche d'abstraction. On branche en direct, on avance, on jette. Cette indépendance, c'est pour ce qui part en production et doit durer. Pas pour ce qui vivra trois jours.

Cinq points à verrouiller pour rester libre

Voici, en pratique, l'ossature d'une architecture IA qui ne vous enferme pas. Cinq points à poser dès le cadrage. Aucun n'est sorcier. Tous coûtent dix fois plus cher à rattraper après coup.

Une couche d'abstraction entre votre application et le modèle

Jamais d'appel direct à un fournisseur dans votre code métier : tout passe par un point unique, qu'on peut rediriger.

Des instructions versionnées et documentées

Les consignes données à l'agent ne vivent pas enfouies dans le code. On les garde au propre, traçables, prêtes à être rejouées et réglées sur un autre modèle.

Un format de sortie que vous imposez

C'est vous qui définissez la structure de la réponse attendue, un JSON strict par exemple, pas le modèle. Le jour où vous changez, ce format imposé ne bouge pas, et le reste de l'application non plus.

De la mesure, modèle par modèle

On mesure le coût, la latence (le temps de réponse) et le taux d'erreur de chaque modèle. Sans ces chiffres, une bascule se décide à l'intuition. Avec, elle se décide sur des faits.

Un garde-fou qui ne dépend pas du modèle

Ne laissez jamais le modèle juger seul ses propres réponses. Entre sa réponse et l'action, glissez une vérification qui vous appartient : une règle métier, une comparaison à une source fiable, ou un seuil de confiance en dessous duquel on passe la main à un humain (la couche qui sait dire « je ne sais pas », dont on parlait dans le premier article de notre blog). Comme ce garde-fou vit dans votre code et pas dans le modèle, il protège de la même manière quel que soit le moteur branché derrière. C'est lui qui vous laisse changer de modèle sans refaire confiance à zéro.

Posez ces cinq points et vous avez une architecture qui transforme chaque progrès du marché en opportunité, là où une architecture mono-modèle le subit comme une menace.

Le bon modèle d'aujourd'hui sera dépassé. C'est mécanique, et c'est tant mieux. Une architecture qui ne dépend d'aucun modèle, c'est la seule manière de profiter de chaque avancée sans devoir se renier à chaque fois. On choisit un modèle. On n'épouse pas de fournisseur.

Sources

Incremys LLM 2026 statistics 2026
Menlo Ventures 2025: The State of Generative AI in the Enterprise 2025
Gartner Gartner Predicts That by 2030, Performing Inference on an LLM With 1 Trillion Parameters Will Cost GenAI Providers Over 90% Less Than in 2025 2026

Retour