4 ans d'agents IA en production : ce qu'on a vraiment appris
Les agents qu'on déployait en 2022 ne ressemblent plus à ceux de 2026. Voici les leçons opérationnelles que les articles de blog ne couvrent jamais.
Kevin Pierson
Fondateur, Annei
En 2022, quand on a commencé à déployer des agents en production pour nos clients, on faisait beaucoup d'erreurs. En 2026, on en fait encore, mais ce sont des erreurs différentes. Voici ce qu'on a appris dans l'ordre où on l'a appris.
Leçon 1 : Un agent sans observabilité est une boîte noire
La première version de nos agents n'avait pas de logging structuré. Quand quelque chose cassait, on ne savait pas pourquoi. Aujourd'hui, chaque appel LLM est loggé avec : le prompt complet, la réponse brute, la décision prise, les outils appelés, le coût en tokens. Sans ça, le debug prend 10x plus de temps.
Outil minimal : un simple fichier JSON par agent, une entrée par exécution, stocké dans S3 ou sur disque. Pas besoin de Datadog dès le début.
Leçon 2 : La gestion des erreurs coûte plus cher que le happy path
Un agent qui fonctionne 95% du temps et plante 5% sans alerter est pire qu'un agent qui ne fonctionne pas. Les 5% d'échecs silencieux créent des problèmes downstream non détectés : devis non envoyés, relances manquées, données corrompues.
Chaque agent doit avoir :
- Un timeout défini sur chaque action externe (API, email, CRM)
- Une alerte (Slack, email) sur toute exception non gérée
- Un mode dégradé : en cas d'échec, l'humain est notifié avec le contexte nécessaire pour reprendre à la main
Leçon 3 : Les modèles changent, l'architecture doit absorber ça
En 2022, on utilisait GPT-3.5. En 2023, GPT-4. Aujourd'hui, Claude 3.5 Sonnet pour la plupart des cas, Claude Opus 4 pour les tâches complexes. Chaque migration a cassé des prompts qui "fonctionnaient".
La solution : abstraction du modèle dans le code. L'agent ne hardcode jamais le modèle : il le reçoit en configuration. Un changement de modèle ne devrait pas nécessiter de redéploiement applicatif.
Leçon 4 : Le prompt est du code, traitez-le comme tel
Les prompts system vivent dans des fichiers versionnés, pas dans des variables hardcodées. Chaque modification de prompt est un commit. On peut donc rollback un prompt comme on rollback du code. C'est simple, et ça sauve des opérations.
Leçon 5 : L'isolation entre agents évite les catastrophes
Un agent qui a accès à toutes les données clients est un risque. Nos agents opèrent dans des environnements cloisonnés : chaque client a son propre contexte, ses propres credentials, ses propres données. Un bug dans l'agent du client A ne peut pas lire ou écrire dans les données du client B.
Techniquement : variables d'environnement par client, bases de données séparées, tokens API distincts. Ce n'est pas compliqué mais c'est non négociable.
Leçon 6 : L'humain dans la boucle n'est pas un échec de l'IA
Nos meilleurs agents ont des points d'escalade définis : des situations où ils arrêtent et transmettent à un humain avec un résumé du contexte. Pas par limitation technique, mais par design. Certaines décisions ne doivent pas être prises par une machine : elles méritent un regard humain. L'agent le sait, il le fait, et tout le monde est content.
Vous voulez aller plus loin ?
Harry répond à toutes vos questions sur les agents IA, le growth et le tracking.
Parler à Harry →