Entretiens
Ronak Desai, Fondateur et PDG de Ciroos – Série d’entretiens

Ciroos est en train de construire un équipier SRE basé sur l’IA conçu pour réduire de manière spectaculaire le temps nécessaire pour enquêter et résoudre des incidents IT complexes dans des environnements modernes et multi-domaines. La plateforme utilise une IA multi-agente native pour raisonner à travers les signaux, automatiser les enquêtes et soutenir l’automatisation, l’augmentation et les opérations autonomes – tout en garantissant que les humains restent fermement en contrôle. En corrélant les données à travers les outils et les domaines traditionnellement cloisonnés, Ciroos permet aux équipes de passer d’une lutte contre les incendies réactifs à une prise de décision plus rapide et plus confiante, libérant ainsi les ingénieurs pour se concentrer sur des travaux à plus forte incidence plutôt que sur des tâches opérationnelles répétitives et épuisantes.
Vous avez passé plus de deux décennies chez Cisco, aidant à construire certains de ses produits de réseau et d’observabilité les plus réussis. Qu’est-ce qui vous a inspiré pour prendre le saut et fonder Ciroos ?
Tout au long de mes interactions avec diverses équipes d’entreprise, j’ai vu la même histoire se répéter à plusieurs reprises. Les équipes d’exploitation étaient submergées par les tableaux de bord, poursuivant les alertes et s’appuyant sur les connaissances institutionnelles pour résoudre les problèmes à travers plusieurs systèmes. Malgré les dépenses de capital importantes consacrées à l’observabilité, ils n’avaient toujours pas de moyen de connecter les preuves à travers les domaines en temps réel. Mes co-fondateurs et moi voulions changer cela. Nous nous sommes lancés dans la construction d’un système d’IA qui pourrait raisonner comme un opérateur expérimenté et travailler en concert avec les SRE dès le départ, permettant ainsi aux équipes de se concentrer sur l’amélioration de la résilience et de la fiabilité plutôt que de passer du temps à la recherche d’informations ou à lutter contre les problèmes.
Vous avez décrit Ciroos comme une réponse à l’un des problèmes les plus difficiles dans les opérations — les enquêtes qui s’étendent sur plusieurs domaines. Comment votre expérience en tant que chef de l’entreprise AppDynamics et Full-Stack Observability chez Cisco a-t-elle façonné cette réalisation et influencé l’architecture de Ciroos ?
Chez AppDynamics, nous avons atteint un niveau élevé de compréhension du comportement des applications. Cependant, lorsque la cause d’un incident vivait en dehors de l’application (que ce soit dans la configuration cloud, le réseau ou l’IAM), avoir une visibilité au niveau de l’application seule était insuffisant. Le défi était d’établir un contexte. Cette expérience a guidé la façon dont nous avons conçu Ciroos. Notre plateforme apporte une raison d’IA à l’échelle des opérations de production. Elle examine les signaux à travers les domaines, aligne les événements sur une chronologie commune et raisonne à travers les frontières de domaine pour déterminer les véritables causes des incidents.
Ciroos introduit le concept d’un « équipier SRE IA ». Comment cette idée d’IA en tant que collaborateur diffère-t-elle des outils d’automatisation ou d’observabilité traditionnels ?
L’équipier SRE IA fonctionne plus comme un nouvel équipier que comme un nouvel outil. Il écoute d’abord, acquiert une compréhension de l’environnement, accepte des tâches définies et favorise la confiance avec le temps. Alors que l’automatisation traditionnelle exécute des règles, l’équipier applique une raison. Lorsqu’il identifie un problème, il sélectionne les agents d’experts de domaine pertinents pour les interroger, rassemble des preuves à l’appui et les présente dans leur contexte. Cet élément de collaboration libère le temps des ingénieurs pour valider et résoudre des problèmes plutôt que de dériver manuellement des corrélations.
Votre plateforme utilise une raison d’IA multi-agente. Pouvez-vous expliquer comment plusieurs agents d’IA coordonnent pour accélérer l’analyse de la cause profonde et améliorer la précision à travers des systèmes complexes ?
Chaque agent possède une expertise de domaine — l’un en Kubernetes, un autre dans le cloud, un autre dans le réseau, etc. Lorsqu’un incident se produit, ces agents travaillent ensemble dans le cadre d’une couche de raisonnement central qui corrèle les résultats en temps réel. Le système détermine quels agents invoquer, quelles tâches attribuer à chaque agent, dans quel ordre et pour combien de temps. Cette coordination réduit les temps d’enquête et améliore la précision en garantissant que chaque couche est évaluée dans son contexte plutôt que dans un silo.
D’un point de vue technique, comment Ciroos raisonne-t-il de manière dynamique à travers des sources de données disparates — telles que la télémétrie cloud, les journaux d’applications et les métriques d’infrastructure — sans submerger les utilisateurs avec du bruit ?
Ciroos considère chaque source de données comme un seul objectif dans une image plus large. Il aligne les observations sur les sources de données sur une chronologie unifiée et ne met en surface que les relations de cause à effet pertinentes. Par exemple, si un événement de redémarrage de pod se produit après un petit changement dans l’IAM ou la politique de réseau, Ciroos relie automatiquement cette séquence. Il va au-delà de la fourniture de tableaux de bord bruts et assemble plutôt une histoire complète basée sur les preuves qui aident les ingénieurs à comprendre pourquoi quelque chose s’est produit.
La confiance et l’explicabilité sont centrales dans votre philosophie de conception. Comment vous assurez-vous que les recommandations basées sur l’IA restent transparentes et que les ingénieurs humains restent fermement en contrôle ?
Chaque recommandation est accompagnée des preuves à l’appui et de la raison qui a conduit à celle-ci. Les ingénieurs peuvent retracer chaque conclusion, tester leurs hypothèses et gérer le niveau d’autonomie du système, de l’assistance à l’autonomie semi-autonome. Le système conserve les connaissances contextuelles avec le temps grâce aux commentaires humains, ce qui lui permet d’améliorer la qualité de la décision tout en restant entièrement régi. Notre approche ressemble à la façon dont une équipe intégrerait de nouveaux équipiers, avec des garde-fous clairs, une raison directe et une surveillance humaine totale. La confiance se construit à mesure que le système montre des performances de plus en plus fiables avec le temps.
Les premiers adoptants rapportent que Ciroos réduit le temps d’enquête de plusieurs heures à quelques minutes. Quels types de modèles ou d’informations vous ont le plus surpris lorsque les équipes ont commencé à utiliser l’équipier SRE IA en production ?
Il y a eu deux agréables surprises — premièrement, la rapidité avec laquelle même les grandes entreprises ont répondu favorablement à notre proposition de valeur fondamentale a été encourageante. Deuxièmement, nos clients ont examiné de près notre technologie et ont trouvé des cas d’utilisation très uniques qui vont bien au-delà de l’analyse de la cause profonde. Ces cas d’utilisation mettent en évidence les défis du monde réel que les grandes entreprises rencontrent aujourd’hui dans leurs opérations de production.
Le terme « IA en tant qu’équipier » suggère une collaboration plutôt qu’un remplacement. Comment voyez-vous cette notion évoluer à mesure que les organisations deviennent plus à l’aise pour travailler aux côtés de systèmes intelligents ?
Nous considérons cela comme un voyage impliquant l’automatisation, l’augmentation et, en fin de compte, le pilotage automatique. Bien que Ciroos soutienne les trois modes aujourd’hui, nous voyons généralement l’adoption de l’IA par les entreprises suivre une courbe de maturité. Pour commencer, les entreprises utilisent notre système d’IA pour automatiser des tâches clairement définies et répétitives tout en minimisant la surcharge cognitive pour les humains. À l’inverse, les systèmes non natifs d’IA imposent une charge trop lourde à l’opérateur humain pour configurer de nombreux paramètres et règles avant que les clients réalisent une valeur.
Dans la prochaine phase, les entreprises exploitent le système d’IA pour augmenter la raison humaine à l’échelle de plusieurs domaines, même si le système fournit des explications et des recommandations détaillées pour la remédiation que l’humain valide et exécute. C’est là que la plupart des entreprises se trouvent aujourd’hui.
Au fil du temps, l’IA peut gérer des flux de travail d’incident complets de manière autonome pour l’entreprise, n’escaladant vers un humain que lorsque cela est nécessaire. Nous nous attendons à ce que cela soit progressivement ouvert en fonction de la tâche. Cette progression est similaire à la façon dont les équipes développent la confiance avec les nouveaux embauches. À mesure que vous gagnez plus de confiance, le partenariat se renforce.
De nombreuses entreprises s’appuient déjà sur des plateformes d’observabilité et de gestion d’incidents établies. Comment Ciroos s’intègre-t-il à ces écosystèmes existants sans perturber les flux de travail ?
Dès le début, l’intégration n’allait pas être optionnelle. Nous croyons qu’un modèle de données fédéré offre aux entreprises la plus rapide valeur, la plus grande optionnalité et le plus faible coût total de possession. L’équipier SRE IA de Ciroos s’intègre à sept catégories différentes de systèmes d’entreprise aujourd’hui — observabilité, réponse aux incidents, outils de collaboration, plateformes cloud, systèmes de billetterie, outils CI/CD et infrastructure physique via des API ouvertes et des protocoles tels que MCP et A2A. Il s’intègre dans les flux de travail établis au lieu d’exiger que les équipes adoptent de nouveaux. Cette conception a aidé à rendre son adoption facile pour les entreprises. Les équipes obtiennent des réponses plus rapides sans modifier leurs flux de travail existants.
Vous avez mis l’accent sur l’obsession client et l’innovation tout au long de votre carrière. Comment ces valeurs guident-elles la culture de Ciroos et sa vision à long terme pour redéfinir l’ingénierie de la fiabilité ?
Être obsédé par le client signifie être sans cesse concentré sur les défis du monde réel auxquels sont confrontées les équipes d’exploitation de nos clients, tels que les longues heures, la fatigue, les tâches fastidieuses et la recherche constante de réponses à des questions qui se posent dans les opérations. L’innovation consiste à résoudre ces problèmes de manière à rendre du temps et de la concentration. Nous nous imaginons toutes les équipes d’exploitation ayant un équipier IA qui apprend en continu, évolue avec la demande et aide à assurer la fiabilité à travers les systèmes. À long terme, nous voyons le service d’IA devenant un logiciel standard dans tout le cycle de développement à l’exploitation de production — des systèmes qui pensent, agissent et s’améliorent aux côtés de leurs homologues humains. Si nous pouvons fournir à nos utilisateurs la clarté et la marge de manœuvre dont ils ont toujours eu besoin, nous avons fait notre travail correctement. Ces utilisateurs pourraient être des SRE, du personnel d’exploitation IT, des ingénieurs d’exploitation de production, des ingénieurs d’exploitation cloud ou des membres de l’équipe DevOps effectuant des opérations de production.












