인터뷰

TrueFoundry의 Nikunj Bajaj, 공동 창립자 및 CEO – 인터뷰 시리즈

Published February 26, 2026

Updated May 16, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Nikunj Bajaj는 TrueFoundry의 공동 창립자이자 CEO로서, 기업급 AI 플랫폼을 구축하는 회사의 비전과 전략을 이끌고 있습니다. 기술 제품과 팀을 확장하는 경험을 바탕으로, 그는 조직이 AI 시스템을 안전하고 효율적으로 배포하고 운영할 수 있도록 지원합니다. 그는 기업 AI 채택, AI 플랫폼 전략, 생산 AI의 새로운 트렌드에 대해 글을 씁니다.

TrueFoundry는 Kubernetes 기반 환경에서 기계 학습 및 생성 AI 애플리케이션을 구축, 배포, 관리 및 확장하는 데 도움이 되는 기업 AI 인프라 플랫폼입니다. 클라우드, 온프레미스 또는 하이브리드 환경에서 강력한 거버넌스, 보안 및 비용 제어를 제공합니다. 모델, LLM 및 에이전트 워크플로에 대한 중앙 집중식 액세스를 제공하는 AI 게이트웨이와 모델 세부 조정, 배포, 모니터링 및 자동 확장 도구를 결합하여 MLOps를 간소화하고 데이터 과학 및 엔지니어링 팀의 가치 실현 시간을 가속화하는 것을 목표로 합니다. TrueFoundry의 개발자 중심, 클라우드 중립적 접근 방식은 기업 규정 준수 및 유연성을 강조하여 팀이 벤더 잠금 없이 복잡한 AI 워크로드를 관리할 수 있도록 합니다. 표준을 강조합니다. SOC 2, HIPAA 및 ITAR.

您曾在机器学习研究、Facebook의 생산 AI 및 대규모 추천 시스템에서 작업한 후 TrueFoundry를 설립했습니다. 이러한 경험 중 어떤 것이 가장 직접적으로 기업 AI 인프라 회사 구축으로 이어졌으며, 당시 해결되지 않은 고통은 무엇입니까?

Meta에서 우리는 기계 학습을 소프트웨어의 특별한 경우로, 생성 AI를 기계 학습의 특별한 경우로 간주하여, 아래에 소프트웨어, 중간에 기계 학습, 위에 생성 AI가 있는 수직 스택을 구축했습니다. 이러한 설정에서 기계 학습 개발자로서, 내가 구축하는 모델은 다른 소프트웨어와 동일한 배포 패턴을 따르므로 시스템 확장을 매우 간단하게 만듭니다.

그러나 대부분의 기업은 별도의 스택을 사용하여 소프트웨어, 기계 학습 및 생성 AI를 배포했습니다. 이러한 평행 스택이 있는 경우 확장이 더 복잡해집니다. 기계 학습 및 소프트웨어 세계 간의 핸드오버로 인해 확장이 더 복잡해집니다.

우리의 팀은 항상 기계 학습 모델 및 기계 학습 인프라를 구축하는 교차점에서 일해 왔으므로, 우리는 유사한 수직 스택을 기업에 가져올 수 있고, 그들의 특정 요구에 맞게 적응시킬 수 있는 고유한 관점을 가졌습니다. 우리는 또한 2021년 말에 기계 학습이 전환점에 접근하고 있으며, 그렇게 하면 더 많은 회사에서 이러한 시스템을 효과적으로 배포하고 확장하기 위해 수직적으로 통합된 스택이 필요할 것이라는 가설을 세웠습니다. 이것이 궁극적으로 TrueFoundry를 설립하게 된 이유이며, 우리의 가설은 옳았습니다. 2022년 말 ChatGPT 출시 이후 AI 채택이 가속화되었습니다.

AI 시스템이 실험에서 일상적인 작동으로 이동함에 따라, 조직이 신뢰성 및 故障에 대해 생각하는 방식은 어떻게 변경됩니까?

전통적인 기계 학습 시스템과 비교하여 생성 AI의 내기는 훨씬 더 높습니다. 이러한 시스템이 생산으로 이동함에 따라, 조직은 불확실성 및 비결정성의 더 높은 수준을 처리해야 하며, LLM은 본질적으로 확률적입니다. 에이전트 시스템은 추가적인 불확실성을 제공합니다.

또한, 故障은 더 이상 이진법이 아닙니다. 시스템이 단순히 故障이나 정상 작동하는 것이 아니라, 부분적인 故障이나 무음의 열화가 나타날 수 있습니다. 시스템은 더 높은 지연 시간, 열화된 품질 또는 시간이 지남에 따라 잘못된 동작으로 응답할 수 있습니다. 많은 경우에 이러한 열화는 더 difícil로 탐지되고 때로는 더 심각한 손상을 초래할 수 있습니다.

조직은 신뢰성을 단순히 가동 시간으로 생각하는 것이 아니라, 시간이 지남에 따라 성능의 열화를 고려해야 합니다.

TrueFailover가 출시된 것은 클라우드 및 AI 서비스 중단의 물결 가운데 있었습니다. 최근의 어떤 사건이 AI 신뢰성이 “좋은 것”에서 핵심 아키텍처 요구 사항으로 전환되었는지 명확히 보여주었습니까?

우리의 한 헬스케어 고객은 실시간, 시간 민감한 환자 요청과 관련된 처방을 처리하는 시스템이 모델 故障로 인한 중단에 영향을 받았습니다. 그들의 워크플로는 초당 수천 달러의 수익을 생성하며, 중단은 일부 중요한 워크플로를 방해했습니다. 초기 TrueFailover 고객으로서, 우리는 빠른 복구를 도와주었으며, 영향은 제한되었습니다.

이러한 사건은 중요한 질문을 제기합니다. 생성 AI 시스템의 내기가 계속 증가함에 따라, 왜 회복 프로세스는 여전히 대부분 수동적인가요? 이것은 시스템이 故障이 발생할 수 있다는 가정하에 구축되어야 하며, 자동으로 자신을 수정하도록 설계되어야 함을 강조합니다. 신뢰성은 또한 AI 스택 자체에 AI 게이트웨이를 통해 구축되어야 하며, 중앙 집중식 라우팅, 관찰 가능성, 가드레일 및 지능형 모델 전환을 제공할 수 있습니다.

많은 AI 중단은 여전히 기술적인 실수로 프레임됩니다. AI 시스템이 다운되면 경제적 및 인간적 비용이 실제로 나타나기 시작하는 곳은 어디입니까?

기업 AI는 내부 워크플로우에만 영향을 미치는 것이 아니라, 고객을 직접적으로 즉시적으로 영향을 미치는 지점에 도달했습니다. 이러한 시스템은 이제 고객용으로 사용되며, 중단 및 열화는 직접적인 비즈니스, 고객 및 평판의 결과를 초래합니다.

AI 시스템이 더 깊숙이 운영 워크플로우에 통합됨에 따라, 중단은 더 이상 기술적인 문제가 아닙니다. 그것은 비즈니스, 고객 및 평판에 직접적인 결과를 초래합니다.

임무_CRITICAL 환경에서, 예를 들어 약국, 헬스케어 운영 또는 고객 지원에서, AI 중단이 작동 중단 또는 평판 위험으로 빠르게 확대될 수 있습니까?

임무_CRITICAL 환경에서, 확대는 거의 즉시 발생합니다. 이러한 시스템은 실시간, 시간 민감한 워크플로우를 지원하므로, 짧은 중단도 중요한 프로세스를 중지시키거나 서비스 제공을 지연시키거나, 의존하는 다운스트림 시스템을 중단시켜, 조직 전체에 걸쳐 연쇄적인 작동 효과를 생성할 수 있습니다.

헬스케어와 같은 분야에서, 영향은 작동 중단을 넘어 고객 경험 및 서비스 결과에 미칩니다. 환자가 약을 제때 복용하지 못하면 실제 결과가 있을 수 있습니다. 이것은 환자에게만 문제가 아니라, 약국이나 헬스케어 제공자의 평판에도 손상을 줄 수 있습니다. 임무_CRITICAL 환경에서, 시스템이 온라인 상태로 유지되는 것이 중요합니다. 이것이 왜 조직이 AI 시스템을 故障이 발생할 수 있다는 가정하에 설계하고, 회복 메커니즘을 자동으로 활성화하여 위험을 최소화해야 하는 이유입니다.

많은 팀이 기능성보다 연속성으로 설계합니다. 왜 내구성이 역사적으로 AI 시스템 설계에서 낮추어졌는지 생각하십니까?

이것은 주로 조직 내의 인센티브로 인해 발생합니다. 새로운 기능은 가시적이고 흥미롭습니다. 데모, 기능 및 제품 가능성을 즉시 볼 수 있습니다.

반면, 연속성은 정상 작동할 때는 보이지 않습니다. 따라서 보상 시스템은 새로운 기능을 제공하는 것보다 작동 중단을 방지하는 것에 더 많이 투자하는 경향이 있습니다. 결과적으로, 조직은 기능 개발에 비해 연속성 엔지니어링에 불균형적으로 투자합니다.

기업이 외부 모델 및 API에越来越 많이 의존함에 따라, AI 스택에 어떤 새로운 취약성이 도입되고 있으며, 리더들은 아직 이를 충분히 이해하지 못하고 있습니까?

LLM은 기본적으로 공유 리소스이며, 기업은 전통적인 인프라와 같이 소유하지 않습니다. 또한, 기업의 비즈니스クリ티컬 시스템은 완전히 시간이 지남에 따라 테스트되지 않은 외부 시스템에서 실행됩니다. LLM 자체는 빠르게 발전하고 있으므로, 모델 제공자는 지연 시간이나 모델 성능의 약간의 감소와 같은 것에 대해 책임을 지지 않을 수 있습니다.

LLM은 공유 리소스이기 때문에, 다른 소비자가 이러한 LLM을 사용하여 특정 작업을 수행할 때 지연 시간이 급증할 수 있습니다. 이러한 故障 지점이 LLM의 본질적인 특성으로 인해 도입됩니다. 기업은 이 새로운 세계에서 완전한 제어를 갖지 못합니다. 완전한 제어가 없으면, 기업이 할 수 있는 최선의 것은 시스템의 중복성을 설계하여 탄력적인 시스템을 구축하는 것입니다.

특정 제품에 집중하지 않고, 조직은 어떻게 AI 아키텍처를 재고하여 故障을 가정하는 대신 중단을罕한 엣지 케이스로 처리해야 합니까?

조직은 분산 시스템 설계의 첫 번째 원칙으로 돌아가야 합니다. 소프트웨어 시스템은 네트워크 구성 요소와 머신이 故障할 것이라는 가정하에 구축되었습니다. 전체 지역이 다운될 수 있습니다.

AI 시스템도 다를 바 없습니다. 우리는 모델 제공자가 지연 시간 문제, 열화 또는 중단을 경험할 것이라고 가정해야 하며, 이러한 다양한 故障 시나리오에서 응용 프로그램이 탄력성을 유지하도록 중복성을 포함해야 합니다.

AI 내구성이 플랫폼 및 벤더 선택에서 결정적인 요소가 될 것으로 예상합니까? 클라우드 인프라 결정에서 가동 시간 및 중복성이 형성한 방식과 유사하게?

더 많은 AI 시스템이 생산으로 이동함에 따라, 내구성은 표준이 됩니다. 벤더가 가동 시간 및 전체 내구성에 대한 그래프와 메트릭스를展示할 수 없으면, 심지어 고려대상도되지 않습니다. 일단 내구성이 벤더 간의 기준선 기대가 되면, 결정적인 요소는 사용자 경험, 성능 최적화, 관찰 가능성 및 더 높은 수준의 제품 기능으로 이동할 것입니다. 시간이 지남에 따라, AI 게이트웨이 및 자동 장애 조치와 같은 구성 요소는 기업 AI 인프라의 핵심 기초 요소가 됩니다.

앞으로, 지속적으로 사용할 수 있는 세계에서 “생산 준비” AI는 무엇을 의미합니까?

생산 준비 AI 시스템은 관찰 가능성, 제어 가능성 및 복구 가능성이 있어야 합니다. 이 세 가지 상자가 모두 확인되어야 합니다.

생산 AI가 관찰 가능하려면, 팀은 모델 동작, 지연 시간, 오류율, 토큰 사용,漂移 및 故障 패턴에 대한 깊은 가시성을 필요로 합니다. 강력한 관찰 가능성이 없으면, 사용자가 이를 인식하기 전에 열화를 탐지하는 것이 매우 어려워집니다.

시스템이 제어 가능하려면, 트래픽 형성, 속도 제한, 가드레일, 정책 시행 및 모델 및 제공자 간의 지능형 라우팅이 포함됩니다. 이것은 AI 게이트웨이가 중앙 집중식 제어 평면으로 작동하여 가드레일을 시행하고, 일관된 거버넌스를 제공하며, 성능 또는 신뢰성이 떨어질 때 동적 모델 전환을 가능하게 하는 곳입니다.

마지막으로, 시스템이 복구 가능하려면, 구성 요소가 부분적으로 또는 완전히 손상될 수 있다는 가정하에 구축되어야 합니다. 제공자 중단, 모델 품질의 열화, 속도 제한 또는 악의적인 행위자로부터의 예상치 못한 입력으로 인해 발생할 수 있습니다. 자동 장애 조치 및 자가 회복 메커니즘은 수동적인 플레이북이 아닌 아키텍처에 내재되어야 합니다.

이것이 TrueFoundry에서 작업하는 방향입니다. 내구성, 중앙 집중식 제어 및 자동 복구를 이러한 방식으로 정의하는 벤더는 장기적인 고객 신뢰를 얻을 수 있으며, 새로운 문제가 발생할 때 계속해서 해결할 수 있습니다.

잘한 인터뷰에 감사드립니다. 더 많은 정보를 배우고 싶은 독자는 TrueFoundry를 방문하십시오.

Antoine Tardif, CEO & Founder of Unite.AI

앙투안은 Unite.AI의 비전있는 리더이자 공동 창립자로서, AI와 로봇공학의 미래를 형성하고 촉진하는 데 대한 불변의 열정에 의해 추동됩니다. 연쇄적인 기업가로서, 그는 AI가 사회에 대한 전기와 같은 파괴력을 가질 것이라고 믿으며, 종종 파괴적인 기술과 AGI의 잠재력에 대해 열광합니다.

作为 futurist, 그는 이러한 혁신이 우리의 세계를 어떻게 형성할지 탐구하는 데 전념하고 있습니다. 또한, 그는 Securities.io의 창립자로서, 미래를 재정의하고 전체 부문을 재형성하는 최첨단 기술에 투자하는 플랫폼입니다.

Unite.AI

TrueFoundry의 Nikunj Bajaj, 공동 창립자 및 CEO – 인터뷰 시리즈

You may like