인터뷰

NeuroMetric의 CEO이자 공동 창업자인 Rob May – 인터뷰 시리즈

Published March 26, 2026

Updated March 28, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Rob May는 NeuroMetric의 CEO이자 공동 창업자로, 클라우드 컴퓨팅, AI 스타트업, 벤처 캐피털에 걸친 오랜 경력을 가진 노련한 기업가이자 투자자입니다. 현재는 Neurometric AI를 이끌면서 동시에 HalfCourt Ventures의 관리 이사로 재직하며 100개 이상의 기술 기업에 투자해 왔습니다. 운영 및 투자 역할과 더불어, 그는 AI Innovators Community를 공동 설립했으며, Backupify와 같은 회사를 설립하고 매각하는 등 여러 기술 주기를 가로지르는 깊은 경험을 반영하고 있습니다. 또한 그는 10년 이상 전에 신흥 AI 트렌드, 투자 전략, 시장 변화를 분석하기 위해 집필을 시작한 장기 연재 Investing in AI 뉴스레터로도 널리 알려져 있으며, 이는 빠르게 진화하는 AI 환경에 대한 더 깊은 통찰력을 제공하는 플랫폼으로 발전했습니다.

NeuroMetric AI는 오늘날 인공 지능에서 가장 중요한 과제 중 하나인 대규모 추론의 비용과 효율성 해결에 주력하고 있습니다. 이 플랫폼은 AI 워크로드를 동적으로 평가하고 최적화 전략(예: 더 작고 전문적인 모델을 고급 테스트 시간 컴퓨팅 기술과 결합하는 등)을 적용하여 성능을 개선하면서 비용을 획기적으로 절감함으로써 기업이 AI 배포에서 더 나은 ROI를 달성할 수 있도록 합니다. 워크로드를 오케스트레이션하고 특정 작업에 맞게 모델 사용을 맞춤화함으로써, NeuroMetric는 AI 시스템을 훨씬 더 빠르고 저렴하게 만들어 기업이 실험에서 생산으로 전환함에 따라 AI 인프라, 효율성, 실제 확장성의 교차점에 자신을 위치시키고자 합니다.

여러 AI 회사를 설립하고 이끌어 오셨으며, HalfCourt Ventures를 통해 100개 이상의 스타트업에 투자하셨고, 이전에는 Backupify를 설립하고 매각하셨습니다. 이러한 경험들이 오늘날 AI에서 지속 가능한 가치가 창출되는 지점에 대한 귀하의 관점을 어떻게 형성했나요?

대부분의 투자자와 기업가들은 단기적인 해자(방어력)를 쫓고 있다고 생각합니다. 오늘날 시장에서 명백한 격차처럼 보이지만 기존 기업들이 빠르게 메울 수 있는 격차 말이죠. AI는 비즈니스 운영을 일련의 확률적 결정으로 축소시킬 것입니다. 투자하거나 구축해야 할 회사는 그러한 확률에 대한 최상의 전반적 추정치를 가진 회사들입니다. 때로는 그것이 수직 통합에서 비롯되기도 하고, 때로는 수평적 규모에서 비롯되기도 합니다. 시장에 따라 다르죠.

귀하의 Investing in AI 뉴스레터에서 모델이 점점 더 상호 교환 가능해지고 있으며, 진정한 방어력은 시스템 계층으로 이동한다고 주장하셨습니다. 실제로 진정한 ‘시스템 해자’는 어떤 모습인가요?

진정한 시스템 해자는 세 가지 속성을 가집니다: 사용에 따라 복리 효과를 내고, 고객에게 특화되어 있으며, 더 나은 모델로 교체하여 복제할 수 없습니다.

방어력은 제가 “컨텍스트 시스템(System of Context)”이라고 부르는 것에 존재합니다. 이는 기초 모델을 회사의 고유성을 만드는 모든 것(데이터, 워크플로우, 도메인 지식, 결정 이력)에 연결하는 통합 아키텍처입니다. 이 시스템은 모든 상호작용(어떤 작업에서 어떤 모델이 성공하는지, 어디에서 지연 시간이 중요한지, 어떤 기업 특정 패턴이 나타나는지)에서 신호를 포착하고 이를 다시 시스템 개선에 피드백합니다.

핵심 통찰은 이것이 가산적이 아닌 승산적 플라이휠을 생성한다는 점입니다. 단순히 과거 결정의 검색 가능한 로그를 축적하는 것이 아닙니다. 라우팅을 개선하는 특화된 모델을 생성하는 훈련 신호를 생성하며, 이는 더 가치 있는 데이터를 포착합니다. 해자는 모든 추론마다 넓어집니다.

실제로 시스템 해자는 비즈니스 로직을 재작성해야 하는 API가 아닌, 깊은 워크플로우 통합처럼 보입니다. 특정 기업 내에서 수개월간의 생산 사용을 통해 생성되었기 때문에 경쟁자가 복제할 수 없는 독점적 컨텍스트처럼 보입니다. 또한 일반적인 모델 제공자가 절대 할 수 없는 방식으로 *그 고객*에게 의미 있게 개선되는 지속적 특화 루프처럼 보입니다.

모델 시대는 우리에게 원시 능력을 주었습니다. 시스템 시대는 그 능력이 실제 세계의 가치가 되는 시기입니다.

기업들은 단일 최첨단 모델에 의존하기보다는 다중 모델 전략(라우팅 로직, 에스컬레이션 경로, 지속적 평가 포함)을 구축하는 데 대해 어떻게 생각해야 하나요?

기업들이 먼저 내면화해야 할 점은 “그냥 최고의 모델을 사용하라”는 전략은 규모에서 지는 전략이라는 것입니다. 모든 쿼리를 가장 고급 엔지니어에게 맡기는 것과 같습니다. 비싸고, 느리고, 그리고 직관과는 달리 종종 최상의 결과를 내지 못합니다.

이는 제가 ‘추론의 들쭉날쭉한 최전선(Jagged Frontier of Inference)’이라고 부르는 것과 관련이 있습니다. 모델 성능은 작업별로 다르고 예측 불가능합니다. 최첨단 모델들은 특정 작업에서 더 작고 특화된 모델들에게 항상 지고 있습니다. 우리는 복합 다중 모델 시스템이 CRM 작업에서 72.7% 정확도를 기록한 반면 최첨단 모델들은 58%를 기록한 사례를 보았습니다. 성능 표면은 매개변수 수와 깔끔하게 상관관계를 가지지 않습니다. 따라서 진짜 질문은 “어떤 모델이 최고인가?”가 아니라 “*이 특정 하위 작업*에 어떤 모델이 최고인가?”입니다.

이러한 재구성이 진정한 다중 모델 전략의 기초입니다. 기업들에게 세 가지 계층으로 생각하라고 말씀드리겠습니다.

라우팅 로직은 추론 환경을 매핑하는 것부터 시작합니다. 시스템에서 LLM 호출이 이루어지는 모든 지점을 카탈로그화하고, 각각에 대해 작업 유형, 입출력 복잡성, 지연 시간 요구사항, 정확도 임계값, 호출 볼륨을 문서화하세요. 그러면 히트맵을 얻을 수 있습니다. 대부분의 볼륨이 분류, 엔터티 추출, 의도 라우팅, 템플릿 생성과 같은 고빈도, 좁은 범위의 작업이라는 것을 빠르게 발견할 것입니다. 이러한 작업에서는 미세 조정된 더 작은 모델이 최첨단 모델을 비용의 일부로 맞추거나 능가합니다. 진정으로 복잡한 추론이 필요한 작업을 위해 비싼 최첨단 호출을 예약하세요. 작업당 50회 호출을 하는 에이전트가 50회 모두 GPT-4가 필요하지는 않습니다.

에스컬레이션 경로는 단순한 장애 조치가 아닌 지능적인 폴백을 구축하는 것입니다. 시스템은 더 작은 모델이 낮은 신뢰도 결과를 반환할 때 인식하고 더 능력 있는 모델로, 또는 완전히 다른 모델-전략 조합으로 에스컬레이션해야 합니다. 이 부분이 테스트 시간 컴퓨팅 전략이 들어오는 곳입니다. 때로는 정답이 더 큰 모델이 아닙니다. 사고의 연쇄(chain-of-thought), 빔 서치(beam search), 또는 N개 중 최선 샘플링(best-of-N sampling)을 적용한 동일한 모델이 정답입니다. 최적의 구성은 모델뿐만 아니라 그것과 짝을 이루는 사고 알고리즘에 따라 달라집니다.

지속적 평가는 대부분의 기업들이 완전히 놓치는 부분이며, 진정한 방어력이 나타나는 곳입니다. 모델 선택은 일회성 결정이 아닙니다. 지속적인 최적화 문제입니다. 새로운 모델이 끊임없이 출시되고, 사용 사례는 진화하며, 성능은 침묵하는 방식으로 저하됩니다. 고객 서비스 봇이 해당 쿼리 유형에 잘못된 모델을 사용했기 때문에 40% 더 나쁜 답변을 주었다는 것을 알지 못할 것입니다. 단지 3개월 후에 이탈률을 보게 될 뿐이죠. 벤치마크가 아닌 실제 성능 데이터를 기반으로 모델-작업 조합에서 실제로 효과가 있는 것을 지속적으로 측정하고 라우팅을 조정하는 인프라가 필요합니다.

대부분의 회사들이 이 전환을 이루지 못한 이유는 최첨단 모델을 선택한 사람을 해고하지 않기 때문입니다. 이는 AI 분야의 “IBM을 구매한 사람은 해고되지 않는다”와 같은 논리입니다. 공급자 생태계는 마진이 나는 곳이 최첨단이기 때문에 그것을 밀어붙입니다. 그리고 실제로 다중 모델 아키텍처(라우팅 로직, 폴백 메커니즘, 모델 관리, 가시성)를 실행하는 데 필요한 오케스트레이션 인프라는 대부분의 회사에 존재하지 않습니다. 그들은 다중 모델로의 전환 비용과 불확실성이 최첨단 추론에 대한 지속적인 초과 지출보다 높게 느껴지는 지역 최적점에 갇혀 있습니다.

기업들이 AI 파일럿에서 프로덕션 등급 시스템으로 이동할 때 범하는 가장 큰 실수는 무엇인가요?

그들은 자신들의 선택이 정적이고 오래 지속될 수 있다고 가정합니다. 현실적으로 AI 기술 스택의 모든 계층은 빠르게 변화하고 있습니다. 기업들은 선택권과 유연성을 제공하는 결정을 내려야 합니다.

어떤 유형의 워크플로우에서 더 작고 작업 특화 모델이 대형 최첨단 모델을 능가하는 것을 보셨나요, 그리고 그것이 전략적으로 왜 중요한가요?

기본 회계, 텍스트 요약, 다양한 문서에서의 엔터티 추출과 같은 거의 모든 일반적인 일상 업무 작업에서 보았습니다. 우리는 수백 가지 작업 작업에 대해 SLM을 탐구했으며, 문제가 올바르게 구조화되었다면 거의 항상 이깁니다.

새로운 사용 사례에 AI를 배포하는 한계 비용이 감소한다고 쓰신 바 있습니다. 이것이 기업의 AI 채택 장기 경제학을 어떻게 변화시키나요?

버블 담론은 AI 수익이 새로운 모델에 비례하는 R&D 투자를 필요로 한다고 가정합니다. 그렇지 않습니다. 모델은 구축되었습니다. 인프라는 존재합니다. 각 추가 사용 사례는 프롬프트, 데이터 연결, 약간의 미세 조정일 뿐입니다. 또 다른 1억 달러의 훈련 실행이 아닙니다. 플랫폼이 성숙함에 따라 한계 비용 곡선은 아래로 굽습니다.

이는 새로운 철도나 통신망이 추가될 때마다 비용이 많이 들었던 철도나 통신과는 정반대입니다. AI에서는 엔진을 만드는 데 비용이 많이 들었습니다. 엔진에 *연결하는* 것은 저렴하고, 점점 더 저렴해지고 있습니다. 추론 비용은 2년 동안 약 1,000배 하락했습니다. 기업들에게 중요한 질문은 AI가 비용을 상쇄하는지 여부가 아닙니다. 수익 곡선이 비용 곡선을 압도하기 전에 동일한 인프라에 얼마나 많은 사용 사례를 쌓을 수 있는지입니다.

기술 팀들은 모델을 전환하거나, 미세 조정하거나, 특화된 소형 작업 모델을 구축할 시점을 결정하기 위해 어떤 신호를 사용해야 하나요?

신호는 반드시 기술적인 것만은 아닙니다. 성능이나 경제적 동인에 더 가깝습니다. 예를 들어, 모델을 전환하거나 모델을 미세 조정하거나 맞춤형 SLM을 구축하는 것이 모두 효과적일 수 있습니다. 결정은 지연 시간이나 비용 중 어떤 것을 최적화하는지, 작업이 얼마나 자주 실행되는지, 그리고 각 솔루션을 구축하고 배포하는 데 걸리는 시간에 따라 달라집니다.

가드레일, 모니터링, 거버넌스를 실제로 사용량에 따라 확장되고 병목 현상이 되지 않도록 어떻게 설계하나요?

대부분의 기업들이 범하는 실수는 거버넌스를 체크포인트, 즉 AI 워크플로우 위에 덧붙인 수동 검토 계층으로 취급하는 것입니다. 그것은 확장되지 않습니다. 사용량이 증가하는 순간 병목 현상이 됩니다.

거버넌스는 오케스트레이션 계층 자체에 내장되어야 합니다. 라우팅 인프라가 이미 모든 추론 호출(어떤 모델, 어떤 작업, 어떤 신뢰도 수준)을 평가할 때, 가드레일을 추가하는 것은 새로운 시스템이 아닌 한계 비용입니다. 어떤 모델이 쿼리를 처리할지 결정하는 동일한 계층이 정책을 시행할 수 있습니다: 호출 전 PII 필터링, 호출 후 출력 검증, 자동 캡처된 감사 추적, 부서별 비용 할당.

핵심 통찰은 기업들이 AI 시스템 *내부*에서 실패하는 것이 아니라, 시스템 *사이*에서(인계, 에스컬레이션, 예외 상황에서) 실패한다는 점입니다. 확장 가능한 거버넌스는 모든 AI 행동을 실행의 부산물로서 안전하고, 감사 가능하며, 반복 가능하게 만드는 제어 평면처럼 보입니다. 그것에 대한 장애물이 아니라요.

오늘날의 AI 환경을 메인프레임에서 PC로의 전환에 비유하셨습니다. 그 분산화가 시스템 계층에서 구축하는 스타트업들에게 무엇을 의미하나요?

우리는 지금 AI의 메인프레임 단계에 있습니다. OpenAI, Anthropic, Google의 대형 중앙 집중식 최첨단 모델들은 노력을 집중시키고 AI가 무엇을 할 수 있는지 보여주기 위해 필요했습니다. 그 단계는 효과가 있었습니다. 능력은 잘 이해되었습니다. 하지만 컴퓨팅이 중앙 집중화된 상태로 머물지 않았듯이, AI도 그렇지 않을 것입니다. 우리는 PC 시대, 즉 더 작고 특화된 모델들이 작업에 더 가까이 실행되는 분산 생태계로 진입하고 있습니다.

지출 데이터는 이미 이를 반영하고 있습니다. 기업 AI 투자는 이제 인프라와 애플리케이션 사이에 거의 균등하게 나뉘어 있으며, 애플리케이션 점유율이 더 빠르게 성장하고 있습니다. 확장은 더 큰 모델로의 수직적 확장이 아닌, HR, 법무, 마케팅, 운영, 재무를 가로지르는 측면 확장입니다.

시스템 계층에서 구축하는 스타트업들에게 이것은 한 세대에 한 번 찾아오는 기회입니다. 중앙 집중화된 세계에서는 모델 제공자가 대부분의 가치를 포착합니다. 분산화된 세계에서는 가치는 이기종 모델 생태계를 대규모로 배포하는 운영적 과제인 오케스트레이션, 라우팅, 평가, 특화를 해결하는 회사들로 이동합니다.

제 예측은 AI 추론의 약 25%가 최첨단 모델을 필요로 할 것이라는 점입니다. 그 회사들은

Unite.AI

NeuroMetric의 CEO이자 공동 창업자인 Rob May – 인터뷰 시리즈

You may like