사상 리더

AI 인프라는 고장났습니다. 토큰이 새로운 가치의 척도가 됩니다.

Published May 11, 2026

Gaurav Shah VP of Business Development & Strategy, NeuReality

AI 산업은 측정 문제를 가지고 있습니다.

수년 동안 성공은 컴퓨팅에 대한 접근으로 정의되었습니다. 즉,谁가 가장 많은 GPU를 가지고 있는지, 가장 큰 클러스터를 가지고 있는지, 가장 빠른 훈련을 하는지 등입니다. 수십억 달러가 인프라에 투자되었습니다 이 경쟁에서 승리하기 위해.

하지만 AI가 실험에서 생산으로 이동함에 따라 이러한 모델은 깨지기 시작합니다.

기업은 GPU를 사지 않습니다. 그들은 추론 능력도 사지 않습니다. 그들은 요약, 추천, 의사 결정, 콘텐츠와 같은 결과를 사는 것입니다. 즉, 그들은 토큰을 사는 것입니다.

그러나 대부분의 AI 인프라는 여전히 컴퓨팅이 최종 목표인 것처럼 설계되었습니다. 하지만 그렇지 않습니다.

AI의 실제 가치 단위는 토큰입니다. 그리고 이 변화를 먼저 인식하는 회사들이 시장의 다음 시대를 정의할 것입니다.

AI 토큰 공장의 부상

토큰이 제품이라면, AI 인프라는 생산 시스템처럼 작동해야 합니다. 즉, 과학 프로젝트가 아니라 생산 시스템입니다. 이것이 AI 토큰 공장의 개념입니다.

AI 토큰 공장은 단순히 소프트웨어 스택의 또 다른 계층이 아닙니다. 그것은 스택 자체의 재思考입니다. 분리된 모델 성능이나 원시 하드웨어 사용率를 최적화하는 대신, 효율적인 토큰 생산을 위한 하나의 결과에만 집중합니다.

오늘날의 모델은 본질적으로 GPU 임대입니다. 조직은 비싼 하드웨어를 프로비저닝하고, 단편적인 툴링을 함께 연결하고, 결국에는 사용률이 투자에 대한 정당성을 제공하기를 바랍니다.

토큰 공장은 이 방정식을 완전히 뒤집습니다. 그것은 인프라가 아니라 출력을 제공하며, 효율성을 핵심 설계 원칙으로부터 시작합니다. 이것은 점진적인 진행이 아닙니다. 이것은 인프라를 용량에서 생산으로 바꾸는 것입니다.

구형 모델이 유지될 수 없는 이유

현재의 AI 인프라 모델은 단순히 비효율적일 뿐만 아니라 점점 더 지속 가능하지 않습니다.

GPU 부족이 첫 번째 균열을 노출했습니다. 수요는 공급을 초과하며, 조직은 단편적인 다중 벤더 배포로 강제됩니다. 일시적인 해결책으로 시작된 것이 빠르게 표준이 되었습니다. 즉, 운영 계층 없이 단편적인 환경을 함께 연결하는 것입니다.

문제는 대부분의 기존 스택이 이 현실에 대해 설계되지 않았다는 것입니다. 그들은 효율적으로 아키텍처를 최적화하지도, 실시간으로 적응하지도, 성능 및 비용에 대한 명확한 가시성을 제공하지도 않습니다.

결과적으로 복잡성은 규모보다 빠르게 증가합니다.

새로운 모델, 프레임워크, 가속기 또는 클라우드 플랫폼은 운영 오버헤드의 또 다른 계층을 도입합니다. 팀은 성능 및 비용에 대한 개선보다 오케스트레이션, 호환성, 라우팅, 스케줄링 및 관찰 가능성 문제를 관리하는 데 엄청난 시간을 보냅니다.

스케일링의 이점은 빠르게 조정 문제가 됩니다.

同时, 경제는 무시하기 어렵게 됩니다. 초기 AI 배포는 성장 및 실험을 통해 비효율성을 숨길 수 있었습니다. 하지만 그 창은 닫히고 있습니다.

이사는 더 어려운 질문을 합니다. 추론 비용은 왜 så 예측할 수 없습니까? GPU 사용률은 왜 아직도 så 낮습니까?조직은 왜 종종闲置하는 하드웨어에 대한 프리미엄 가격을 지불합니까? 인프라 지출을 비즈니스 결과와 어떻게 연결할 수 있습니까?

答案은 간단합니다. 시스템은 접근성을 위해 설계되었지, 효율성을 위해 설계되지 않았습니다.

컴퓨팅 중심에서 토큰 중심 아키텍처로

토큰 공장으로의 전환은 철학적이며 아키텍처적인 측면에서 이루어집니다.

첫째, 시장은 GPU-as-a-Service에서 결과-as-a-Service로 이동하고 있습니다. 고객은 인프라를 관리하고 싶어하지 않습니다. 그들은 보장된 결과를 원합니다. 논리적인 최종 상태는 출력에 기반한 소비입니다.

둘째, 단편적인 스택은 통일된 제어 평면으로 대체되고 있습니다. 이질적인 환경에서 가시성과 제어는 모든 것입니다. 토큰 공장은 사용, 비용, 성능에 대한 실시간 통찰력을 제공하며 행동할 수 있는 능력을 제공합니다. 조직은 다음을 이해해야 합니다.誰가 토큰을 생성합니까? 어떤 비용으로? 어떤 하드웨어에서? 어떤 워크로드에서? 그리고 어떤 효율성으로? 이러한 답변 없이 최적화는 추측이 됩니다.

마지막으로, 업계의 초점은 실행에서 지속적인 최적화로 이동하고 있습니다. 도전은 단순히 모델을 실행하는 것이 아니라, 모델을 지능적으로 실행하는 것입니다. 즉, 조직은 다음을 결정합니다. 어떤 워크로드는 어떤 하드웨어에서 실행되어야 합니까? 어떻게 하면 처리량을 최대화하면서 비용을 제어할 수 있습니까? 어떻게 하면 토큰 사용이 제어되지 않는 것을 방지할 수 있습니까?

토큰 공장은 이러한 질문을 첫 번째 순위 문제로 다룹니다.

오늘날의 AI 배달 모델이 부족한 이유

전통적인 AI 스택(하드웨어 벤더, 클라우드 플랫폼, 추론 서비스)은 주로 빠른 성장에 대한 것이지, 체계적인 효율성에 대한 것이 아닙니다.

각 계층은 가치가 있지만 비용, 추상화, 운영 단편화도 있습니다. 결과는 중첩된 마진, 제한된 투명성 및 증가하는 벤더 잠금이 있는 시스템입니다. 조직은 시스템 전체에서 최적화하는 대신 실로에서 최적화합니다.

토큰 공장은 본질적으로 이 모델에 도전합니다.

하드웨어를 가치 전달에서 분리함으로써, 토큰 공장은 종단 간 최적화를 가능하게 합니다. 워크로드는 유연하게 환경을 이동할 수 있습니다. 아키텍처는 대규모 다시 작성 없이 진화할 수 있습니다. 효율성은 측정 가능, 관리 가능, 지속적으로 개선 가능합니다.

이것은 기업과 새로운 클라우드가 하이퍼스케일러와 더 효과적으로 경쟁할 수 있는 방법입니다. 규모를 일치시키는 것이 아니라, 효율성에서 우위를 점하는 것입니다.

누가 승리할 수 있는가

이 전환의 가장 파괴적인 측면은 누구를 강화하는가입니다. 데이터 센터 또는 심지어 GPU를 소유할 필요가 없습니다. 토큰 공장을 운영하기 위해 중요한 것은 오케스트레이션, 최적화, 전달에 대한 제어입니다.

이것은 더广い 범위의 플레이어를 가능하게 합니다.

대규모 지속적인 AI 워크로드를 가진 기업.
특정 수직 또는 사용 사례를 최적화하는 새로운 클라우드 제공자.
스택을 이동하는 인프라 벤더.

이 모델에서 경쟁 우위는 컴퓨팅을 쌓는 것이 아니라, 토큰을 더 잘, 더 빠르게, 더 저렴하게 생성하는 것입니다.

새로운 전장: 토큰당 비용

다음 단계의 AI 경쟁은 모델 품질만으로 승리되지 않을 것입니다. 효율성으로 승리할 것입니다. 더 구체적으로, 토큰당 비용으로 승리할 것입니다.

누가 동일하거나 더 나은 출력을 더 낮은 비용으로 제공할 수 있습니까? 누가 인프라 지출이 제어되지 않는 채로 확장할 수 있습니까? 누가 AI를 예측 가능하고 마진이 양性的 비즈니스로 전환할 수 있습니까?

이것은 인프라 질문이 아닙니다. 생산 질문입니다.

미래는 GPU에 빌드되지 않습니다

GPU는消え去りません. 하지만 더 이상 이야기는 아닙니다. 토큰이 이야기입니다.

컴퓨팅에 집중하는 조직은 비용이 증가하고 돌아오는 것이 감소합니다. 토큰 중심 시스템으로 전환하는 조직은 근본적으로 다른 모델을 잠금할 것입니다. 즉, 인프라를 결과와 연결하고 비용을 가치와 연결하는 모델입니다.

AI 토큰 공장은 먼 개념이 아닙니다. 그것은 시장의 필연적인 진화입니다.真正的问题은누가 먼저 구축하고누가 남겨지는지입니다.

Gaurav Shah VP of Business Development & Strategy, NeuReality

가우라브 샤는 뉴리얼리티의 비즈니스 개발 및 전략 부사장으로, 고객들이 금융, 헬스케어, 정부 등 다양한 분야에서 AI 추론을 혁신하고 채택을 가속화하는 노력에 앞장서고 있습니다. 가우라브는 3십 년 이상의 기술 산업 경험을 가지고 있으며, NVIDIA, Marvell, Tenstorrent, GlobalFoundries에서 제품 마케팅 및 관리 역할을 수행했습니다. 그는 샌프란시스코 베이 에リア에 기반을 두고 있습니다.