์ฌ์ ๋ฆฌ๋
AI์ ๊ฐ์ฅ ํฐ ์ ํ์ธ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ๊ฒฝ์ ์ฐ์๋ก ์ ํํ๊ธฐ ์ํ 5๋จ๊ณ

過去 몇 년 동안, AI 인프라는 다른 모든 메트릭보다 컴퓨팅에 중점을 두었습니다. 더 많은 가속기, 더 큰 클러스터 및 더 높은 FLOPS가 GPU를 최대한 활용하기 위한 대화를 주도했습니다. 이 접근 방식은 모델 진행이 주로 훈련 규모에 의존할 때는 의미가 있었습니다. 그러나 이제 AI 프로덕션 배포가 우선순위가 되면서 새로운 제약 조건에 초점을 맞춰야 합니다. 즉, 메모리입니다.
오늘날, 많은 어려운 AI 제약 조건은 메모리 용량, 대역폭, 지연 시간 및 시스템을 통해 데이터를 이동하는 시간과 에너지 비용에서 나타납니다. 컨텍스트 창은 계속 확장되고 있습니다. Anthropic과 같은 회사에서는 표준 가격으로 백만 토큰 창을 제공하고 있습니다. 추론 워크로드가 증가하고 있습니다. 다중 에이전트 시스템의 성장은 AI 시스템이 한 단계에서 다음 단계로 더 큰 데이터 볼륨을 전달하는 것을 의미합니다. 운영자는 계속해서 더 많은 GPU를 추가하려고 시도할 수 있지만 이러한 시스템은 가속기를 효율적으로 공급하기 위해ufficient RAM이 부족하기 때문에 예상하는 성능에 도달하지 못합니다.
이 시프트는 하이퍼스케일러와 데이터 센터 운영자 모두의 처리량과 비용에 영향을 미칩니다. 메모리가 제한 요소가 되면 조직은 종종 비싼 하드웨어를 과잉 프로비저닝하여 GPU 용량을 낮추고 더 높은 전력 및 인프라 비용을 흡수합니다. AI 규모의 다음 단계는 원시 컴퓨팅을 추가하는 것보다 생산 AI가 실제로 실행되는 방식에 맞는 메모리 아키텍처를 구축하는 데 덜 의존할 것입니다.
인프라 리더가 메모리 수요의不断 증가에 대비하기 위해 지금 취할 수 있는 5단계입니다.
1. 실제 병목 현상을 측정하기 시작하십시오
많은 조직은 여전히 컴퓨팅 우선 렌즈를 통해 AI 성능을 평가합니다. 클러스터 사용률, 가속기 수 및 상위 처리량을 추적한 다음 추가 가속기를 추가하여 개선이 이루어질 것이라고 가정합니다. 그러나 이러한 관점은 종종 실제 문제를 놓치게 됩니다.
메모리 압력은 종종 가속기 정지, 더 높은 토큰 지연 시간 및 로드下的 불일치한 처리량에서 나타납니다. 가속기는 다른 메모리 계층, 다른 서버 또는 응용 프로그램의 다른 단계에서 데이터가 도착하기를 기다릴 때 사용되지 않는 것으로 보일 수 있습니다. 추론은 KV 캐시 크기가 증가하고 더 많은 동시 세션이 대역폭을 경쟁하기 때문에 이 문제를 더 가시적으로 만듭니다.
운영자는 바이트당 토큰 수, 가속기 정지 시간 및 CPU, GPU 및 인접 메모리 계층 전반에 걸친 메모리 액세스 패턴에 대한 더 나은 가시성을 필요로 합니다. 또한 메모리 관련 지연을 네트워크 또는 저장소 문제와 분리할 수 있는 파이프라인 추적이 필요합니다. 이러한 가시성이 없으면 팀은 실제 느린 원인의 근본 원인을 해결하지 않고 컴퓨팅에 더 많은 돈을 쓸 위험이 있습니다.
2. 더 많은 용량을 추가하기 전에 데이터 이동을 줄이십시오
대규모 AI 시스템에서 데이터를 이동하는 것은 데이터를 처리하는 것만큼 많은 오버헤드를 생성할 수 있습니다.
이것은 특히 추론에서 사실입니다. 컨텍스트 창이 확장됨에 따라 KV 캐시는 스택에서 시스템 메모리의 가장 큰 소비자 중 하나가 될 수 있습니다. 다중 테넌트 제공 및 다중 에이전트 워크플로는 더 많은 것을 추가할 수 있습니다. 첫 번째 단계에서는 출력을 생성한 다음 다른 단계에서 이를 소비하고 인프라는 이 핸드오버를 처리하기 위해 GPU 간, 서버 간 또는 프레임워크 수준의 직렬화를 통해 큰 데이터 블록을 복사합니다.
이러한 복사본은 실제 비용을 초래합니다. 대역폭을 소비하고 지연 시간을 추가하며 비싼 컴퓨팅 리소스를 다음 전송이 완료되기를 기다리게 합니다. 또한 운영자는 실제로 워크로드가 필요로 하는 것보다 더 많은 높은 비용의 메모리를 구매하도록 유도합니다.
추가 가속기를 투자하기 전에 팀은 시스템에서 데이터가 불필요하게 이동하는 위치를 식별해야 합니다. GPU 간 전송, 서버 간 복사 및 에이전트 파이프라인 전반에 걸쳐 중간 상태의 반복적인 이동은 좋은 시작점입니다. 많은 환경에서 불필요한 이동을 줄이는 것이 또 다른 서버보다 더 많은 사용 가능한 성능을 제공합니다.
3. 워크로드 동작을 중심으로 메모리 계층을 구축하십시오
AI 인프라는 운영자가 메모리를 단일 소스로 처리하는 것을 중단하고 계층으로 처리하여 별도의 역할을 갖도록 하는 경우 더 잘 작동합니다.
가장熱한 데이터는 가속기에서 가장 가까이 유지해야 합니다. 즉, 가장 낮은 지연 시간과 가장 높은 대역폭을 요구하는 작업 세트입니다. 다른 활성 버퍼 및 자주 액세스되는 상태는 DRAM에 있을 수 있습니다. 절대 속도보다 규모가 더 필요한 더 큰 구조는 풀링된 메모리로 이동할 수 있습니다. 더 холод한 데이터 및 менее 활성 모델은 스택의 더 아래에 속합니다.
이 접근 방식은 팀이不断으로 변경되는 데이터, 여러 프로세스가 공유하는 데이터 및 데이터가 적당한 지연 시간 트레이드오프 없이 서비스 품질에 영향을 미치지 않는지 여부를 이해해야 합니다. 너무 많은 배포는 여전히 가장 빠른 HBM 계층으로 모든 것을 푸시하는 것을 기본값으로 사용합니다. 이는 더 안전하다고 느끼기 때문입니다. 그러나 이러한 접근 방식은 비용을 높이고 일반적으로 효율성을 낮춥니다.
계층화된 메모리 전략은 운영자가 성능과 경제 모두에 대한 더 많은 제어를 제공합니다. 생산 AI에서 이는 핵심 설계 요구 사항이 되고 있습니다.
4. 에이전트 AI를 위한 아키텍처의 일부로 공유 메모리를 처리하십시오
다중 에이전트 AI는 단편화된 메모리 설계의 비용을 높이고 있습니다.
많은 에이전트 시스템에서 한 에이전트는 다른 에이전트가 즉시 사용하는 출력을 생성합니다. 세 번째 서비스에서는 출력을 랭크하거나, 컨텍스트를 추가하거나, 다른 모델로 라우팅할 수 있습니다. 각 단계에서 동일한 상태의 새 복사본을 생성하면 트래픽이 빠르게 증가합니다. 컨텍스트가 증가함에 따라 복사된 데이터의 크기도 함께 증가합니다. 시스템은 데이터를 처리하는 것보다 정보를 이동하는 데 더 많은 시간을 보냅니다.
이것이 공유 메모리가 특히 중요해지는 곳입니다. 특히 공유 KV 캐시 및 여러 에이전트 또는 서비스에서 액세스해야 하는 다른 상태입니다. 공유 메모리는 중복 복사본을 줄이고, 네트워크 트래픽을 줄이고, 전체 애플리케이션 경로 전반에 걸쳐 사용률을 개선할 수 있습니다. 또한 공유 메모리를 통해 에이전트 시스템은 다른 노드 또는 에이전트가 공유 메모리를 재사용할 수 있으므로 효율적으로 확장할 수 있습니다.
하이퍼스케일러의 경우 이것은 더 이상 에지 케이스가 아닙니다. 에이전트 AI가 성숙함에 따라 공유 메모리는 효율적인 배포에 대한 실용적인 요구 사항이 되고 있습니다.
5. 프로덕션 인프라를 위한 CXL 채택
過去 몇 년 동안, 산업은 CXL을 아직 성숙하지 않은 것으로 보았습니다. 그러나 이제 3.x 하드웨어가 곧 사용 가능해지면서 CXL은 기능이 완전하고, 하위 호환되며, 프로덕션 워크로드를 처리할 준비가 되었습니다.
CXL은 프로덕션 메모리 확장, 풀링 및 공유 메모리 아키텍처에 대한 실용적인 옵션으로 간주되어야 합니다. 특히 추론을 중심으로 하는 환경에서 더 유연한 메모리 확장 및 경제성이 더 좋은 환경에서 이는 심각한 인프라 계획에 포함되어야 합니다.
이는 모든 워크로드가 CXL 기반 메모리로 이동해야 한다는 것을 의미하지 않습니다. 로컬 메모리는 가장熱한 데이터 및 가장 지연 시간에 민감한 데이터에 대해 여전히 필수적입니다. 그러나 운영자는 더 이상 행동하기 전에 표준의 미래 버전을 기다릴 필요가 없습니다. 더 유용한 질문은 CXL이 오늘날 실제 프로덕션 문제를 해결할 수 있는 곳입니다.
가장 분명한 기회는 메모리 확장, 풀링된 메모리 및 공유 메모리 설계에서 불필요한 복사본을 줄이는 것입니다. 이러한 사용 사례는 현재의 압박 지점과 직접 일치합니다. 즉, 증가하는 KV 캐시 요구 사항, 에이전트 간 데이터 전송 및 총 소유 비용을 더 높이지 않고 GPU 사용률을 개선하는 필요성입니다.
운영자는 여전히 주의 깊게 설계해야 합니다. 지연 시간, 예측 가능성 및 소프트웨어 지원은 여전히 중요합니다. 메모리 관리 정책은 데이터를 올바른 시간에 올바른 계층에 배치해야 합니다. 그러나 이러한 것은 구현 질문이며, 계획을 연기할 이유는 아닙니다.
XCENA에서 우리는 메모리, 데이터 이동 및 사용률을 프로덕션 AI 인프라의 중심 제약 조건으로 간주합니다. 이것이 우리가 CXL 기반 컴퓨팅 메모리 및 불필요한 복사본을 줄이고, 공유 액세스를 지원하며, 운영자가 비싼 컴퓨팅 리소스를 더 잘 활용하도록 도와주는 아키텍처에 중점을 두는 이유입니다.
산업은 메모리를 실제 AI 진행의 엔진 뒤에 있는 지원 리소스로 간주해왔습니다. 그러나 이러한 관점은 더 이상 프로덕션 배포 현실에 맞지 않습니다. 메모리는 이제 스택의 모든 수준에서 사용률, 효율성 및 비용을 형성합니다. 이 시프트를 조기에 인식하는 운영자는 성능뿐만 아니라 실제로 세계에서 AI를 확장하는 효율성 측면에서 측정되는 우위를 가지게 될 것입니다.












