์ฌ์ ๋ฆฌ๋
๋ ๋น ๋ฅธ AI์ ๋น๋ฐ์ ๋ ๋ง์ GPU๊ฐ ์๋๋ผ ๋ๆบ่ฝํ ๋คํธ์ํน์ด๋ค

AI는 의료, 금융, 제조, 소매 등 다양한 산업에서 가능성을 재정의하고 있습니다. 그러나 이러한 잠재력과 함께 대규모 인프라 수요도 함께 증가하고 있습니다.
전 세계의 조직들은 AI 훈련과 추론을 가속화하기 위해 전례 없는 규모로 GPU에 투자하고 있습니다. 2028년까지 Gartner는 예측에 따르면 생성적 AI IT 지출은 1조 달러를 초과할 것으로 예상합니다. Hyperion Research는 예측에 따르면 전체 HPC 시장 지출은 같은 기간에 100억 달러를 초과할 것으로 예상합니다. 그러나 이러한 투자에도 불구하고 많은 CIO들은 여전히 idle 상태인 GPU를 보게 됩니다. 이는 성능 저하와 함께 에너지 낭비 및 비용 증가로 이어집니다.
많은 AI 프로젝트가 중단되는 이유는 GPU 또는 컴퓨팅 파워가 부족해서가 아니라 네트워크가 따라가지 못해서입니다. 이는 대규모 AI를 위한 새로운 접근 방식을 필요로 합니다.
네트워크 병목 현상의 숨겨진 비용
네트워크가 데이터를 충분히 빠르게 전달할 수 없으면 조직은 다음과 같은 중요한 영향을 경험합니다:
- 네트워크 병목 현상으로 인한 GPU 및 CPU의 저활용도: GPU는 대규모 병렬 연산을 위해 설계되었지만 데이터가 전달되는 속도만큼만 처리할 수 있습니다. 네트워크 패브릭이 따라가지 못하면 GPU는 데이터를 기다리는 대신 계산을 수행하지 못합니다. CPU도 작업을 조정하고 데이터를 파이프라인을 통해 이동시키는 데 사용되므로 저활용도가 발생합니다.
- 비효율적인 네트워크로 인한 추론 성능의 불일치: 네트워크 비효율성은 데이터 흐름을 불균일하게 만듭니다. 이는 GPU가 전체 속도와 idle 상태 사이를 오가며 추론 성능을 예측할 수 없게 만듭니다.
- 네트워크 병목 현상으로 인한 더 긴 훈련 주기: AI 모델을 훈련하려면大量의 데이터를 서버, GPU, 저장소 사이에서 이동해야 합니다. 네트워크 병목 현상은 이 과정을 제한하며 GPU는 훈련하는 시간보다 대기하는 시간을 더 많이 보냅니다. 이는 제품 개발 및 배포 일정에 직접적인 영향을 미칩니다.
- 네트워크 비효율성으로 인한 에너지 및 운영 비용의 증가: GPU와周辺 인프라는 idle 상태일 때도 상당한 에너지를 소비합니다. 네트워크 비효율성으로 인해 GPU가 저활용되면 조직은 성능에 비례하지 않는 높은 에너지 비용을 지불해야 합니다. 운영 비용도 증가하며 시설은 피크 에너지 및 냉각 부하를 지원해야 하므로 컴퓨팅 처리량이 인공적으로 제한됩니다.
조직은 계속해서 더 많은 GPU에 투자할 수 있지만 올바른 네트워크 개선 없이 병목 현상과 비효율성을 더욱悪化시킬 것입니다.
네트워크를 가속기로 사용하는 새로운 패러다임
해결책은 네트워크 아키텍처를 완전히 재思考하는 것입니다. 네트워크를 가속기로 사용하는 모델은 전통적인 HPC 및 AI 성능에 대한 생각을 뒤집어 새로운 기능을 잠금 해제합니다.
GPU 및 CPU에 대한 추가 컴퓨팅에 초점을 맞추는 대신 “네트워크를 가속기로 사용하는” 접근 방식은 인터커넥트 패브릭을 성능乗数로 취급합니다. 이를 통해 네트워크는 고밀도 컴퓨팅을 더 잘 지원할 수 있으며 병목 현상을 제거하고 하드웨어 투자를 최적화하여 ROI를 가속화할 수 있습니다. 컴퓨팅을 더 빠르게 수행할 수 있으므로 조직은 더 큰 워크로드를 더 적은 공간에서 실행할 수 있으며 결과를 더 빠르게 얻을 수 있으며 추가 하드웨어에 대한 과도한 비용을 피할 수 있습니다.
네트워크를 가속기로 사용하는 모델의 작동 방식
이 모델은 어떻게 작동하며 조직은 네트워크를 수동적인 데이터 이동자에서 활성적인 컴퓨팅 가능자로 전환하여 이점을 실현할 수 있나요? 네트워크는 다음과 같은 네 가지 주요 기능을 제공합니다.
- 하드웨어 수준에서의 보장된 전달: 전통적인 네트워크는 CPU 및 GPU에 패킷 추적, 재전송 및 재정렬 오버헤드를 부과합니다. 이는 훈련 또는 추론에 사용할 수 있는 컴퓨팅 사이클을 소비합니다. 하드웨어 수준에서 전달을 보장하는 네트워크 패브릭을 사용하면 이러한 작업이 컴퓨팅 노드에서 이동되어 예측 가능하고 일관된 성능이 제공되며 프로그래밍 및 클러스터 오케스트레이션이 간소화됩니다.
- 지능형 동적 라우팅: 전통적인 라우팅은 고정 또는 최적화되지 않은 경로에 의존하여 네트워크의 일부가 사용되지 않거나大量의 데이터가同时 흐를 때 병목 현상을 생성할 수 있습니다. 지능형 라우팅은 모든 사용 가능한 경로를 동적으로 활용하여 트래픽 흐름을 최적화합니다. 이는 다중 활성 경로를 통해 더 높은 처리량을 제공하며 최적의 경로 선택을 통해 더 낮은 지연 시간을 제공하며 네트워크 트래픽이 자동으로 링크 또는 노드 실패 주위로 재路由되므로 회복성이 향상됩니다. 이는 idle 시간을 줄이고 GPU에 데이터를 계속 공급합니다.
- 링크 수준의 자동 재시도: 패킷이 손실되거나 손상되면 표준 네트워크는 컴퓨팅 레이어에 의존하여 이를 감지하고 재전송합니다. 이는 상당한 지연을 초래하며 컴퓨팅 흐름을 중단합니다. 네트워크 패브릭에 내장된 링크 수준의 자동 재시도 기능은 네트워크 내에서 재전송을 처리합니다. 이는 컴퓨팅 노드에 대한 패킷 손실이 거의 투명해지며 재전송이 로컬에서 발생하므로 네트워크 스택 전체에서 지연의 영향을 줄입니다. 또한 복잡한 애플리케이션 수준의 오류 처리가 필요하지 않습니다. 자동 재시도 기능은 중단되지 않은 효율적인 분산 컴퓨팅을 보장하며 이는 수천 개의 GPU를 확장할 때 중요합니다.
- 네트워크 내 컴퓨팅: 전통적인 네트워킹 패브릭은 주로 데이터를 이동시키지만 네트워크 내 컴퓨팅은 네트워크를 공동 처리기로 만들어 특정 연산을 네트워크 자체에서 수행할 수 있습니다. NVIDIA SHARP는 네트워크 스위치 자체에서 감소 연산을 허용하는 예입니다. 이는 분산 연산을 가속화하며 데이터가 네트워크를 통해 전달될 때 집계되므로 지연 시간을 줄이고 컴퓨팅 노드가 집계 작업을 수행하는 사이클을 더 많이 사용할 수 있으므로 효율성이 향상됩니다.
이러한 기능은 다음 세대 AI 및 HPC 환경을 확장하는 데 필수적인 “네트워크 주도 컴퓨팅”의 기초를 구성합니다. 네트워크 중심 접근 방식은 다음과 같은 구체적인 이점을 제공합니다.
진정한 네트워크 파워를 발견하세요
대규모 AI는 컴퓨팅 문제가 아니라 시스템 수준의 엔지니어링課題이며 네트워킹이 그 중심에 있습니다. 네트워크를 가속기로 사용하면 컴퓨팅을乘数로 만듭니다. 이를 통해 HPC 및 AI 데이터 센터는 성능을 희생하지 않고 밀도를 확대할 수 있습니다. 이는 기존 인프라에서 최대 가치를 추출하여 더 빠르게 ROI를 실현하며 하드웨어에 대한 과도한 비용을 피할 수 있습니다.
병목 현상을 제거하고 활용도를 높이고 예측 가능한 성능을 제공함으로써 더智能한 네트워킹은 더 생산적인 AI 팀, GPU 인프라에 대한 더好的 ROI, 더 빠른洞察力, 혁신, 시장 리더십을 가능하게 합니다. 이는 조직이 네트워크의 진정한 가능성을 발견하고 새로운 방식으로 AI의 힘을 활용할 수 있도록 합니다.












