인터뷰
Darrick Horton, TensorWave의 COO – 인터뷰 시리즈

Darrick Horton, TensorWave의 COO는 AI 인프라, 클라우드 컴퓨팅, 고급 하드웨어 시스템에 대한 심오한 경험을 가진 기술 실행자이자 기업가입니다. 데이터 센터 아키텍처, 반도체 기술, 고성능 컴퓨팅을 아우르는 배경을 가지고 있으며, 그는 차세대 AI 컴퓨팅 플랫폼을 확장하는 데 중추적인 역할을 했습니다. TensorWave의 리더십에 앞서, Horton은 Lockheed Martin의 Skunk Works에서 핵융합 연구를 포함한 고급 엔지니어링 이니셔티브에서 일했으며 NASA가资助하는 플라즈마 물리학 및 천체 물리학 프로젝트에 기여했습니다. 그의 경력은 복잡한 대규모 기술적 도전을 해결하고 그것들을 새로운 기술을 위한 실용적인 인프라 솔루션으로 번역하는 일에 일관된 초점을 반영합니다.
TensorWave는 AMD GPU로 구동되는 고성능 클라우드 컴퓨팅을 제공하는 AI 인프라 회사로, 더 폐쇄적인 AI 생태계에 대한 대안으로 자리 잡고 있습니다. 2023년에 설립되어 라스베이거스에 본사를 둔 이 회사는 고급 AI 모델을 훈련하고 배포하기 위한 대규모 GPU 클러스터를 구축하며, 성능, 유연성, 비용 효율성에 중점을 두고 있습니다. 오픈 하드웨어 및 소프트웨어 생태계를 활용하여 TensorWave는 기업, 연구자, 개발자에게 강력한 AI 컴퓨팅 리소스에 대한 접근을 확대하여 전통적인 벤더 잠금을 제한하지 않고 확장 가능한 AI 워크로드를 가능하게 합니다.
Nvidia는 대부분의 GPU 시장을 지배하고 있습니다. 왜 AMD에 모든 것을 투자하기로 결정했으며, 이 선택은 TensorWave와その 고객에게 어떤 이점을 제공합니까?
ChatGPT가 출시된 후, AI에 대한 수요가 급격히 증가했습니다. GPU가 빠르게 매각되었으며, NVIDIA는 거의 유일한 옵션이었으며, 비용을 감당할 수 있었다면 말입니다. 그 부족은 대체재에 대한巨大的 관심을 불러일으켰습니다. 이제 초기의 열기가 지나간 후, NVIDIA의 지배를 도전하는 솔루션을 제공할 수 있는 실제 기회가 있습니다. 그 솔루션은 접근성이 용이하고, 비용 효율적이며, 사용하기 쉽습니다.
스타트업으로서, 우리는 항상 강력한 초점과 목적을 가진 비즈니스 결정을 내렸습니다. 그 이유로 우리는 NVIDIA를 실험하지 않았으며, AMD에서 우리의 능력을 계속 구축했습니다. 우리 회사의 다음 단계는 우리가 집중한 능력에 대해 더 나아가기 위한 것입니다. 그래서 누구든지 AI와 관련하여 의미 있는 것을 할 수 있습니다. AMD는 실제 제조 규모, 오픈 소프트웨어 포지션, 현대적인 AI를 위한 메모리 우선 로드맵을 가진 신뢰할 수 있는 대안입니다.
TensorWave의 AI 인프라 접근 방식은 전통적인 GPU 클라우드 공급자와 어떻게 다릅니까?
우리의 차별화는 간단합니다. 우리는 규모에서 AMD 전용 클라우드이며, AI 컴퓨팅에서 선택을 회복시키고, NVIDIA의 지배를 깨뜨리며, 접근성을 민주화하는 것을 목표로 합니다. 그러나 그것은 또한 우리의 에토스와 시장에真正한 대안을 제공하는 데 대한 우리의 헌신입니다. 먼저, 우리는 AMD 기반의 예외적인 인프라를 제공하고자 합니다. 그 다음으로, 우리는 Models-as-a-Service, AI-as-a-Service와 같은 최상위 서비스를 확장하여 모든 것을 더 간단하게 만듭니다.
AMD 전용 클라우드로서, 우리는 AMD를 위해 특별히 구축된 소프트웨어 경험을 가지고 있습니다. 이 초점은 우리가 실리콘, 네트워킹, 소프트웨어를 종단 간으로 최적화할 수 있도록 해주어, 팀이 필요할 때 확장할 수 있도록 합니다.
AMD와의 전략적 파트너십은 TensorWave의 성장과 차별화에 어떤 역할을 하나요?
그것은 기초적입니다. AMD는 TensorWave에 투자했으며, MI300X Instinct 출시에 우리를 초대했으며, 우리는 계속해서 하드웨어, 소프트웨어 활성화, 생태계 성장에 대해 긴밀하게 협력하고 있습니다. AMD 전용 클라우드라는 것은 우리가 각 Instinct 세대와 함께 빠르게 이동할 수 있으며, 우리 시장에서 대안을 제공하는 살아있는 연구실이 된다는 것을 의미합니다. 우리의 AMD 전용 차별화는 우리가 AI 인프라 시장에서 달성하기 어렵습니다. 그들의 파트너십은 우리가 간격을 빠르게 닫고, 새로운 GPU에서 먼저 출하하며, 규모에서 실제 성능을 게시할 수 있도록 합니다.
GPU 접근은 여전히 AI 팀을 위한 주요 병목 현象입니다. TensorWave는 이 도전을 어떻게 해결하고 있습니까?
우리는 먼저 공급 독립성을 통해 이 병목 현상을 해결합니다. AMD를 구축함으로써, 우리는 다른 칩 제조업체의 공급 제한의 최악을 피하고, 가용성을 고객에게 전달합니다. AMD를 통한 공급 독립성은 우리의 고객이 다른 사람과 같은 대기열에 갇히지 않도록 합니다.
AI 인프라 생태계의 격차는 많은 플레이어가 유사한 솔루션을 구축하고 있기 때문에 발생하며, 이는 많은 중복을 생성합니다. 이는 시장 전반에서 발생하는 일에 대한 인식 부족에서 종종 발생합니다. 격차를 닫는 첫 번째 단계는 누가 무엇을 하고, 협력의 기회가 어디에 있는지, 경쟁이 어떻게 혁신을 驅動할 수 있는지, 궁극적으로 생태계가 어떻게 전체적으로 개선될 수 있는지 이해하는 것입니다. AI 인프라 시장에서 고유한 격차 중 하나는 전력입니다. GPU가 사용 가능하더라도, 많은 AI 애플리케이션을 지원하기 위한 충분한 에너지가 없을 수 있습니다. 이러한 자원 도전을 해결하는 것이 지속 가능한 성장과 혁신을 가능하게 하는 우리의 핵심입니다.
직접 액체 냉각 및 UEC 준비 네트워킹(Universal Ethernet Consortium)이 성능과 비용 효율성을 어떻게 향상시킵니까?
직접 액체 냉각 및 UEC 준비 네트워킹은 현대적인 AI 클라우드를 경제적으로 실행 가능한 규모에서 필수적인 요소이며, 둘 다 TensorWave를 설계하는 데 중심이 됩니다.
직접 액체 냉각에 관하여:最新의 가속기 세대, AMD의 MI355X 및 MI455X는 효율적으로 처리할 수 있는 열 범위를 가지고 있지 않습니다. 우리는 1400W 이상의 TDP를 말하는 것입니다. 직접 액체 냉각은 콜드 플레이트 또는 잠수식 설계를 통해 원천에서 열을 제거하여, 고객에게 세 가지 일을 합니다. 첫째, 그것은 상당히 높은 랙 밀도를 가능하게 합니다. 120-300kW 이상의 랙당 대신 30에서 40kW로, 이는 발자국을 압축하고 메가와트당 부동산 및 전력 배포 비용을 절감합니다. 둘째, 그것은 PUE를 1.1로駆動합니다. 1.4에서 1.5까지의 레거시 공기 냉각 시설과 비교하여, 우리의 규모에서는 연간 수십억 달러의 공공 유틸리티 비용을 절감합니다. 셋째, 그리고 종종 과소평가되는 것은, 실리콘을 더 낮고, 더 안정적인 접합 온도에서 유지하여, 긴 훈련 실행 중에 지속적인 클록 속도를 유지하고, 하드웨어의 유용한 수명을 연장합니다. 그 마지막 점은 6년 자산을 보증할 때 엄청난 중요성을 갖습니다.
UEC에 관하여: AMD가 공동 설립하여 2025년에 1.0에 도달한 Ultra Ethernet Consortium 사양은 실제로 중요한 메트릭에서 InfiniBand을满足하거나 초과하는 오픈, 상업용 실리콘 패브릭을 제공합니다. 분산 훈련에서 집합체에 대한 꼬리 지연, 경쟁하에서 효과적인 대역폭, 10만 개 이상의 GPU 임계값을 넘어서는 확장 동작. 비용 이야기는 구조적입니다. 이더넷에는 실제로 중요한 메트릭에서 경쟁하는 가격에 대한 반도체를 제공하는 반도zen개의 신뢰할 수 있는 상업용 실리콘 벤더가 있습니다. 100MW 사이트의 경우, UEC 준비 네트워킹을 사용하여专有 패브릭을 선택하는 것은 일반적으로 9자리 CAPEX 결정이며, 작동적인 이점은 복합적으로 증가합니다. 우리의 네트워크 엔지니어는 이미 이더넷을 알고 있습니다.
이러한 선택을 함께하면, 우리는 레거시 클라우드보다 더 나은 훈련 경제를 제공할 수 있습니다. 고객은 더 높은 효과적인 FLOPs를 더 낮은 비용으로, 더 예측 가능한 대형 작업의 스텝 시간, 그리고 모델이 확장할 때 명확한 런웨이를 볼 수 있습니다.对于 우리에게, 그것은 더 방어 가능한 비용 구조와真正로 경쟁력 있는 요금 카드를 제공하는 유연성을 의미합니다.
고객이 TensorWave를 사용하여 대규모 AI 모델을 훈련하는 예를 공유할 수 있습니까?
TensorWave 고객은 GPU 부족, 벤더 잠금, 또는 비용 폭발 없이 고성능 AI 컴퓨팅을 필요로 합니다. TensorWave는 독점적인 AMD 클라우드를 제공합니다. 오픈, 메모리 최적화, 프로덕션 준비가 되어 있으며, 팀에게 확장 가능한 AI 인프라를 제공하여 접근성이 용이하고, 유연하며, 비용 효율적입니다.
예를 들어, Modular는 TensorWave의 AMD GPU 인프라에서 MAX 추론 스택을 실행하기로 선택했습니다. TensorWave는 대규모 AI 추론을 위한 비용-성능 경제를 크게 개선합니다. Modular의 MAX를 TensorWave의 AMD 컴퓨팅에서 실행하면, 다른 GPU 스택보다 토큰당 70% 낮은 비용, 57% 빠른 처리량, 그리고 전체 비용을 달성할 수 있습니다.
NVIDIA의 지속적인 지배력에서, 도전자로서 TensorWave에게 가장 큰 기회는 어디에 있습니까?
AI 컴퓨팅 공간에서 몇몇 주요 플레이어가 지배하고 있는 상황에서, 가장 큰 도전은 시장에 진입하는 속도, 최신 기술을 제공하는 것, 그리고 예외적인 지원을 제공하는 것입니다. 하이퍼스케일러는 종종 다양한 옵션을 제공하지만, 고객이 필요한 초점 또는 개인화된 지침을 제공하는 데 어려움을 겪습니다. NVIDIA의 지배를 깨기 위해, TensorWave는 우리의 강점에 초점을 맞추고, 최상의 기술을 제공하기 위해 협력하며, 고객이 대안을 가지고 있는지 확인합니다.
NVIDIA의 AI 인프라 지배를 도전하는 두 가지 가장 큰 기회는 오픈 생태계와 메모리입니다. 오픈 생태계는 모든 계층(하드웨어, 인터커넥트, 소프트웨어)에서 잠금을 제거합니다. 또한, 메모리와 네트워크 최적화된 훈련/추론은 비용 곡선을 뒤집습니다.
5년 후, AI 인프라의 미래와 TensorWave의 역할을 어떻게 상상합니까?
수년 동안, AI 인프라의 목표는 그것을 좋게 만들기, 안정적으로 만들기, 사용하기 쉽게 만들기였습니다. 다음 단계는 그것 위에 제공할 수 있는 관리 서비스, AI-as-a-Service, 고객이 더 쉽게 배포하고 확장할 수 있도록 도와주는 모든 것입니다.
우리는 주요한 변환의 시작에 있습니다. AI 기술은 계속 발전하고, AMD와 같은 대안은 더욱 신뢰할 수 있게 됩니다.那样하면, 고객은 그것들을 대규모로 배포하는 것에 더 편안해질 것입니다. 그리고 전체 생태계는 열리고 성장할 것입니다.
이 훌륭한 인터뷰에 감사드립니다. 이 혁신적인 AI 인프라 회사에 대해 더 알고 싶은 사람은 TensorWave를 방문해야 합니다.












