Connect with us

Darrick Horton, COO von TensorWave – Interview-Reihe

Interviews

Darrick Horton, COO von TensorWave – Interview-Reihe

mm

Darrick Horton, COO von TensorWave, ist ein Technologie-Executive und Unternehmer mit tiefgreifender Erfahrung in AI-Infrastruktur, Cloud-Computing und fortschrittlichen Hardware-Systemen. Mit einer Vergangenheit, die sich über Rechenzentrums-Architektur, Halbleitertechnologien und Hochleistungsrechnen erstreckt, hat er eine zentrale Rolle bei der Skalierung von Next-Generation-AI-Rechenplattformen gespielt. Vor seiner Führungsrolle bei TensorWave arbeitete Horton an fortschrittlichen Ingenieurinitiativen, einschließlich Kernfusionsforschung bei Lockheed Martins Skunk Works, und hat zu NASA-finanzierten Plasmaphysik- und Astrophysik-Projekten beigetragen. Seine Karriere spiegelt einen konstanten Fokus auf die Lösung komplexer, groß angelegter technischer Herausforderungen und deren Übersetzung in praktische Infrastrukturlösungen für aufstrebende Technologien wider.

TensorWave ist ein AI-Infrastruktur-Unternehmen, das sich auf die Bereitstellung von Hochleistungs-Cloud-Computing mit AMD-GPUs konzentriert und sich als Alternative zu geschlosseneren AI-Ökosystemen positioniert. Gegründet im Jahr 2023 und mit Hauptsitz in Las Vegas baut das Unternehmen große GPU-Cluster, die für das Training und die Bereitstellung von fortschrittlichen AI-Modellen optimiert sind, mit einem Schwerpunkt auf Leistung, Flexibilität und Kosteneffizienz. Durch die Nutzung offener Hardware- und Software-Ökosysteme zielt TensorWave darauf ab, den Zugang zu leistungsstarken AI-Rechenressourcen für Unternehmen, Forscher und Entwickler zu erweitern und skalierbare AI-Workloads ohne die Einschränkungen traditioneller Vendor-Lock-ins zu ermöglichen.

Nvidia dominiert den größten Teil des GPU-Marktes – warum haben Sie sich entschieden, voll auf AMD zu setzen, und welche Vorteile bringt diese Entscheidung TensorWave und seinen Kunden?

Nach dem Launch von ChatGPT ist die Nachfrage nach AI in die Höhe geschnellt. GPUs wurden schnell aufgesogen, und NVIDIA war praktisch die einzige Option, wenn man sie überhaupt bekommen konnte und wenn man den Preis bezahlen konnte. Dieser Mangel hat ein enormes Interesse an Alternativen geweckt. Jetzt, da wir die anfängliche Hysterie überwunden haben, gibt es eine echte Chance, Nvidias Dominanz mit Lösungen herauszufordern, die zugänglich, kosteneffizient und einfach zu verwenden sind.

Als Startup haben wir immer Geschäftsentscheidungen mit einem starken Fokus und Zweck getroffen. Deshalb haben wir nicht mit NVIDIA experimentiert und haben unsere Fähigkeiten auf AMD aufgebaut. Die nächste Phase unseres Unternehmens besteht darin, uns auf diese fokussierten Fähigkeiten zu konzentrieren, damit jeder etwas Bedeutungsvolles mit AI tun kann. AMD ist eine glaubwürdige Alternative mit echter Fertigungskapazität, einer offenen Software-Haltung und einem memory-first-Roadmap für moderne AI.

Wie unterscheidet sich TensorWaves Ansatz zur AI-Infrastruktur von traditionellen GPU-Cloud-Anbietern?

Unsere Differenzierung ist einfach: Wir sind die einzige AMD-exklusive Cloud im großen Maßstab, die darauf abzielt, die Wahl in der AI-Rechenleistung wiederherzustellen, Nvidias Dominanz zu brechen und den Zugang zu demokratisieren. Es geht aber auch um unsere Ethik und unser Engagement, eine wahre Alternative auf den Markt zu bringen. Zunächst einmal möchten wir außergewöhnliche AMD-basierte Infrastruktur im großen Maßstab bereitstellen. Von dort aus werden wir uns auf Top-Tier-Dienste auf dieser Infrastruktur ausdehnen – Models-as-a-Service, AI-as-a-Service, um alles einfacher zu machen.

Als AMD-exklusive Cloud haben wir Software-Erfahrung, die speziell für AMD von Anfang an entwickelt wurde. Diese Konzentration ermöglicht es uns, Silizium, Networking und Software von Ende zu Ende zu optimieren, um sicherzustellen, dass Teams skalieren können, wenn sie müssen.

Wie spielt die strategische Partnerschaft mit AMD bei TensorWaves Wachstum und Differenzierung eine Rolle?

Sie ist grundlegend. AMD hat in TensorWave investiert, uns zur MI300X-Instinct-Einführung eingeladen und wir arbeiten eng auf Hardware-, Software-Enablement- und Ökosystem-Wachstumsebene zusammen. Als AMD-exklusive Cloud können wir schnell mit jeder Instinct-Generation vorankommen und als lebendes Labor dienen, das im großen Maßstab Alternativen in unserem Markt bietet. Unsere AMD-exklusive Differenzierung hat es uns ermöglicht, mit einem Tempo zu arbeiten, das in dem AI-Infrastruktur-Markt nicht so erreichbar ist. Ihre Partnerschaft ermöglicht es uns, Lücken schnell zu schließen, als Erste auf neuen GPUs zu liefern und echte Leistung im großen Maßstab zu veröffentlichen.

Der Zugang zu GPUs bleibt ein großes Hindernis für AI-Teams – wie geht TensorWave dieses Problem an?

Wir gehen dieses Hindernis zunächst durch die Unabhängigkeit von der Versorgung an: Indem wir auf AMD aufbauen, vermeiden wir die schlimmsten Einschränkungen der Versorgung durch andere Hersteller von Chips und geben die Verfügbarkeit an unsere Kunden weiter.

Lücken im AI-Infrastruktur-Ökosystem existieren, weil so viele Spieler ähnliche Lösungen aufbauen, was zu viel Überlappung führt. Das kommt oft von einem Mangel an Bewusstsein darüber, was auf dem Markt passiert. Der erste Schritt, um diese Lücken zu schließen, besteht darin, zu verstehen, wer was tut, wo es Chancen für die Zusammenarbeit gibt, wo der Wettbewerb die Innovation vorantreiben kann und letztendlich, wie das Ökosystem als Ganzes verbessert werden kann. Eine einzigartige Lücke im AI-Infrastruktur-Markt ist die Energie: Selbst wenn GPUs verfügbar sind, gibt es oft nicht genug Energie, um die wachsende Anzahl von AI-Anwendungen zu unterstützen. Die Lösung dieser Ressourcen-Herausforderungen ist unser Schlüssel, um nachhaltiges Wachstum und Innovation in den kommenden Jahren zu ermöglichen.

Wie verbessern Funktionen wie direkte Flüssigkeitskühlung und UEC-fertige Netzwerke (Universal Ethernet Consortium) die Leistung und Kosteneffizienz?

Direkte Flüssigkeitskühlung und UEC-fertige Netzwerke sind grundlegend für das, was eine moderne AI-Cloud wirtschaftlich tragbar im großen Maßstab macht, und beide sind zentral für die Art und Weise, wie wir TensorWave entworfen haben.

Zur direkten Flüssigkeitskühlung: Die neuesten Beschleuniger-Generationen, AMDs MI355X und MI455X, laufen bei thermischen Grenzwerten, die Luft einfach nicht effizient bewältigen kann. Wir sprechen über 1400W+ TDP pro GPU. Direkte Flüssigkeitskühlung entfernt die Wärme an der Quelle über Kaltplatten oder Tauchdesigns, was drei Dinge für unsere Kunden tut. Erstens ermöglicht es eine wesentlich höhere Rack-Dichte, 120-300kW+ pro Rack anstelle von 30 bis 40kW, was den Fußabdruck komprimiert und die Kosten pro Megawatt für Grundstücke und Stromverteilung senkt. Zweitens treibt es den PUE auf 1,1 zu, im Vergleich zu 1,4 bis 1,5 für herkömmliche luftgekühlte Anlagen; bei unserem Maßstab entspricht das Zehnmillionen Dollar an jährlichen Nebenkosten. Drittens und oft unterbewertet, hält die direkte Flüssigkeitskühlung das Silizium bei niedrigeren, stabileren Verbindungs-Temperaturen, was die aufrechterhaltene Taktfrequenz während langer Trainingsläufe verlängert und die Lebensdauer der Hardware verlängert. Letzterer Punkt ist enorm wichtig, wenn man ein sechsjähriges Vermögen abschreibt.

Zum UEC: Die Ultra-Ethernet-Konsortium-Spezifikation, die AMD half zu gründen und die 2025 die Version 1.0 erreichte, gibt uns ein offenes, merchant-silicon-Fabric, das die Metriken, die für verteiltes Training wirklich zählen, erreicht oder übertrifft. Die Kosten-Geschichte ist strukturell. Ethernet hat ein halbes Dutzend glaubwürdiger Merchant-Silicon-Hersteller, die auf Preis konkurrieren, im Vergleich zu einer einzigen Quelle, die einen gut dokumentierten Aufpreis mit sich bringt. Für eine 100-MW-Anlage ist die Wahl von UEC-fertigem Networking anstelle von proprietärem Fabric typischerweise eine neunstellige CAPEX-Entscheidung, und die betrieblichen Vorteile kumulieren, weil unsere Netzwerk-Ingenieure bereits Ethernet kennen.

Zusammengenommen ermöglichen uns diese Entscheidungen, bessere Trainings-Ökonomie als herkömmliche Clouds zu liefern. Kunden sehen höhere effektive FLOPs pro Dollar, schnellere Schrittzeiten bei großen Jobs und eine klare Fahrspur, wenn Modelle skaliert werden. Für uns bedeuten sie eine defensivere Kostenstruktur und die Flexibilität, wirklich wettbewerbsfähige Tarife anzubieten.

Können Sie Beispiele dafür nennen, wie Kunden TensorWave nutzen, um große AI-Modelle zu trainieren?

TensorWave-Kunden benötigen Hochleistungs-AI-Rechenleistung ohne GPU-Engpässe, Vendor-Lock-in oder außer Kontrolle geratene Kosten. TensorWave bietet exklusive AMD-Cloud – offen, memory-optimiert und produktionsreif, was Teams skalierbare AI-Infrastruktur bietet, die zugänglich, flexibel und kosteneffizient ist.

Beispielsweise hat Modular sich entschieden, seinen MAX-Schlussfolgerungs-Stack auf TensorWaves AMD-GPU-Infrastruktur zu betreiben, da TensorWave wesentlich bessere Kosten-Leistungs-Ökonomie für große AI-Schlussfolgerungen bietet. Durch den Betrieb von Modulars MAX auf TensorWaves AMD-Rechenleistung erreichen sie bis zu 70% geringere Kosten pro Million Token, 57% schnellere Durchsatzrate und geringere Gesamtkosten als andere GPU-Stacks.

Wo sehen Sie mit Nvidias anhaltender Dominanz die größten Chancen für Herausforderer wie TensorWave?

In einem AI-Rechenraum, der von einigen großen Spielern dominiert wird, sind die größten Herausforderungen, die Geschwindigkeit auf den Markt zu erreichen, die neueste Technologie zu liefern und außergewöhnliche Unterstützung zu bieten. Hyperscaler bieten oft eine breite Palette von Optionen an, aber kämpfen darum, den Fokus oder die persönliche Führung zu bieten, die Kunden benötigen. Um durch diesen dominierten Raum zu brechen, konzentriert sich TensorWave auf unsere Stärken, während wir zusammenarbeiten, um die beste Technologie möglich zu machen und sicherzustellen, dass Kunden alternative Optionen haben.

Die beiden größten Chancen für Herausforderer von Nvidias AI-Infrastruktur-Dominanz liegen in offenen Ökosystemen und im Speicher. Offene Ökosysteme eliminieren die Einschränkung auf jeder Ebene (Hardware, Interconnect, Software). Zusätzlich kehrt der Speicher, kombiniert mit netzwerkoptimiertem Training/Schlussfolgerung, die Kosten-Kurve um.

Wie sehen Sie in fünf Jahren die Zukunft der AI-Infrastruktur und TensorWaves Rolle darin?

Für Jahre war das Ziel in der AI-Infrastruktur, sie gut zu machen, stabil zu machen und einfach zu bedienen. Die nächste Phase wird darum gehen, was man auf dieser Grundlage liefern kann – Managed Services, AI-as-a-Service, alles, was Kunden hilft, einfacher zu deployen und zu skalierten.

Wir stehen am Anfang einer großen Transformation. AI-Technologie macht weiterhin Fortschritte, und Alternativen wie AMD werden immer viabler. Wenn das passiert, werden Kunden immer mehr damit komfortabel, sie im großen Maßstab zu deployen, und das gesamte Ökosystem wird beginnen, sich zu öffnen und zu wachsen.

Vielen Dank für das großartige Interview, jeder, der mehr über dieses innovative AI-Infrastruktur-Unternehmen erfahren möchte, sollte TensorWave besuchen.

Antoine ist ein visionärer Führer und Gründungspartner von Unite.AI, getrieben von einer unerschütterlichen Leidenschaft für die Gestaltung und Förderung der Zukunft von KI und Robotik. Ein Serienunternehmer, glaubt er, dass KI so disruptiv für die Gesellschaft sein wird wie Elektrizität, und wird oft dabei ertappt, wie er über das Potenzial disruptiver Technologien und AGI schwärmt.

Als futurist ist er darauf fokussiert, zu erforschen, wie diese Innovationen unsere Welt formen werden. Zusätzlich ist er der Gründer von Securities.io, einer Plattform, die sich auf Investitionen in hochmoderne Technologien konzentriert, die die Zukunft neu definieren und ganze Branchen umgestalten.