Connect with us

访谈

Piotr Tomasik,TensorWave联合创始人兼总裁 – 采访系列

mm

Piotr Tomasik,TensorWave联合创始人兼总裁,是一位拥有二十多年经验的资深技术企业家和AI基础设施高管,曾在AI、SaaS、云计算、金融科技和创作者经济等领域工作。2023年之前,他曾联合创立Influential,一家AI驱动的影响者营销平台,后被Publicis以约5亿美元收购,他曾在那里担任CTO,后转为顾问。

在他的职业生涯中,Tomasik还曾创立或领导过包括Lets Rolo、On Guard Data和ActiveSide在内的公司,并在CARD.com和Marker Trax担任过高级技术职位。此外,他还是1864 Fund的普通合伙人和StartUp Vegas的联合创始人,在那里他积极支持拉斯维加斯的初创企业生态系统和新兴技术人才。作为内华达大学拉斯维加斯分校计算机科学毕业生和公认的技术领袖,Tomasik因帮助TensorWave成为一家快速增长的AI计算基础设施公司而闻名,该公司专注于大规模GPU云平台,采用AMD加速器。

TensorWave是一家AI基础设施公司,专注于提供高性能云计算,采用AMD GPU,作为更封闭的AI生态系统的替代品。该公司成立于2023年,总部位于拉斯维加斯,建立大规模GPU集群,针对训练和部署高级AI模型,注重性能、灵活性和成本效率。通过利用开放的硬件和软件生态系统,TensorWave旨在为企业、研究人员和开发人员提供强大的AI计算资源,使他们能够在没有传统供应商锁定的情况下扩展AI工作负载。

Nvidia占据了大部分GPU市场——为什么你决定全力以赴地支持AMD,以及这种选择给TensorWave和其客户带来了什么优势?

ChatGPT发布后,AI需求激增,GPU迅速售罄,NVIDIA基本上是唯一的选择,如果你能获得它,并且能够承担成本。这种短缺引发了人们对替代品的巨大兴趣。现在,最初的热潮已经过去,有一个真正的机会来挑战NVIDIA的主导地位,提供可访问、成本有效和易于使用的解决方案。

作为一家初创公司,我们的商业决策始终具有明确的重点和目的。这就是为什么我们没有尝试使用NVIDIA,而继续在AMD上构建我们的能力。我们公司的下一个阶段是关于利用这些专注的能力,使任何人都可以跳入并与AI做一些有意义的事情。AMD是一个可信的替代品,具有真正的制造规模、开放的软件态度和现代AI的内存优先路线图。

TensorWave的AI基础设施方法与传统的GPU云提供商有何不同?

我们的区别很明显:我们是唯一一家大规模的AMD专用云,旨在恢复AI计算的选择,打破NVIDIA的主导地位,并使AI的获取民主化。但这也关于我们的理念和致力于将真正的替代品带到市场。首先,我们希望提供卓越的AMD基础设施。在此基础上,我们将扩展到顶级服务——模型即服务、AI即服务,使一切变得更简单。

作为一家AMD专用云,我们从第一天开始就拥有针对AMD的软件经验。这使我们能够从端到端优化硅、网络和软件,确保团队可以在需要时扩展。

您与AMD的战略合作伙伴关系在TensorWave的增长和区别中扮演了什么角色?

这是基础性的。AMD投资了TensorWave,并邀请我们加入MI300X Instinct发布会,我们继续在硬件、软件使能和生态系统增长方面进行密切合作。作为一家AMD专用云,我们可以随着每个Instinct世代快速推进,并作为一个大规模的实验室,提供替代方案。我们的AMD专用区别使我们能够以其他AI基础设施公司难以实现的速度工作。他们的合作伙伴关系使我们能够快速弥补差距,首先发布新GPU,并发布大规模的真实性能。

GPU访问仍然是AI团队面临的主要瓶颈——TensorWave如何解决这个挑战?

我们首先通过供应独立来解决这些瓶颈:通过在AMD上构建,我们避免了其他芯片制造商的供应约束,并将可用性传递给客户。通过AMD的供应独立,我们确保客户不会陷入与其他人相同的排队中。

AI基础设施生态系统中的差距是因为许多参与者都在构建类似的解决方案,导致了大量的重叠。这通常来自对市场中正在发生的事情缺乏认识。解决这些差距的第一步是了解谁在做什么,在哪里有合作的机会,哪里可以通过竞争推动创新,最终,整个生态系统如何能够改进。AI基础设施市场中一个独特的差距是电力:即使GPU可用,通常也没有足够的能量来支持日益增长的AI应用。解决这些资源挑战是我们实现可持续增长和创新的一把钥匙。

直接液体冷却和UEC准备网络(通用以太网联盟)如何提高性能和成本效率?

直接液体冷却和UEC准备网络是现代AI云在大规模上经济可行的基础,也是我们设计TensorWave的核心。

关于DLC:最新的加速器世代,AMD的MI355X和MI455X,运行在热封闭中,空气无法高效地处理。我们谈论的是每个GPU 1400W+的热功率。直接液体冷却通过冷板或浸没式设计从源头去除热量,这为我们的客户做了三件事。首先,它使得机架密度大大提高,120-300kW+每个机架,而不是30到40kW,这压缩了占地面积并降低了每兆瓦的房地产和电力分配成本。第二,它使PUE趋近于1.1,而不是1.4到1.5的传统空冷设施;在我们的规模上,这意味着每年数千万美元的公用事业节省。第三,通常被低估的是,DLC使硅在较低、更稳定的结温下保持,这在长时间的训练运行中保持了持续的时钟速度,并延长了硬件的使用寿命。当你为六年资产提供担保时,这一点至关重要。

关于UEC:Ultra Ethernet Consortium规范,在2025年达到1.0,由AMD帮助创立,提供了一个开放的、商用芯片互联结构,满足或超过了InfiniBand在实际重要的指标,例如集体的尾部延迟、在争用下的有效带宽以及超过10万个GPU的扩展行为。成本故事是结构性的。以太网有六个可信的商用芯片供应商在价格上竞争,而单一来源的替代品带有明显的溢价。对于一个100MW的站点,选择UEC准备网络而不是专有互联结构通常是一个九位数的资本支出决定,运营优势会随着时间的推移而积累,因为我们的网络工程师已经知道以太网。

这些选择使我们能够提供比传统云更好的训练经济性。客户看到每美元更高的有效FLOPs,更可预测的步骤时间和清晰的扩展路径。对于我们来说,它们意味着更有防御性的成本结构和提供真正具有竞争力的费率卡的灵活性。

您能否分享TensorWave客户如何利用TensorWave来训练大规模AI模型的例子?

TensorWave客户需要高性能的AI计算,而不受GPU短缺、供应商锁定或成本失控的限制。TensorWave提供独家的AMD云——开放、内存优化和生产就绪,这为团队提供了可扩展的AI基础设施,具有可访问性、灵活性和成本效率。

例如,Modular选择在TensorWave的AMD GPU基础设施上运行其MAX推理堆栈,因为TensorWave为大规模AI推理提供了显著更好的成本性能。通过在TensorWave的AMD计算上运行Modular的MAX,它们可以实现每百万令牌成本降低70%,吞吐量提高57%,总成本降低,而其他GPU堆栈则无法实现这一点。

在NVIDIA继续主导的情况下,您认为TensorWave等挑战者最大的机会在哪里?

在一个由少数大玩家主导的AI计算空间中,最大挑战是实现快速上市、提供最新技术和提供卓越的支持。超大规模提供商通常提供广泛的选择,但难以提供客户所需的关注和个性化指导。为了突破这一主导地位,TensorWave专注于我们的优势,同时与其他公司合作,提供最好的技术,并确保客户有替代选择。

挑战NVIDIA的AI基础设施主导地位的两个最大机会在于开放的生态系统和内存。开放的生态系统消除了每个层次的锁定(硬件、互联和软件)。此外,内存与网络优化的训练/推理相结合,反转了成本曲线。

展望未来五年,您如何看待AI基础设施和TensorWave在其中的角色?

多年来,AI基础设施的目标是使其变得良好、稳定和易于使用。下一个阶段将是关于在此基础上提供什么——托管服务、AI即服务、任何帮助客户更容易部署和扩展的东西。

我们正处于一场重大转变的开始。AI技术不断进步,像AMD这样的替代品变得越来越可行。随着这种情况的发生,客户将变得更加舒适地在大规模上部署它们,整个生态系统将开始开放和增长。像AMD这样的公司变得越来越可行。随着这种情况的发生,客户将变得更加舒适地在大规模上部署它们,整个生态系统将开始开放和增长。感谢您这次精彩的采访,任何想要了解更多关于这家创新AI基础设施公司的人都可以访问TensorWave

安托万是一位具有远见的领导者和Unite.AI的创始合伙人,他被对塑造和推广AI和机器人人的未来充满不动摇的热情所驱动。作为一位连续创业者,他相信AI将对社会产生与电力一样的颠覆性影响,他经常被听到对颠覆性技术和AGI的潜力大加赞赏。

作为一位未来学家,他致力于探索这些创新将如何塑造我们的世界。另外,他也是Securities.io的创始人,这是一个专注于投资于重新定义未来和重塑整个行业的尖端技术的平台。