Interviews
Lior Hakim, Co-Founder & CTO von Hour One – Interview-Serie

Lior Hakim, Co-Founder und Chief Technical Officer von Hour One, einem Branchenführer im Bereich der Erstellung von virtuellen Menschen für professionelle Video-Kommunikation. Die lebendigen virtuellen Charaktere, die exklusiv nach realen Menschen modelliert sind, vermitteln menschliche Ausdrucksweise durch Text, wodurch Unternehmen ihre Nachrichten mit unvergleichlicher Leichtigkeit und Skalierbarkeit erhöhen können.
Könnten Sie die Genesis-Geschichte hinter Hour One teilen?
Die Ursprünge von Hour One können auf meine Beteiligung im Krypto-Bereich zurückgeführt werden. Nach diesem Vorhaben begann ich, über die nächste große Sache nachzudenken, die die Massen-Cloud-Computing nutzen kann, und als Machine Learning in Empfehlungen und Predictive Analytics an Popularität gewann, arbeitete ich an einigen ML-Infrastruktur-Bezogenen Projekten. Durch diese Arbeit wurde ich mit frühen generativen Arbeiten vertraut und war besonders an GANs interessiert. Ich nutzte alle verfügbaren Rechenressourcen, um diese damals neuen Technologien zu testen. Als ich meine Ergebnisse einem Freund zeigte, der ein Unternehmen in diesem Bereich hatte, sagte er mir, ich müsste Oren treffen. Als ich fragte, warum, sagte er, dass wir vielleicht aufhören, seine Zeit zu verschwenden, und stattdessen unsere Zeit verschwenden. Oren, mein Co-Founder und CEO von Hour One, war ein früher Investor in KI zu dieser Zeit und obwohl wir an unterschiedlichen Orten standen, bewegten wir uns in die gleiche Richtung, und die Gründung von Hour One als Zuhause des virtuellen Menschen war eine unvermeidliche Reise.
Welche Machine-Learning-Algorithmen werden verwendet, und welcher Teil des Prozesses ist Generative KI?
Im Bereich der Videocreation sind Machine-Learning-Algorithmen bei jeder Phase von entscheidender Bedeutung. In der Skript-Phase bieten Large Language Models (LLMs) wertvolle Unterstützung, indem sie Inhalte erstellen oder verfeinern, um packende Erzählungen zu gewährleisten. Wenn wir zu Audio übergehen, verwandeln Text-to-Speech-(TTS)-Algorithmen Text in organische, emotionale Stimmen. Wenn wir zur visuellen Darstellung übergehen, steht unser proprietäres Multimodales Grundmodell des virtuellen Menschen im Mittelpunkt. Dieses Modell, das mit Generative Adversarial Networks (GANs) und Variational Autoencodern (VAEs) verstärkt wird, ist in der Lage, kontextuelle Emotionen, Artikulation und eine artikulierte, fesselnde und authentische Darstellung zu vermitteln. Solche generativen Techniken verwandeln Text- und Audio-Signale in lebendige visuelle Darstellungen von virtuellen Menschen, was zu hyperrealistischen Video-Ausgaben führt. Die Orchestrierung von LLMs, TTS, GANs, VAEs und unserem Multimodalen Modell macht Generative KI nicht nur zu einem Teil, sondern zum Rückgrat der modernen Videoproduktion.
Wie unterscheidet sich Hour One von anderen Video-Generatoren?
Bei Hour One liegt unsere Unterscheidung von anderen Video-Generatoren nicht in einer Besessenheit von Wettbewerb, sondern vielmehr in einer tief verwurzelten Philosophie, die unseren Ansatz für Qualität, Produktdesign und Markenstrategie bestimmt. Unser Leitprinzip ist es, immer das menschliche Element zu priorisieren, um sicherzustellen, dass unsere Kreationen mit Authentizität und Emotionen resonieren. Wir sind stolz darauf, die beste Qualität in der Branche ohne Kompromisse zu liefern. Durch die Nutzung von fortschrittlicher 3D-Video-Wiedergabe bieten wir unseren Nutzern ein echtes kinematografisches Erlebnis. Darüber hinaus ist unsere Strategie einzigartig und überzeugend; wir beginnen mit einem polierten Produkt und iterieren dann schnell zur Perfektion. Dieser Ansatz stellt sicher, dass unsere Angebote immer einen Schritt voraus sind und neue Benchmarks in der Videogenerierung setzen.
Mit Ihrem umfangreichen Hintergrund in GPUs, können Sie uns einige Einblicke in Ihre Ansichten über NVIDIA Next-Generation GH200 Grace Hopper Superchip Platform teilen?
Die Grace-Hopper-Architektur ist wirklich ein Game-Changer. Wenn eine GPU effektiv von dem RAM des Hosts arbeiten kann, ohne die Berechnung vollständig zu behindern, schafft dies bisher unmögliche Model-/Beschleuniger-Verhältnisse bei der Ausbildung und als Ergebnis viel gewünschte Flexibilität bei der Größe der Trainingsjobs. Wenn wir annehmen, dass der gesamte Bestand an GH200 nicht von LLM-Trainings aufgenommen wird, hoffen wir, es zu verwenden, um unsere Prototyping-Kosten für unsere multimodalen Architekturen in Zukunft erheblich zu reduzieren.
Gibt es andere Chips, die derzeit auf Ihrem Radar sind?
Unser Hauptziel ist es, dem Benutzer videoinhalte zu bieten, die preiswettbewerbsfähig sind. Angesichts der Nachfrage nach großen Speicher-GPUs im Moment optimieren wir ständig und testen alle GPU-Cloud-Angebote der führenden Cloud-Dienstleister. Darüber hinaus streben wir danach, zumindest teilweise plattformunabhängig bei einigen unserer Workloads zu sein. Daher sind wir auf TPUs und andere ASICs sowie auf AMD aufmerksam und achten genau auf AMD. Letztendlich werden alle hardwaregeführten Optimierungsrouten, die zu einem besseren FLOPs/$-Verhältnis führen, erforscht.
Was ist Ihre Vision für zukünftige Fortschritte in der Videogenerierung?
In 24 Monaten werden wir nicht in der Lage sein, einen generierten Menschen von einem aufgenommenen zu unterscheiden. Das wird viele Dinge verändern, und wir sind hier an der Spitze dieser Fortschritte.
Derzeit sind die meisten generierten Videos für Computer und Mobilgeräte bestimmt, was muss sich ändern, bevor wir fotorealistische generierte Avatare und Welten für Augmented Reality und Virtual Reality haben?
Derzeit verfügen wir über die Fähigkeit, fotorealistische Avatare und Welten für Augmented Reality (AR) und Virtual Reality (VR) zu generieren. Das Hauptproblem ist die Latenz. Während die Lieferung von hochwertigen, Echtzeit-Grafiken an Edge-Geräte wie AR- und VR-Headsets von entscheidender Bedeutung ist, hängt die Erreichung dieses Ziels nahtlos von mehreren Faktoren ab. Vor allem sind wir auf Fortschritte in der Chip-Herstellung angewiesen, um schnelleres und effizienteres Verarbeiten zu gewährleisten. Neben dieser Optimierung des Stromverbrauchs ist es entscheidend, um eine längere Nutzung ohne Kompromisse bei der Erfahrung zu ermöglichen. Letztendlich erwarten wir Software-Durchbrüche, die die Lücke zwischen Generierung und Echtzeit-Rendering effizient überbrücken können. Wenn diese Elemente zusammenkommen, werden wir eine Zunahme der Nutzung von fotorealistischen Avataren und Umgebungen in AR- und VR-Plattformen sehen.
Was erwarten Sie als nächstes großes Durchbruch in KI?
Wenn es um den nächsten bedeutenden Durchbruch in KI geht, herrscht immer eine Atmosphäre der Aufregung und Erwartung. Während ich auf einige Fortschritte zuvor hingewiesen habe, kann ich teilen, dass wir derzeit an mehreren bahnbrechenden Innovationen arbeiten. Ich würde mich gerne auf Details einlassen, aber für den Moment ermutige ich jeden, unsere kommenden Veröffentlichungen im Auge zu behalten. Die Zukunft von KI hält immense Versprechen bereit, und wir sind begeistert, an der Spitze dieser Pionierbemühungen zu sein. Bleiben Sie dran!
Gibt es noch etwas, das Sie über Hour One teilen möchten?
Sie sollten definitiv unseren Discord-Kanal und API, neue Ergänzungen unseres Plattform-Angebots auf Hour One überprüfen.












