Connect with us

Lior Hakim, współzałożyciel i CTO Hour One – seria wywiadów

Wywiady

Lior Hakim, współzałożyciel i CTO Hour One – seria wywiadów

mm

Lior Hakim, współzałożyciel i Chief Technical Officer Hour One, lidera branży w tworzeniu wirtualnych ludzi do profesjonalnej komunikacji wideo. Te prawdziwie podobne do ludzi wirtualne postacie, opracowane wyłącznie na podstawie prawdziwych osób, przekazują ludzką ekspresyjność za pomocą tekstu, umożliwiając firmom podniesienie swojej komunikacji do niezrównanego poziomu łatwości i skalowalności.

Czy mógłbyś podzielić się historią powstania Hour One?

Początki Hour One sięgają mojego zaangażowania w dziedzinie kryptografii. Po tym przedsięwzięciu zacząłem rozmyślać, co będzie następną wielką rzeczą, którą może wykorzystać masowa chmura obliczeniowa, a gdy sztuczna inteligencja zyskiwała popularność w zakresie rekomendacji i analizy predykcyjnej, pracowałem nad kilkoma projektami związanymi z infrastrukturą ML. Przez tę pracę zapoznałem się z wczesnymi pracami generatywnymi i byłam szczególnie zainteresowany GANami w tym czasie. Wykorzystywałem cały dostępny przeze mnie komput, aby przetestować te nowe technologie. Gdy pokazywałem swoje wyniki przyjacielowi, który miał firmę w tej dziedzinie, powiedział, że muszę poznać Orena. Gdy zapytałem, dlaczego, powiedział, że może będziemy marnować czas nawzajem, zamiast marnować jego czas. Oren, mój współzałożyciel i CEO Hour One, był wczesnym inwestorem w AI w tym czasie, a ponieważ staliśmy w różnych miejscach, poruszaliśmy się w tym samym kierunku, a założenie Hour One jako Domu Wirtualnego Człowieka było nieuniknioną podróżą.

Jakie są niektóre z algorytmów uczenia maszynowego, które są używane, a jaki jest udział Generative AI w tym procesie?

W dziedzinie tworzenia wideo, algorytmy uczenia maszynowego są niezwykle ważne na każdym etapie. Na etapie tworzenia scenariusza, Duże Modele Językowe (LLM) oferują niezwykle cenne wsparcie, tworząc lub doskonaląc treści, aby zapewnić przekonywujące narracje. Gdy przechodzimy do audio, algorytmy Text-to-Speech (TTS) przekształcają tekst w organiczne, emocjonalne głosy. Przechodząc do reprezentacji wizualnej, nasz własny, wielomodalny model wirtualnego człowieka zajmuje centralne miejsce. Ten model, ulepszony za pomocą Generative Adversarial Networks (GANs) i Variational Autoencoders (VAEs), jest zdolny do przekazywania kontekstowych emocji, wymowy i artykułowanego, fascynującego i autentycznego przekazu. Takie techniki generatywne przekształcają tekst i sygnały audio w prawdziwie podobne wizualizacje wirtualnych ludzi, prowadząc do hiperrealistycznych wyników wideo. Orkiestracja LLM, TTS, GANs, VAEs i naszego wielomodalnego modelu sprawia, że Generative AI nie jest tylko częścią, ale także backbonem nowoczesnej produkcji wideo.

Jak Hour One różni się od innych generatorów wideo?

W Hour One, nasza różnica w stosunku do innych generatorów wideo nie wynika z zajmowania się konkurencją, ale raczej z głęboko zakorzenionego filozoficznego podejścia do jakości, projektowania produktu i strategii rynkowej. Naszym przewodnim założeniem jest zawsze priorytet dla ludzkiego elementu, zapewniając, że nasze twory rezonują z autentycznością i emocjami. Niezmiernie się tym chwalimy, dostarczając najlepszą jakość w branży bez kompromisów. Wykorzystując zaawansowane techniki renderowania wideo 3D, oferujemy naszym użytkownikom prawdziwe doświadczenie kinowe. Ponadto, nasza strategia jest wyjątkowo opiniotwórcza; zaczynamy od wykończonego produktu, a następnie szybko iterujemy w kierunku doskonałości. To podejście zapewnia, że nasze oferty są zawsze o krok do przodu, ustanawiając nowe standardy w generowaniu wideo.

Czy z uwagi na Twoje rozległe doświadczenie w zakresie GPU, mogłbyś podzielić się z nami swoimi spostrzeżeniami na temat NVIDIA Next-Generation GH200 Grace Hopper Superchip Platform?

Architektura Grace Hopper jest prawdziwym przełomem. Jeśli GPU może skutecznie współpracować z pamięcią RAM hosta bez całkowitego zablokowania obliczeń, odblokowuje to obecnie niemożliwe stosunki modelu/przyspieszacza w treningu, a w efekcie, bardzo pożądaną elastyczność w rozmiarach zadań treningowych. Zakładając, że cały zapas GH200 nie zostanie pochłonięty przez trening LLM, mamy nadzieję wykorzystać go do znacznego zmniejszenia kosztów prototypowania naszych wielomodalnych architektur w przyszłości.

Czy są inne chipy, które są obecnie na Twoim radarze?

Naszym głównym celem jest dostarczenie użytkownikowi treści wideo, które są konkurencyjne cenowo. Biorąc pod uwagę popyt na duże pamięci GPU w tej chwili, nieustannie optymalizujemy i testujemy każdą ofertę GPU w najlepszych dostawcach usług chmurowych. Ponadto staramy się być co najmniej częściowo niezależnymi od platformy w niektórych naszych obciążeń. Dlatego też zwracamy uwagę na TPUs i inne ASICs, a także uważnie obserwujemy AMD. Ostatecznie każda optymalizacja oparta na sprzęcie, która może prowadzić do lepszego stosunku FLOPs/$, zostanie zbadana.

Jakie jest Twoje wizja przyszłych postępów w generowaniu wideo?

W ciągu 24 miesięcy nie będziemy w stanie odróżnić wygenerowanego człowieka od zarejestrowanego. To zmieni wiele rzeczy, a my jesteśmy na czele tych postępów.

W tej chwili większość wygenerowanych wideo jest dla komputerów i urządzeń mobilnych, co musi się zmienić, zanim będziemy mieli fotorealistyczne wygenerowane awatary i światy dla rozszerzonej rzeczywistości i wirtualnej rzeczywistości?

Obecnie posiadamy możliwość generowania fotorealistycznych awatarów i światów dla rozszerzonej rzeczywistości (AR) i wirtualnej rzeczywistości (VR). Główną przeszkodą jest opóźnienie. Podczas gdy dostarczanie wysokiej jakości, w czasie rzeczywistym grafiki do urządzeń krawędziowych, takich jak okulary AR i VR, jest niezwykle ważne, osiągnięcie tego bezproblemowo zależy od kilku czynników. Przede wszystkim, jesteśmy uzależnieni od postępów w produkcji chipów, aby zapewnić szybsze i bardziej wydajne przetwarzanie. Wraz z tym, optymalizacja zużycia energii jest kluczowa, aby zapewnić dłuższe użytkowanie bez kompromisowania doświadczenia. Na koniec, spodziewamy się przełomów w oprogramowaniu, które mogą wydajnie pomostować lukę między generowaniem a renderowaniem w czasie rzeczywistym. Gdy te elementy się połączą, zobaczymy wzrost wykorzystania fotorealistycznych awatarów i środowisk w obu platformach AR i VR.

Co spodziewasz się, że będzie następnym wielkim przełomem w AI?

Gdy chodzi o następny znaczący przełom w AI, zawsze jest aura ekscytacji i oczekiwania. Chociaż wspomniałem o niektórych postępach wcześniej, to, co mogę podzielić, to fakt, że aktywnie pracujemy nad kilkoma przełomowymi innowacjami w tej chwili. Chciałbym zagłębić się w szczegóły, ale na razie zachęcam wszystkich do obserwowania naszych nadchodzących wydań. Przyszłość AI skrywa ogromne obietnice, a my jesteśmy podekscytowani, że jesteśmy na czele tych pionierskich wysiłków. Czekajcie!

Czy jest coś jeszcze, co chciałbyś podzielić się na temat Hour One?

Zdecydowanie sprawdź nasz kanał Discord i API, nowe dodatki do naszej oferty platformy na Hour One.

Antoine jest wizjonerskim liderem i współzałożycielem Unite.AI, z niezachwianą pasją do kształtowania i promowania przyszłości sztucznej inteligencji i robotyki. Jako serialowy przedsiębiorca, uważa, że sztuczna inteligencja będzie tak samo przełomowa dla społeczeństwa, jak elektryczność, i często zachwycany jest potencjałem technologie przełomowych i AGI. Jako futurysta, poświęca się badaniu, jak te innowacje ukształtują nasz świat. Ponadto jest założycielem Securities.io, platformy skupiającej się na inwestowaniu w najnowocześniejsze technologie, które przeobrażają przyszłość i zmieniają całe sektory.