Wawancara
Lior Hakim, Co-founder & CTO of Hour One – Interview Series

Lior Hakim, Co-founder dan Chief Technical Officer of Hour One, sebuah pemimpin industri dalam menciptakan manusia virtual untuk komunikasi video profesional. Karakter virtual yang sangat mirip dengan manusia, yang dimodelkan secara eksklusif dari orang-orang nyata, menyampaikan ekspresivitas seperti manusia melalui teks, memungkinkan bisnis untuk meningkatkan pesan mereka dengan kemudahan dan skalabilitas yang tak tertandingi.
Apakah Anda bisa berbagi kisah asal-usul di balik Hour One?
Asal-usul Hour One dapat ditelusuri kembali ke keterlibatan saya di domain kripto. Setelah usaha itu saya mulai memikirkan apa yang akan menjadi hal besar berikutnya yang dapat dimanfaatkan oleh komputasi awan massal dan ketika machine learning mulai populer dalam rekomendasi dan analitik prediktif saya bekerja pada beberapa proyek infrastruktur ML. Melalui pekerjaan ini saya menjadi familiar dengan karya generatif awal dan sangat tertarik dengan GAN pada saat itu. Saya menggunakan semua komputasi yang bisa saya dapatkan untuk menguji teknologi baru tersebut. Ketika menunjukkan hasil saya kepada seorang teman yang memiliki perusahaan di bidang itu, dia bilang saya harus bertemu Oren. Ketika saya bertanya mengapa, dia bilang bahwa mungkin kita berdua akan berhenti membuang-buang waktu dan membuang-buang waktu kita bersama. Oren, co-founder dan CEO Hour One, adalah investor awal di AI pada saat itu dan meskipun kita berdiri di tempat yang berbeda, kita berdua bergerak dalam arah yang sama, dan pendirian Hour One sebagai Rumah Manusia Virtual adalah sebuah perjalanan yang tidak terhindarkan.
Apa saja beberapa algoritma machine learning yang digunakan, dan apa bagian dari proses adalah Generative AI?
Di bidang pembuatan video, algoritma machine learning sangat penting di setiap tahap. Pada fase scripting, Large Language Models (LLMs) menawarkan dukungan yang sangat berharga, menciptakan atau memperbarui konten untuk memastikan narasi yang menarik. Ketika kita beralih ke audio, algoritma Text-to-Speech (TTS) mengubah teks menjadi suara yang organik dan ekspresif. Beralih ke representasi visual, model dasar Multimodal kami dari manusia virtual menduduki posisi utama. Model ini, yang ditingkatkan dengan Generative Adversarial Networks (GANs) dan Variational Autoencoders (VAEs), sangat mahir dalam menyampaikan emosi kontekstual, enuniasi, dan penyampaian yang sangat menarik dan autentik. Teknik generatif seperti itu mengubah teks dan sinyal audio menjadi visual manusia virtual yang sangat mirip, menghasilkan output video yang hiper-realistik. Orkestrasi LLMs, TTS, GANs, VAEs, dan model Multimodal kami membuat Generative AI tidak hanya menjadi bagian tetapi tulang punggung produksi video modern.
Bagaimana Hour One membedakan diri dari generator video lainnya?
Di Hour One, perbedaan kami dari generator video lainnya tidak berasal dari kekhawatiran akan persaingan, tetapi dari filosofi yang sangat mendalam yang mengatur pendekatan kami terhadap kualitas, desain produk, dan strategi pasar. Prinsip utama kami adalah untuk selalu memprioritaskan elemen manusia, memastikan ciptaan kami bernuansa autentik dan emosional. Kami sangat bangga menyajikan kualitas terbaik di industri tanpa kompromi. Dengan menggunakan rendering video 3D yang canggih, kami menyediakan pengalaman sinematik yang sangat nyata bagi pengguna kami. Selain itu, strategi kami sangat berpendirian; kami memulai dengan produk yang sangat baik dan kemudian dengan cepat melakukan iterasi menuju kesempurnaan. Pendekatan ini memastikan bahwa penawaran kami selalu satu langkah lebih maju, menetapkan standar baru dalam pembuatan video.
Dengan latar belakang Anda yang luas di GPU, apakah Anda bisa berbagi dengan kami beberapa wawasan tentang pandangan Anda terhadap NVIDIA Next-Generation GH200 Grace Hopper Superchip Platform?
Arsitektur Grace Hopper benar-benar sebuah perubahan besar. Jika GPU dapat bekerja secara efektif dari RAM host tanpa membatasi perhitungan, itu membuka rasio model/akselerator yang tidak mungkin dilakukan dalam pelatihan, dan sebagai hasilnya, fleksibilitas yang sangat diinginkan dalam ukuran pekerjaan pelatihan. Mengasumsikan seluruh stok GH200 tidak akan ditelan oleh pelatihan LLM, kami berharap dapat menggunakannya untuk sangat mengurangi biaya prototipe untuk arsitektur multi-modal kami di masa depan.
Apakah ada chip lain yang saat ini berada di radar Anda?
Tujuan utama kami adalah untuk menyediakan pengguna dengan konten video yang kompetitif dari segi harga. Mengingat permintaan akan GPU dengan memori besar saat ini, kami terus-menerus mengoptimalkan dan mencoba setiap penawaran GPU cloud di penyedia layanan cloud teratas. Selain itu, kami berusaha untuk setidaknya sebagian independen dari platform pada beberapa pekerjaan kami. Oleh karena itu, kami memperhatikan TPUs dan ASIC lainnya, dan juga memperhatikan AMD dengan sangat dekat. Akhirnya, setiap rute optimasi yang dipimpin oleh perangkat keras yang dapat menghasilkan rasio FLOPs/$ yang lebih baik akan dieksplorasi.
Apa visi Anda untuk kemajuan masa depan dalam pembuatan video?
Dalam 24 bulan, kita tidak akan dapat membedakan antara manusia yang dihasilkan dan yang direkam. Itu akan mengubah banyak hal, dan kita berada di garis depan kemajuan tersebut.
Saat ini sebagian besar video yang dihasilkan adalah untuk komputer dan perangkat mobile, apa yang perlu berubah sebelum kita memiliki avatar dan dunia yang dihasilkan dengan foto-realistik untuk realitas tertambah dan virtual?
Saat ini, kita memiliki kemampuan untuk menghasilkan avatar dan dunia yang foto-realistik untuk realitas tertambah (AR) dan realitas virtual (VR). Hambatan utama adalah latensi. Sementara penyampaian grafik berkualitas tinggi dan waktu nyata ke perangkat edge seperti headset AR dan VR sangat penting, mencapai ini dengan mulus bergantung pada beberapa faktor. Terutama, kita sangat bergantung pada kemajuan dalam manufaktur chip untuk memastikan pemrosesan yang lebih cepat dan lebih efisien. Bersamaan dengan ini, mengoptimalkan konsumsi daya sangat penting untuk memastikan penggunaan yang lebih lama tanpa mengorbankan pengalaman. Terakhir, kita sangat berharap terobosan perangkat lunak yang dapat dengan efektif menjembatani kesenjangan antara pembuatan dan rendering waktu nyata. Ketika elemen-elemen ini bersatu, kita akan melihat lonjakan dalam pemanfaatan avatar dan lingkungan yang foto-realistik di seluruh platform AR dan VR.
Apa yang Anda harapkan akan menjadi terobosan besar berikutnya dalam AI?
Ketika kita berbicara tentang terobosan besar berikutnya dalam AI, selalu ada suasana kegembiraan dan antisipasi. Sementara saya telah menyebutkan beberapa kemajuan sebelumnya, apa yang bisa saya bagikan adalah bahwa kita secara aktif bekerja pada beberapa inovasi yang sangat berani pada saat ini. Saya sangat ingin memasuki detail, tetapi untuk sekarang, saya mengundang semua orang untuk terus memantau rilis kami yang akan datang. Masa depan AI menjanjikan kemajuan yang sangat besar, dan kita sangat gembira untuk berada di garis depan upaya-upaya perintis ini. Tetap terhubung!
Apakah ada hal lain yang ingin Anda bagikan tentang Hour One?
Anda harus memeriksa saluran discord kami dan API, tambahan baru pada penawaran platform kami di Hour One.












