Connect with us

Lior Hakim, Co-fundador e CTO da Hour One – Série de Entrevistas

Entrevistas

Lior Hakim, Co-fundador e CTO da Hour One – Série de Entrevistas

mm

Lior Hakim, co-fundador e Diretor Técnico da Hour One, uma líder da indústria na criação de humanos virtuais para comunicações de vídeo profissionais. Os personagens virtuais realistas, modelados exclusivamente após pessoas reais, transmitem expressividade humana através de texto, permitindo que as empresas elevem suas mensagens com facilidade e escalabilidade incomparáveis.

Poderia compartilhar a história de origem por trás da Hour One?

A origem da Hour One pode ser rastreada até meu envolvimento no domínio de criptomoedas. Após essa empreitada, comecei a refletir sobre o que seria o próximo grande passo que o processamento de nuvem em massa poderia aproveitar, e, à medida que o aprendizado de máquina estava ganhando popularidade em recomendações e análise preditiva, eu estava trabalhando em alguns projetos relacionados à infraestrutura de ML. Através desse trabalho, me familiarizei com trabalhos gerativos iniciais e fiquei particularmente interessado em GANs naquela época. Eu estava usando todo o processamento que podia obter para testar essas tecnologias novas na época. Quando mostrei meus resultados a um amigo que tinha uma empresa no campo, ele me disse que eu devia conhecer Oren. Quando perguntei por quê, ele me disse que talvez ambos paramos de perder o tempo dele e perdêssemos o tempo um do outro. Oren, meu co-fundador e CEO da Hour One, era um investidor precoce em IA naquela época, e, embora estivéssemos em lugares diferentes, estávamos ambos se movendo na mesma direção, e a fundação da Hour One para ser a Casa do Humano Virtual foi uma jornada inevitável.

Quais são alguns dos algoritmos de aprendizado de máquina que são usados, e qual é a parte do processo é a IA Gerativa?

No reino da criação de vídeo, os algoritmos de aprendizado de máquina são instrumentais em todas as etapas. Na fase de script, os Grandes Modelos de Linguagem (LLMs) oferecem apoio inestimável, criando ou refinando o conteúdo para garantir narrativas atraentes. À medida que nos movemos para o áudio, os algoritmos de Texto-para-Fala (TTS) transformam o texto em vozes orgânicas e emotivas. Transitando para a representação visual, nosso modelo Multimodal fundamentado de humano virtual assume o centro do palco. Esse modelo, aprimorado com Redes Antagonísticas Gerativas (GANs) e Autoencoders Variacionais (VAEs), é hábil em transmitir emoções contextuais, enunciação e uma entrega articulada, cativante e autêntica. Tais técnicas gerativas transformam texto e áudio em visuais realistas de humanos virtuais, levando a saídas de vídeo hiper-realistas. A orquestração de LLMs, TTS, GANs, VAEs e nosso modelo Multimodal torna a IA Gerativa não apenas uma parte, mas a espinha dorsal da produção de vídeo moderna.

Como a Hour One se diferencia dos geradores de vídeo concorrentes?

Na Hour One, nossa distinção dos outros geradores de vídeo não vem de uma preocupação com a concorrência, mas sim de uma filosofia profundamente enraizada que rege nossa abordagem à qualidade, design de produto e estratégia de mercado. Nosso princípio orientador é sempre priorizar o elemento humano, garantindo que nossas criações ressoem com autenticidade e emoção. Nos orgulhamos de entregar a melhor qualidade da indústria sem compromisso. Ao utilizar renderização de vídeo 3D avançada, fornecemos aos nossos usuários uma experiência cinematográfica genuína. Além disso, nossa estratégia é singularmente opinada; começamos com um produto polido e, em seguida, iteramos rapidamente em direção à perfeição. Essa abordagem garante que nossas ofertas estejam sempre um passo à frente, estabelecendo novos padrões na geração de vídeo.

Com sua extensa experiência em GPUs, pode compartilhar conosco algumas perspectivas sobre a plataforma NVIDIA Next-Generation GH200 Grace Hopper Superchip?

A arquitetura Grace Hopper é verdadeiramente um game changer. Se a GPU puder funcionar efetivamente a partir da RAM do host sem engarrafar completamente o cálculo, isso desbloqueia relações de modelo/acelerador atualmente impossíveis no treinamento e, como resultado, uma flexibilidade muito desejada no tamanho dos trabalhos de treinamento. Supondo que todo o estoque de GH200 não será engolido pelo treinamento de LLM, esperamos usá-lo para reduzir significativamente os custos de prototipagem para nossas arquiteturas multimodais ao longo do caminho.

Há algum outro chip que está atualmente em seu radar?

Nosso objetivo principal é fornecer ao usuário conteúdo de vídeo que seja competitivo em termos de preço. Dada a demanda por GPUs de grande memória no momento, estamos constantemente otimizando e testando qualquer oferta de GPU na nuvem nos principais provedores de serviços de nuvem. Além disso, nos esforçamos para ser pelo menos parcialmente independentes de plataforma em algumas de nossas cargas de trabalho. Portanto, estamos observando TPUs e outros ASICs, e também prestando atenção ao AMD. Eventualmente, qualquer rota de otimização liderada por hardware que possa resultar em uma melhor relação FLOPs/$ será explorada.

Qual é sua visão para avanços futuros na geração de vídeo?

Em 24 meses, não seremos capazes de distinguir um humano gerado de um capturado. Isso mudará muitas coisas, e estamos aqui à frente desses avanços.

No momento, a maioria dos vídeos gerados é para computadores e dispositivos móveis, o que precisa mudar antes de termos avatares e mundos gerados foto-realistas para realidade aumentada e realidade virtual?

Atualmente, possuímos a capacidade de gerar avatares e mundos foto-realistas para realidade aumentada (AR) e realidade virtual (VR). O principal obstáculo é a latência. Embora a entrega de gráficos de alta qualidade e em tempo real para dispositivos de borda, como headsets de AR e VR, seja vital, alcançar isso de forma transparente depende de vários fatores. Em primeiro lugar, dependemos de avanços na fabricação de chips para garantir processamento mais rápido e eficiente. Além disso, otimizar o consumo de energia é crucial para garantir um uso mais longo sem comprometer a experiência. Por último, mas não menos importante, antecipamos avanços de software que possam eficientemente fechar a lacuna entre geração e renderização em tempo real. À medida que esses elementos se unem, veremos um aumento no uso de avatares e ambientes foto-realistas em plataformas de AR e VR.

O que você espera que seja o próximo grande avanço na IA?

Quando se trata do próximo avanço significativo na IA, há sempre um ar de excitação e expectativa. Embora eu tenha aludido a alguns avanços anteriormente, o que posso compartilhar é que estamos ativamente trabalhando em várias inovações revolucionárias neste exato momento. Eu adoraria mergulhar em detalhes, mas por agora, encorajo todos a manterem um olho em nossas próximas liberações. O futuro da IA holds uma promessa imensa, e estamos entusiasmados por estar à frente desses esforços pioneiros. Fiquem atentos!

Há algo mais que você gostaria de compartilhar sobre a Hour One?

Você definitivamente deve verificar nosso canal do Discord e API, novas adições à nossa oferta de plataforma em Hour One.

Antoine é um líder visionário e sócio-fundador da Unite.AI, impulsionado por uma paixão inabalável em moldar e promover o futuro da IA e da robótica. Um empreendedor serial, ele acredita que a IA será tão disruptiva para a sociedade quanto a eletricidade, e é frequentemente pego falando sobre o potencial das tecnologias disruptivas e da AGI. Como um futurista, ele está dedicado a explorar como essas inovações moldarão nosso mundo. Além disso, ele é o fundador da Securities.io, uma plataforma focada em investir em tecnologias de ponta que estão redefinindo o futuro e remodelando setores inteiros.