toco Lior Hakim, cofundador e CTO da Hour One - Série de entrevistas - Unite.AI
Entre em contato

Entrevistas

Lior Hakim, cofundador e CTO da Hour One – Série de entrevistas

mm

Publicado

 on

Lior Hakim, cofundador e diretor técnico da Primeira hora, líder do setor na criação de seres humanos virtuais para comunicações de vídeo profissionais. Os personagens virtuais realistas, modelados exclusivamente a partir de pessoas reais, transmitem expressividade humana através do texto, capacitando as empresas a elevarem suas mensagens com facilidade e escalabilidade incomparáveis.

Você poderia compartilhar a história da gênese por trás da Hora Um?

A origem da Hora Um remonta ao meu envolvimento no domínio criptográfico. Após esse empreendimento, comecei a ponderar qual seria a próxima grande novidade que a computação em nuvem em massa poderia aproveitar e, à medida que o aprendizado de máquina ganhava popularidade em recomendações e análises preditivas, estava trabalhando em alguns projetos relacionados à infraestrutura de ML. Através deste trabalho, familiarizei-me com os primeiros trabalhos generativos e fiquei especialmente interessado em GANs naquela época. Eu estava usando toda a computação que pude para testar essas novas tecnologias. Ao mostrar meus resultados para um amigo que tinha uma empresa na área, ele me disse que eu deveria conhecer Oren. Quando perguntei por quê, ele me disse que talvez nós dois paremos de desperdiçar o tempo dele e desperdicemos o tempo um do outro. Oren, meu cofundador e CEO da Hour One, foi um dos primeiros investidores em IA naquela época. e enquanto estávamos em lugares diferentes, estávamos ambos nos movendo na mesma direção, e a fundação da Hora Um para ser o Lar do Humano Virtual foi uma jornada inevitável.

Quais são alguns dos algoritmos de aprendizado de máquina usados ​​e que parte do processo é a IA generativa?

No domínio da criação de vídeo, os algoritmos de aprendizado de máquina são fundamentais em todas as fases. Na fase de roteiro, os Large Language Models (LLMs) oferecem suporte inestimável, elaborando ou refinando conteúdo para garantir narrativas atraentes. À medida que avançamos para o áudio, os algoritmos Text-to-Speech (TTS) transformam o texto em vozes orgânicas e emotivas. Fazendo a transição para a representação visual, nosso modelo básico multimodal proprietário do ser humano virtual assume o centro das atenções. Este modelo, aprimorado com Redes Adversariais Generativas (GANs) e Autoencodificadores Variacionais (VAEs), é adepto de transmitir emoções contextuais, enunciação e uma entrega articulada, cativante e autêntica. Essas técnicas generativas transformam sinais de texto e áudio em imagens realistas de seres humanos virtuais, levando a resultados de vídeo hiper-realistas. A orquestração de LLMs, TTS, GANs, VAEs e nosso modelo multimodal fazem da IA ​​generativa não apenas uma parte, mas a espinha dorsal da produção de vídeo moderna.

Como o Hour One se diferencia dos geradores de vídeo concorrentes?

Na Hour One, nossa distinção de outros geradores de vídeo não decorre de uma preocupação com a concorrência, mas sim de uma filosofia profundamente enraizada que rege nossa abordagem à qualidade, design de produto e estratégia de mercado. Nosso princípio orientador é sempre priorizar o elemento humano, garantindo que nossas criações ressoem com autenticidade e emoção. Temos orgulho em oferecer a melhor qualidade do setor sem compromisso. Ao utilizar renderização avançada de vídeo 3D, oferecemos aos nossos usuários uma experiência cinematográfica genuína. Além disso, a nossa estratégia é exclusivamente opinativa; começamos com um produto polido e depois iteramos rapidamente em direção à perfeição. Esta abordagem garante que as nossas ofertas estejam sempre um passo à frente, estabelecendo novos padrões de referência na geração de vídeo.

Com sua vasta experiência em GPUs, você pode compartilhar conosco alguns insights sobre suas opiniões sobre Plataforma de superchip NVIDIA GH200 Grace Hopper de última geração?

A arquitetura Grace Hopper é realmente uma virada de jogo. Se a GPU puder funcionar efetivamente a partir da RAM de seu host sem obstruir completamente o cálculo, ela desbloqueará proporções atualmente impossíveis de modelo/acelerador no treinamento e, como resultado, a tão desejada flexibilidade nos tamanhos dos trabalhos de treinamento. Supondo que todo o estoque do GH200 não será engolido pelo treinamento LLM, esperamos usá-lo para reduzir significativamente os custos de prototipagem para nossas arquiteturas multimodais no futuro.

Há algum outro chip que esteja atualmente no seu radar?

Nosso principal objetivo é fornecer ao usuário conteúdo de vídeo com preço competitivo. Dada a demanda por GPUs de grande memória no momento, estamos constantemente otimizando e testando qualquer oferta de GPU em nuvem nos principais provedores de serviços em nuvem. Além disso, nos esforçamos para ser pelo menos parcialmente independentes de plataforma em algumas de nossas cargas de trabalho. Assim, estamos de olho nas TPUs e outros ASICs, e também prestando muita atenção à AMD. Eventualmente, qualquer rota de otimização baseada em hardware que possa resultar em uma melhor relação FLOPs/$ será explorada.

Qual é a sua visão para avanços futuros na geração de vídeo?

Em 24 meses não seremos capazes de distinguir um humano gerado de um capturado. Isso mudará muitas coisas e estamos aqui na vanguarda desses avanços.

No momento, a maioria dos vídeos gerados são para computadores e dispositivos móveis. O que precisa mudar antes de termos avatares e mundos gerados com fotorrealismo, tanto para realidade aumentada quanto para realidade virtual?

A partir de agora, possuímos a capacidade de gerar avatares e mundos fotorrealistas para realidade aumentada (AR) e realidade virtual (VR). O principal obstáculo é a latência. Embora a entrega de gráficos de alta qualidade em tempo real para dispositivos de ponta, como headsets AR e VR, seja vital, alcançar isso perfeitamente depende de vários fatores. Acima de tudo, dependemos dos avanços na fabricação de chips para garantir um processamento mais rápido e eficiente. Paralelamente, otimizar o consumo de energia é crucial para garantir uma utilização mais prolongada sem comprometer a experiência. Por último, mas não menos importante, antecipamos avanços de software que podem preencher de forma eficiente a lacuna entre a geração e a renderização em tempo real. À medida que esses elementos se juntam, veremos um aumento na utilização de avatares e ambientes fotorrealistas em plataformas de AR e VR.

Qual você espera que seja o próximo grande avanço na IA?

Quando se trata do próximo avanço significativo na IA, há sempre um ar de entusiasmo e expectativa. Embora eu tenha mencionado alguns avanços anteriormente, o que posso compartilhar é que estamos trabalhando ativamente em diversas inovações revolucionárias neste exato momento. Eu adoraria me aprofundar em detalhes, mas, por enquanto, incentivo todos a ficarem de olho em nossos próximos lançamentos. O futuro da IA ​​é imensamente promissor e estamos entusiasmados por estar na vanguarda desses esforços pioneiros. Fique atento!

Há mais alguma coisa que você gostaria de compartilhar sobre a Primeira Hora?

Você definitivamente deveria conferir nosso canal discord e API, novas adições à nossa oferta de plataforma em Primeira hora.

Sócio fundador da unite.AI e membro do Conselho de Tecnologia da Forbes, Antoine é um futurista que é apaixonado pelo futuro da IA ​​e da robótica.

Ele também é o fundador da Valores Mobiliários.io, um site que foca em investir em tecnologia disruptiva.