Inteligência artificial
A ascensão dos vídeos deepfakes de Hunyuan

Devido à natureza de alguns dos materiais discutidos aqui, este artigo conterá menos links de referência e ilustrações do que o normal.
Algo digno de nota está acontecendo atualmente na comunidade de síntese de IA, embora sua importância possa levar algum tempo para ficar clara. Os amadores estão treinando modelos de vídeo de IA generativos para reproduzir as semelhanças de pessoas, usando LoRAs sobre o código aberto lançado recentemente pela Tencent Estrutura de vídeo Hunyuan.*
Clique para jogar. Diversos resultados de personalizações LoRA baseadas em Hunyuan disponíveis gratuitamente na comunidade Civit. Ao treinar modelos de adaptação de baixa classificação (LoRAs), problemas com estabilidade temporal, que têm atormentado a geração de vídeo de IA por dois anos, são significativamente reduzidos. Fontes: civit.ai
No vídeo mostrado acima, as imagens das atrizes Natalie Portman, Christina Hendricks e Scarlett Johansson, juntamente com o líder de tecnologia Elon Musk, foram treinadas em arquivos complementares relativamente pequenos para o sistema de vídeo generativo Hunyuan, que pode ser instalado sem filtros de conteúdo (como filtros NSFW) no computador de um usuário.
A criadora do Christina Hendricks LoRA mostrado acima afirma que apenas 16 imagens do Homens loucos Foram necessários programas de TV para desenvolver o modelo (que requer apenas 307 MB de download); diversas postagens da comunidade Stable Diffusion no Reddit e no Discord confirmam que LoRAs desse tipo não exigem grandes quantidades de dados de treinamento, ou longos tempos de treinamento, na maioria dos casos.
Clamber para jogar. Arnold Schwarzenegger ganha vida em um vídeo LoRA Hunyuan que pode ser baixado no Civit. Veja https://www.youtube.com/watch?v=1D7B9g9rY68 para mais exemplos de Arnie, do entusiasta de IA Bob Doyle.
Os LoRAs Hunyuan podem ser treinados em imagens estáticas ou vídeos, embora o treinamento em vídeos exija mais recursos de hardware e mais tempo de treinamento.
O modelo de vídeo Hunyuan apresenta 13 bilhões de parâmetros, excedendo os 12 bilhões de parâmetros de Sora e excedendo em muito os menos capazes Hunyuan-DiT modelo lançado para código aberto no verão de 2024, que tem apenas 1.5 bilhão de parâmetros.
Como era o caso dois anos e meio atrás com Stable Diffusion e LoRA (veja exemplos de celebridades 'nativas' do Stable Diffusion 1.5 aqui), o modelo de fundação em questão tem uma compreensão muito mais limitada das personalidades das celebridades, comparado ao nível de fidelidade que pode ser obtido por meio de implementações LoRA 'injetadas por ID'.
Efetivamente, um LoRA personalizado e focado na personalidade obtém uma 'carona gratuita' nas capacidades de síntese significativas do modelo Hunyuan base, oferecendo uma síntese humana notavelmente mais eficaz do que a que pode ser obtida na era de 2017. autoencoder deepfakes ou tentando adicionar movimento a imagens estáticas por meio de sistemas como o festejado Retrato ao vivo.
Todos os LoRAs representados aqui podem ser baixados gratuitamente da comunidade Civit, muito popular, enquanto o número mais abundante de LoRAs de 'imagem estática' personalizados mais antigos também podem potencialmente criar imagens 'semente' para o processo de criação de vídeo (ou seja, imagem para vídeo, um lançamento pendente para Hunyuan Video, embora soluções alternativas são possíveis, por enquanto).
Clique para jogar. Acima, amostras de um Flux LoRA "estático"; abaixo, exemplos de um vídeo LoRA da Hunyuan com a cantora Taylor Swift. Ambos os LoRAs estão disponíveis gratuitamente na comunidade Civit.
No momento em que escrevo, o site Civit oferece 128 resultados de busca para "Hunyuan"*. Quase todos são, de alguma forma, modelos NSFW; 22 retratam celebridades; 18 são projetados para facilitar a geração de pornografia hardcore; e apenas sete deles retratam homens em vez de mulheres.
Quais as novidades?
Devido ao natureza em evolução do termo deepfake, e compreensão pública limitada do (bastante severo) limitações das estruturas de síntese de vídeo humano por IA até o momento, a importância do Hunyuan LoRA não é fácil de entender para quem acompanha casualmente o cenário da IA generativa. Vamos revisar algumas das principais diferenças entre os Hunyuan LoRAs e abordagens anteriores de geração de vídeo por IA baseada em identidade.
1: Instalação local irrestrita
O aspecto mais importante do Hunyuan Video é o fato de que ele pode ser baixado localmente e que ele coloca um recurso muito poderoso e sem censura Sistema de geração de vídeo de IA nas mãos do usuário casual, bem como da comunidade de efeitos visuais (na medida em que as licenças permitam em diferentes regiões geográficas).
A última vez que isso aconteceu foi com o advento do lançamento do modelo de difusão estável Stability.ai para código aberto no verão de 2022. Naquela época, o DALL-E2 da OpenAI tinha capturada a imaginação do público, embora o DALLE-2 fosse um serviço pago com restrições notáveis (que aumentaram com o tempo).
Quando a difusão estável se tornou disponível e a adaptação de baixa classificação tornou possível gerar imagens da identidade de qualquer pessoa (celebridade ou não), o enorme locus de interesse do desenvolvedor e do consumidor ajudou a Stable Diffusion a eclipsar a popularidade do DALLE-2; embora este último fosse um sistema mais capaz pronto para uso, suas rotinas de censura eram visto como oneroso por muitos de seus usuários, e a personalização não era possível.
Provavelmente, o mesmo cenário se aplica agora entre Sora e Hunyuan – ou, mais precisamente, entre Grau Sora sistemas de vídeo generativos proprietários e rivais de código aberto, dos quais Hunyuan é o primeiro – mas provavelmente não o último (aqui, considere que Fluxo acabaria ganhando terreno significativo na Difusão Estável).
Os usuários que desejam criar uma saída Hunyuan LoRA, mas que não possuem equipamentos efetivamente robustos, podem, como sempre, transferir o aspecto GPU do treinamento para serviços de computação online. como o RunPod. Isso não é o mesmo que criar vídeos de IA em plataformas como Kaiber ou Kling, já que não há filtragem semântica ou baseada em imagem (censura) envolvida no aluguel de uma GPU online para dar suporte a um fluxo de trabalho local.
2: Não há necessidade de vídeos de "host" e muito esforço
Quando os deepfakes surgiram no cenário no final de 2017, o código publicado anonimamente evoluiria para os forks tradicionais DeepFace Lab e Troca de rosto (assim como o DeepFace Live sistema de deepfaking em tempo real).
Este método exigiu a cuidadosa curadoria de milhares de imagens faciais de cada identidade a ser trocada; quanto menos esforço fosse colocado neste estágio, menos eficaz o modelo seria. Além disso, os tempos de treinamento variavam entre 2 e 14 dias, dependendo do hardware disponível, estressando até mesmo sistemas capazes a longo prazo.
Quando o modelo finalmente estava pronto, ele só conseguia impor rostos em vídeos existentes e geralmente precisava de uma identidade "alvo" (ou seja, real) que tivesse aparência próxima à identidade sobreposta.
Mais recentemente, ROOP, LivePortrait e inúmeras estruturas semelhantes forneceram funcionalidades semelhantes com muito menos esforço e, muitas vezes, com resultados superiores – mas sem capacidade de gerar resultados precisos deepfakes de corpo inteiro – ou qualquer elemento diferente de rostos.

Exemplos de ROOP Unleashed e LivePortrait (inserção no canto inferior esquerdo), do fluxo de conteúdo de Bob Doyle no YouTube. Fontes: https://www.youtube.com/watch?v=i39xeYPBAAM e https://www.youtube.com/watch?v=QGatEItg2Ns
Por outro lado, os Hunyuan LoRAs (e os sistemas similares que inevitavelmente surgirão) permitem a criação irrestrita de mundos inteiros, incluindo simulação de corpo inteiro da identidade LoRA treinada pelo usuário.
3: Consistência temporal significativamente melhorada
A consistência temporal foi o Santo Graal de vídeo de difusão há vários anos. O uso de um LoRA, junto com prompts apropriados, dá a uma geração de vídeo Hunyuan uma referência de identidade constante para aderir. Em teoria (esses são os primeiros dias), alguém poderia treinar múltiplos LoRAs de uma identidade particular, cada um usando roupas específicas.
Sob esses auspícios, as roupas também têm menos probabilidade de "sofrer mutação" ao longo da geração de um vídeo (já que o sistema generativo baseia o próximo quadro em uma janela muito limitada de quadros anteriores).
(Alternativamente, como com sistemas LoRA baseados em imagem, pode-se simplesmente aplicar múltiplos LoRAs, como LoRAs de identidade + traje, a uma única geração de vídeo)
4: Acesso ao 'Experimento Humano'
Como eu recentemente observado, o setor de IA generativa proprietária e de nível FAANG parece agora estar tão cauteloso com potenciais críticas relacionadas com as capacidades de síntese humana dos seus projetos, que as reais pessoas raramente aparecem nas páginas de projetos para grandes anúncios e lançamentos. Em vez disso, a literatura publicitária relacionada tende cada vez mais a mostrar temas "bonitos" e "não ameaçadores" em resultados sintetizados.
Com o advento dos Hunyuan LoRAs, pela primeira vez, a comunidade tem a oportunidade de expandir os limites da síntese de vídeo humano baseada em LDM em um sistema altamente capaz (em vez de marginal) e explorar completamente o assunto que mais interessa à maioria de nós: as pessoas.
Implicações
Como uma busca por "Hunyuan" na comunidade Civit mostra principalmente LoRAs de celebridades e LoRAs "hardcore", a implicação central do advento dos LoRAs Hunyuan é que eles serão usados para criar vídeos pornográficos (ou difamatórios) de IA de pessoas reais — celebridades e desconhecidos.
Para fins de conformidade, os amadores que criam Hunyuan LoRAs e que os experimentam em diversos servidores Discord são cuidadosos em proibir que exemplos de pessoas reais sejam postados. A realidade é que mesmo imagem- deepfakes baseados em severamente armado; e a perspectiva de adicionar vídeos verdadeiramente realistas à mistura pode finalmente justificar os receios crescentes que têm sido recorrentes nos meios de comunicação social ao longo dos últimos sete anos e que têm motivado novas regulamentos.
A força condutora
Como sempre, pornografia permanece a força motriz da tecnologia. Seja qual for a nossa opinião sobre tal uso, esse motor implacável de ímpeto impulsiona avanços no estado da arte que podem, em última análise, beneficiar uma adoção mais generalizada.
Nesse caso, é possível que o preço seja mais alto do que o normal, já que o open source da criação de vídeos hiper-realistas tem implicações óbvias para o uso indevido criminoso, político e ético.
Um grupo do Reddit (que não vou nomear aqui) dedicado à geração de IA de conteúdo de vídeo NSFW tem um servidor Discord aberto associado onde os usuários estão refinando UI confortável Fluxos de trabalho para a geração de vídeos pornográficos baseados em Hunyuan. Diariamente, usuários postam exemplos de clipes NSFW – muitos dos quais podem ser razoavelmente classificados como "extremos", ou pelo menos ultrapassando as restrições estabelecidas nas regras do fórum.
Esta comunidade também mantém um repositório GitHub substancial e bem desenvolvido com ferramentas que podem baixar e processar vídeos pornográficos, para fornecer dados de treinamento para novos modelos.
Desde o treinador LoRA mais popular, Kohya-ss, agora suporta treinamento Hunyuan LoRA, as barreiras de entrada para treinamento de vídeo generativo ilimitado estão diminuindo diariamente, juntamente com os requisitos de hardware para treinamento e geração de vídeos em Hunyuan.
O aspecto crucial dos esquemas de treinamento dedicados à IA baseada em pornografia (em vez de identidade-modelos baseados, como celebridades) é que um modelo de base padrão como Hunyuan não é especificamente treinado em saída NSFW e, portanto, pode ter um desempenho ruim quando solicitado a gerar conteúdo NSFW ou falhar em desenredar conceitos e associações aprendidas de forma performática ou convincente.
Ao desenvolver modelos de base NSFW e LoRAs ajustados, será cada vez mais possível projetar identidades treinadas em um domínio de vídeo 'pornográfico' dedicado; afinal, esta é apenas a versão em vídeo de algo que já ocorreu para imagens estáticas dos últimos dois anos e meio.
VFX
O enorme aumento na consistência temporal que os Hunyuan Video LoRAs oferecem é uma vantagem óbvia para o setor de efeitos visuais de IA, que depende muito da adaptação de software de código aberto.
Embora a abordagem Hunyuan Video LoRA gere um quadro e um ambiente inteiros, as empresas de efeitos visuais quase certamente começaram a experimentar isolar os rostos humanos temporalmente consistentes que podem ser obtidos por esse método, a fim de sobrepor ou integrar rostos em filmagens de origem do mundo real.
Assim como a comunidade de amadores, as empresas de efeitos visuais devem esperar pela funcionalidade de imagem para vídeo e vídeo para vídeo da Hunyuan Video, que é potencialmente a ponte mais útil entre o conteúdo "deepfake" baseado em ID e orientado por LoRA; ou então improvisar e usar o intervalo para sondar as capacidades externas da estrutura e de possíveis adaptações, e até mesmo bifurcações proprietárias internas da Hunyuan Video.
Embora o termos de licença Para o Hunyuan Video, tecnicamente, permite a representação de indivíduos reais, desde que seja concedida permissão, mas proíbe seu uso na UE, no Reino Unido e na Coreia do Sul. Seguindo o princípio de "permanência em Vegas", isso não significa necessariamente que o Hunyuan Video não será usado nessas regiões; no entanto, a perspectiva de auditorias externas de dados, para impor uma regulamentações crescentes em torno da IA generativa, poderia tornar esse uso ilícito arriscado.
Outra área potencialmente ambígua dos termos da licença afirma:
'Se, na data de lançamento da versão Tencent Hunyuan, o número de usuários ativos mensais de todos os produtos ou serviços disponibilizados pelo ou para o Licenciado for maior que 100 milhões de usuários ativos mensais no mês civil anterior, Você deverá solicitar uma licença da Tencent, que a Tencent poderá conceder a Você a seu exclusivo critério, e Você não estará autorizado a exercer quaisquer direitos sob este Contrato, a menos que ou até que a Tencent lhe conceda expressamente tais direitos.'
Esta cláusula é claramente direcionada à multidão de empresas que provavelmente farão a intermediação entre a Hunyuan Video e um grupo de usuários relativamente analfabetos em tecnologia, e que serão obrigadas a incluir a Tencent na ação, acima de um certo limite de usuários.
Se a formulação ampla também poderia abranger indireto o uso (ou seja, por meio do fornecimento de efeitos visuais habilitados para Hunyuan em filmes e programas de TV populares) pode precisar de esclarecimento.
Conclusão
Como o vídeo deepfake existe há muito tempo, seria fácil subestimar a importância do Hunyuan Video LoRA como uma abordagem para síntese de identidade e deepfaking; e supor que os desenvolvimentos atualmente manifestados na comunidade Civit e em Discords e subreddits relacionados representam um mero empurrãozinho em direção à síntese de vídeo humana verdadeiramente controlável.
O mais provável é que os esforços atuais representem apenas uma fração do potencial da Hunyuan Video de criar deepfakes de corpo inteiro e de ambiente inteiro completamente convincentes; quando o componente de imagem para vídeo for lançado (rumores dizem que ocorrerá neste mês), um nível muito mais granular de poder generativo ficará disponível tanto para as comunidades amadoras quanto profissionais.
Quando a Stability.ai lançou o Stable Diffusion em 2022, muitos observadores não conseguiram determinar por que a empresa simplesmente doaria o que era, na época, um sistema generativo tão valioso e poderoso. Com a Hunyuan Video, o motivo do lucro é construído diretamente na licença — embora possa ser difícil para a Tencent determinar quando uma empresa aciona o esquema de participação nos lucros.
Em todo caso, o resultado é o mesmo de 2022: comunidades dedicadas ao desenvolvimento se formaram imediatamente e com intenso fervor em torno do lançamento. Algumas das estradas que esses esforços tomarão nos próximos 12 meses certamente devem gerar novas manchetes.
* Até 136 no momento da publicação.
Primeira publicação terça-feira, 7 de janeiro de 2025