Inteligência artificial
O Surgimento dos Vídeos Deepfakes Hunyuan

Devido à natureza de alguns dos materiais discutidos aqui, este artigo conterá menos links de referência e ilustrações do que o usual.
Algo notável está acontecendo atualmente na comunidade de síntese de AI, embora sua significância possa levar um tempo para se tornar clara. Hobistas estão treinando modelos de vídeo de IA generativa para reproduzir as semelhanças de pessoas, usando LoRAs baseados em vídeo no framework Hunyuan Video de código aberto recentemente lançado pela Tencent.*
Clique para reproduzir. Resultados diversos de personalizações de LoRA baseadas em Hunyuan disponíveis gratuitamente na comunidade Civit. Ao treinar modelos de adaptação de baixa classificação (LoRAs), problemas com estabilidade temporal, que têm atormentado a geração de vídeo de IA por dois anos, são significativamente reduzidos. Fontes: civit.ai
No vídeo mostrado acima, as semelhanças das atrizes Natalie Portman, Christina Hendricks e Scarlett Johansson, juntamente com o líder de tecnologia Elon Musk, foram treinadas em arquivos de adição relativamente pequenos para o sistema de vídeo generativo Hunyuan, que pode ser instalado sem filtros de conteúdo (como filtros NSFW) no computador do usuário.
O criador do LoRA de Christina Hendricks mostrado acima afirma que apenas 16 imagens do show de TV Mad Men foram necessárias para desenvolver o modelo (que é um download de apenas 307mb); múltiplos posts da comunidade Stable Diffusion no Reddit e Discord confirmam que LoRAs desse tipo não requerem grandes quantidades de dados de treinamento, ou tempos de treinamento longos, na maioria dos casos.
Clique para reproduzir. Arnold Schwarzenegger é trazido à vida em um LoRA de vídeo Hunyuan que pode ser baixado no Civit. Veja https://www.youtube.com/watch?v=1D7B9g9rY68 para mais exemplos de Arnie, do entusiasta de IA Bob Doyle.
LoRAs Hunyuan podem ser treinados em imagens estáticas ou vídeos, embora o treinamento em vídeos exija mais recursos de hardware e tempo de treinamento aumentado.
O modelo de vídeo Hunyuan apresenta 13 bilhões de parâmetros, excedendo os 12 bilhões de parâmetros da Sora, e muito excedendo o modelo menos capaz Hunyuan-DiT lançado como código aberto no verão de 2024, que tem apenas 1,5 bilhão de parâmetros.
Como foi o caso há dois anos e meio com Stable Diffusion e LoRA (veja exemplos de celebridades ‘nativas’ do Stable Diffusion 1.5 aqui), o modelo de base em questão tem uma compreensão muito mais limitada das personalidades de celebridades, em comparação com o nível de fidelidade que pode ser obtido por meio de implementações de LoRA ‘injetadas de ID’.
Efetivamente, um LoRA personalizado, focado na personalidade, obtém uma ‘carona gratuita’ nas significativas capacidades de síntese da base do modelo Hunyuan, oferecendo uma síntese humana notavelmente mais eficaz do que pode ser obtida por meio de autoencoders de deepfakes de 2017 ou tentando adicionar movimento a imagens estáticas por meio de sistemas como o famoso LivePortrait.
Todos os LoRAs mostrados aqui podem ser baixados gratuitamente da comunidade Civit, enquanto o número mais abundante de LoRAs ‘estáticos’ personalizados mais antigos também pode potencialmente criar ‘sementes’ de imagens para o processo de criação de vídeo (ou seja, imagem-para-vídeo, uma versão pendente para Hunyuan Video, embora soluções alternativas sejam possíveis, por enquanto).
Clique para reproduzir. Acima, amostras de um LoRA ‘estático’ Flux; abaixo, exemplos de um LoRA de vídeo Hunyuan com a música Taylor Swift. Ambos desses LoRAs estão disponíveis gratuitamente na comunidade Civit.
À medida que escrevo, o site Civit oferece 128 resultados de busca para ‘Hunyuan’*. Quase todos eles são de alguma forma modelos NSFW; 22 retratam celebridades; 18 são projetados para facilitar a geração de pornografia hardcore; e apenas sete deles retratam homens em vez de mulheres.
O Que Há de Novo?
Devido à natureza evolutiva do termo deepfake, e à limitada compreensão pública das (muito severas) limitações dos quadros de síntese de vídeo de IA humana até o momento, a significância do LoRA Hunyuan não é fácil de entender para alguém que segue casualmente a cena de IA generativa. Vamos revisar algumas das principais diferenças entre LoRAs Hunyuan e abordagens anteriores para geração de vídeo de IA baseada em identidade.
1: Instalação Local Desimpedida
O aspecto mais importante do Hunyuan Video é o fato de que ele pode ser baixado localmente, e que coloca um sistema de geração de vídeo de IA muito poderoso e sem censura nas mãos do usuário casual, bem como da comunidade de efeitos visuais (na medida em que as licenças possam permitir em diferentes regiões geográficas).
A última vez que isso aconteceu foi com o lançamento do modelo Stable Diffusion para código aberto pela Stability.ai no verão de 2022. Naquela época, o DALL-E2 da OpenAI havia capturado a imaginação do público, embora o DALLE-2 fosse um serviço pago com restrições notáveis (que cresceram com o tempo).
Quando o Stable Diffusion se tornou disponível, e a adaptação de baixa classificação tornou possível gerar imagens da identidade de qualquer pessoa (celebridade ou não), o grande locus de interesse de desenvolvedores e consumidores ajudou o Stable Diffusion a eclipsar a popularidade do DALLE-2; embora o último fosse um sistema mais capaz fora da caixa, suas rotinas de censura eram vistas como onerosas por muitos de seus usuários, e a personalização não era possível.
Argumenta-se que o mesmo cenário agora se aplica entre Sora e Hunyuan – ou, mais precisamente, entre sistemas de vídeo generativos proprietários de nível Sora e rivais de código aberto, dos quais o Hunyuan é o primeiro – mas provavelmente não o último (aqui, considere que Flux eventualmente ganharia terreno significativo sobre o Stable Diffusion).
Usuários que desejam criar saída de LoRA Hunyuan, mas que falta equipamento eficaz, podem, como sempre, offloadar o aspecto de GPU do treinamento para serviços de computação online como RunPod. Isso não é o mesmo que criar vídeos de IA em plataformas como Kaiber ou Kling, desde que não há filtragem semântica ou baseada em imagem (censura) envolvida na locação de uma GPU online para suportar um fluxo de trabalho local.
2: Nenhuma Necessidade de Vídeos ‘Hospedeiros’ e Grande Esforço
Quando os deepfakes surgiram no final de 2017, o código postado anonimamente evoluiria para os forks principais DeepFaceLab e FaceSwap (bem como o sistema de DeepFaceLive de deepfaking em tempo real).
Esse método exigia a cura minuciosa de milhares de imagens de face de cada identidade a ser trocada; o menos esforço aplicado a essa etapa, menos eficaz o modelo seria. Além disso, os tempos de treinamento variavam entre 2-14 dias, dependendo do hardware disponível, estressando até mesmo sistemas capazes a longo prazo.
Quando o modelo finalmente estava pronto, ele só podia impor faces em vídeo existente e geralmente precisava de um ‘alvo’ (ou seja, identidade real) que fosse próximo em aparência à identidade superposta.
Mais recentemente, ROOP, LivePortrait e numerousos frameworks semelhantes forneceram funcionalidade semelhante com muito menos esforço, e frequentemente com resultados superiores – mas com nenhuma capacidade de gerar deepfakes de corpo inteiro precisos – ou qualquer elemento além de faces.

Exemplos de ROOP Unleashed e LivePortrait (inset lower left), do fluxo de conteúdo de Bob Doyle no YouTube. Fontes: https://www.youtube.com/watch?v=i39xeYPBAAM e https://www.youtube.com/watch?v=QGatEItg2Ns
Em contraste, os LoRAs Hunyuan (e os sistemas semelhantes que inevitavelmente seguirão) permitem a criação desimpedida de mundos inteiros, incluindo simulações de corpo inteiro de identidades treinadas pelo usuário.
3: Consistência Temporal Massivamente Melhorada
A consistência temporal tem sido o Santo Graal da difusão de vídeo por vários anos agora. O uso de um LoRA, juntamente com prompts apropriados, dá à geração de vídeo Hunyuan uma referência de identidade constante para aderir. Em teoria (estes são dias iniciais), alguém poderia treinar múltiplos LoRAs de uma identidade específica, cada um usando roupas específicas.
Sob essas circunstâncias, as roupas também são menos prováveis de ‘mutar’ ao longo do curso de uma geração de vídeo (já que o sistema generativo baseia o próximo frame em uma janela muito limitada de frames anteriores).
(Alternativamente, como nos sistemas de LoRA baseados em imagem, alguém pode simplesmente aplicar múltiplos LoRAs, como identidade + LoRAs de figurino, a uma geração de vídeo única)
4: Acesso ao ‘Experimento Humano’
Como recentemente observei, o setor de IA generativa proprietário e de nível FAANG agora parece ser tão cauteloso em relação às capacidades de síntese humana de seus projetos, que as pessoas reais raramente aparecem em páginas de projeto para anúncios e lançamentos principais. Em vez disso, a literatura de publicidade relacionada tende a mostrar sujeitos ‘fofos’ e ‘não ameaçadores’ em resultados sintetizados.
Com o advento dos LoRAs Hunyuan, pela primeira vez, a comunidade tem a oportunidade de empurrar os limites da síntese de vídeo de IA humana baseada em LDM em um sistema altamente capaz (em vez de marginal), e para explorar completamente o assunto que mais interessa à maioria de nós – as pessoas.
Implicações
Desde que uma busca por ‘Hunyuan’ na comunidade Civit mostra principalmente LoRAs de celebridades e ‘hardcore’, a implicação central do advento dos LoRAs Hunyuan é que eles serão usados para criar vídeos pornográficos de IA (ou outros vídeos difamatórios) de pessoas reais – celebridades e desconhecidos.
Para fins de conformidade, os hobistas que criam LoRAs Hunyuan e que experimentam com eles em servidores Discord e subreddits relacionados são cuidadosos para proibir exemplos de pessoas reais de serem postados. A realidade é que até mesmo imagens de deepfakes agora são severamente armados; e a perspectiva de adicionar vídeos realistas à mistura pode finalmente justificar os medos aumentados que têm sido recorrentes na mídia nos últimos sete anos, e que têm provocado novas regulamentações.
A Força Motriz
Como sempre, a pornografia permanece a força motriz para a tecnologia. Qualquer que seja nossa opinião sobre tal uso, essa engrenagem implacável de impulso impulsiona avanços no estado da arte que podem eventualmente beneficiar a adoção mais mainstream.
Nesse caso, é possível que o preço seja maior do que o usual, desde que a disponibilização de código aberto da criação de vídeo hiper-realista tem implicações óbvias para uso criminoso, político e ético.
Um grupo do Reddit (que não nomearei aqui) dedicado à geração de vídeo NSFW de IA tem um servidor Discord aberto associado, onde os usuários estão aprimorando fluxos de trabalho ComfyUI para geração de vídeo pornográfico baseado em Hunyuan. Diariamente, os usuários postam exemplos de clipes NSFW – muitos dos quais podem ser razoavelmente denominados ‘extremos’, ou pelo menos esticando as restrições estabelecidas nas regras do fórum.
Essa comunidade também mantém um repositório GitHub substancial e bem desenvolvido com ferramentas que podem baixar e processar vídeos pornográficos, para fornecer dados de treinamento para novos modelos.
Desde que o treinador de LoRA mais popular, Kohya-ss, agora suporta treinamento de LoRA Hunyuan, as barreiras para entrada para treinamento de vídeo generativo ilimitado estão diminuindo diariamente, juntamente com os requisitos de hardware para treinamento e geração de vídeo Hunyuan.
O aspecto crucial dos esquemas de treinamento dedicados para IA pornográfica (em vez de modelos de identidade, como celebridades) é que um modelo de base padrão como Hunyuan não é treinado especificamente em saída NSFW, e pode portanto realizar um desempenho pobre quando solicitado a gerar conteúdo NSFW, ou falhar em desvincular conceitos e associações aprendidos de maneira performática ou convincente.
Ao desenvolver modelos de base NSFW refinados e LoRAs, será cada vez mais possível projetar identidades treinadas em um domínio de vídeo ‘pornô’ dedicado; afinal, isso é apenas a versão de vídeo de algo que já ocorreu para imagens estáticas nos últimos dois anos e meio.
Efeitos Visuais
O aumento enorme na consistência temporal que os LoRAs de vídeo Hunyuan oferecem é um benefício óbvio para a indústria de efeitos visuais de IA, que se apoia muito na adaptação de software de código aberto.
Embora a abordagem LoRA de vídeo Hunyuan gere um frame e ambiente inteiros, as empresas de efeitos visuais quase certamente começaram a experimentar a isolamento de faces humanas temporalmente consistentes que podem ser obtidas por esse método, a fim de superpor ou integrar faces em footage de fonte real.
Assim como a comunidade de hobistas, as empresas de efeitos visuais devem esperar pela funcionalidade de imagem-para-vídeo e vídeo-para-vídeo do Hunyuan Video, que é potencialmente a ponte mais útil entre conteúdo de ‘deepfake’ baseado em LoRA e ID; ou improvisar e usar o intervalo para sondar as capacidades externas do framework e de adaptações potenciais, e até mesmo forks proprietários internos do Hunyuan Video.
Embora os termos de licença para Hunyuan Video tecnicamente permitam a representação de indivíduos reais, desde que a permissão seja dada, eles proíbem seu uso na UE, Reino Unido e na Coreia do Sul. Nesse ‘princípio de Vegas’, isso não necessariamente significa que o Hunyuan Video não será usado nessas regiões; no entanto, a perspectiva de auditorias de dados externas para aplicar regulamentações crescentes em torno de IA generativa pode tornar esse uso ilícito arriscado.
Outra área potencialmente ambígua dos termos de licença afirma:
‘Se, na data de lançamento da versão Tencent Hunyuan, os usuários ativos mensais de todos os produtos ou serviços disponibilizados por ou para o Licenciado forem maiores que 100 milhões de usuários ativos mensais no mês de calendário anterior, Você deve solicitar uma licença à Tencent, que a Tencent pode conceder a Você a seu exclusivo critério, e Você não está autorizado a exercer nenhum dos direitos sob este Acordo, a menos que ou até que a Tencent conceda expressamente esses direitos a Você.’
Essa cláusula é claramente direcionada à multidão de empresas que provavelmente ‘intermediarão’ o Hunyuan Video para um corpo relativamente tecnologicamente iletrado de usuários, e que serão obrigadas a incluir a Tencent na ação, acima de um certo teto de usuários.
Se a ampla redação também pode cobrir uso indireto (ou seja, por meio da disponibilização de saída de efeitos visuais habilitada para Hunyuan em filmes e programas de TV populares) pode precisar de esclarecimento.
Conclusão
Desde que os vídeos deepfakes existem há muito tempo, seria fácil subestimar a significância do LoRA de vídeo Hunyuan como uma abordagem para síntese de identidade e deepfaking; e supor que os desenvolvimentos atuais manifestados na comunidade Civit, e em Discords e subreddits relacionados, representam um mero impulso incremental em direção à síntese de vídeo de IA humana verdadeiramente controlável.
É mais provável que os esforços atuais representem apenas uma fração do potencial do Hunyuan Video para criar deepfakes de corpo inteiro e ambiente completamente convincentes; uma vez que o componente de imagem-para-vídeo for lançado (rumores indicam que isso está ocorrendo este mês), um nível muito mais granular de poder generativo estará disponível para as comunidades de hobistas e profissionais.
Quando a Stability.ai lançou o Stable Diffusion em 2022, muitos observadores não puderam determinar por que a empresa simplesmente daria um sistema generativo tão valioso e poderoso. Com o Hunyuan Video, o motivo de lucro está diretamente incorporado à licença – embora possa provar ser difícil para a Tencent determinar quando uma empresa dispara o esquema de compartilhamento de lucros.
Em qualquer caso, o resultado é o mesmo que em 2022: comunidades de desenvolvimento dedicadas se formaram imediatamente e com fervor intenso em torno do lançamento. Alguns dos caminhos que esses esforços tomarão nos próximos 12 meses são certamente destinados a provocar novos títulos.
* Até 136 na época da publicação.
Publicado pela primeira vez na terça-feira, 7 de janeiro de 2025












