Connect with us

Ernest Piatrovich, Gerente de Produto da ARTA – Série de Entrevistas

Entrevistas

Ernest Piatrovich, Gerente de Produto da ARTA – Série de Entrevistas

mm

Ernest Piatrovich é um Gerente de Produto do AIBY Group, liderando um dos principais aplicativos de IA da empresa, ARTA – Gerador de Imagens de IA para iPhone e Android. Sua visão estratégica e pensamento criativo resultaram no aplicativo atingindo a posição #2 nas paradas de topo da App Store dos EUA logo após seu lançamento, ultrapassando a marca de 15 milhões de downloads em todo o mundo, e oferecendo os melhores Avatares de IA com base em um pipeline único interno, entre outros sucessos.

Você foi responsável por gerenciar o ARTA – Gerador de Arte de IA desde a fase de ideação até agora. Pode compartilhar algumas informações sobre esses primeiros dias?

Claro! Aquela foi uma época dinâmica. Conseguimos lançar um aplicativo bem feito em apenas uma semana, tornando-nos um dos primeiros criadores de aplicativos de consumo a oferecer funcionalidade de geração de imagem de texto em dispositivos móveis. Nosso objetivo era construir um produto de mercado de massa que fornecesse às pessoas um “artista” no bolso. Então, desde a concepção e os estágios iniciais de desenvolvimento, nos concentramos na usabilidade e escalabilidade. Mas, apesar de entrarmos no mercado muito a tempo, foi bastante desafiador crescer nossos volumes de instalação para uma extensão adequada, mesmo com uma equipe de compra de mídia brilhante como a nossa. Um impulso significativo ocorreu três meses após o lançamento do aplicativo, quando nossa funcionalidade de Avatar ganhou popularidade. O volume rapidamente se tornou moderadamente alto para nossa nicho, e desde então, nossa tarefa tem sido manter e aumentá-lo.

Qual era a pilha de tecnologia original que você lançou e quais eram alguns dos desafios com a geração de arte durante esse período?

Lançamos com base na Stable Diffusion 1.3, usando a API oficial da Stability.ai. Devo dizer que a situação com a qualidade das gerações naquela época e agora é como noite e dia. Quando começamos, nossos gerentes de QA frequentemente relatavam problemas relacionados ao valor estético das imagens ou imprecisões na representação de conceitos e recursos específicos. No entanto, isso era padrão para a Stable Diffusion naquela época. Agora, a saída de geração é muito melhor em todos os aspectos, incluindo reprodução estilística, coerência de composição, fidelidade visual, nível de detalhe e muito mais.

Logo após o lançamento do aplicativo, começamos a alugar servidores na Amazon, e apoiá-los se mostrou um desafio. Mesmo com fundos suficientes, pode não haver um A100 disponível quando você precisa, e você terá que esperar por alguns dias. Portanto, tivemos que viver sem autoscale, redirecionando todo o tráfego excessivo para as APIs de nossos parceiros.

Manter tudo isso continua bastante complicado até hoje, com problemas menores ocorrendo em um ou outro lado a cada mês ou algo assim. Por exemplo, ocasionalmente encontramos problemas temporários com a qualidade das gerações quando o provedor atualiza o servidor, testa pesos ou implementa outras alterações que afetam a saída de geração. Esses erros podem durar de uma hora a meio dia e são imprevisíveis e difíceis de rastrear. Geralmente, até que nosso departamento de suporte receba um relatório de usuário sobre imagens borradas ou algum outro problema que ocorre, o provedor de API já corrigiu o problema. No entanto, é uma preocupação séria para nossos usuários. Portanto, agora estamos construindo um sistema que combina vários provedores e nossos próprios servidores para gerações especiais, permitindo que tenhamos mais controle do nosso lado.

Como gerente de produto, quais decisões estratégicas foram fundamentais para guiar a ARTA para sua posição de topo logo após o lançamento?

A ascensão inicial da ARTA (na época chamada de Aiby) resultou da decisão oportuna de implementar a funcionalidade viral de Avatar quando ela começou a fazer rodagem nas mídias sociais. Reconhecemos rapidamente o interesse crescente nessa funcionalidade. Toda a nossa equipe, incluindo produto, marketing e desenvolvimento, estava no mesmo comprimento de onda e visionária sobre seu sucesso. Também reconhecemos que um curto tempo de mercado era crucial. Então, desde o dia um, dedicamos todos os nossos recursos para realizar essa funcionalidade, priorizando-a acima de outras tarefas.

Como nossa data limite era o mais rápido possível para não perder o momento em que os Avatares de IA atingem seu pico de popularidade, optamos por usar uma solução de terceiros e personalizá-la para nosso aplicativo. Enquanto os avatares começavam a ganhar tração em dispositivos móveis, a tecnologia já estava disponível na web há algum tempo, mesmo com uma API. Graças aos esforços concentrados da equipe, nossa primeira versão funcional estava na App Store em apenas cinco dias, oferecendo saídas de avatar altamente competitivas. Isso nos ajudou a atingir a posição #2 nas paradas de topo americanas e permanecer como o segundo aplicativo mais baixado nos EUA por uma semana.

Sua equipe acaba de lançar uma atualização para a funcionalidade de geração de avatar da ARTA. Pode compartilhar alguns detalhes sobre isso?

Os modelos de IA tendem a adicionar recursos faciais genéricos durante o treinamento, fazendo com que os avatares pareçam diferentes das fotos de origem, e quanto mais únicos forem os traços de alguém, mais diferente pode parecer a interpretação da IA. Para resolver esse problema, decidimos criar nosso próprio serviço de avatar. Havíamos estado usando uma API de terceiros por um longo tempo, mas não obtivemos melhorias significativas. Com a mudança de servidor, fomos capazes de configurar uma tecnologia de treinamento mais otimizada para melhor manter a semelhança do rosto real do usuário na saída do avatar. Embora eu não possa divulgar nosso pipeline único em detalhes, tornou-se possível devido a uma combinação específica de configurações SDXL, LORAs e melhoradores de rosto, e ainda não vimos resultados melhores em outros lugares.

Com o novo servidor, nos afastamos de um custo fixo para cada pacote de avatar para uma taxa de servidor mensal e agora podemos oferecer avatares por meio de uma assinatura semanal em vez de exigir compras in-app separadas. Isso cria uma experiência mais gratificante e é muito mais barato para nossos usuários se eles quiserem gerar, por exemplo, cinco pacotes de avatar dentro de uma semana ou alterar a entrada de foto à medida que avançam. Considerando tudo isso, nossa oferta de avatar atualmente apresenta a melhor relação custo-benefício no mercado. Embora haja aplicativos capazes de criar avatares realistas de alta qualidade, a ARTA se destaca por fornecer uma ampla gama de variações de saída coloridas e vibrantes, além de estilos realistas, todos com o mesmo nível preciso de reconhecimento facial.

De que outras maneiras a equipe melhorou as capacidades do aplicativo?

Concluímos que usar APIs de terceiros é mais eficiente para casos de uso comuns, como geração de imagem de texto, conversão de imagem e inpainting. Essa abordagem elimina a necessidade de gastar tempo descobrindo como integrar essas funcionalidades em nossa infraestrutura de servidor. Além disso, reduz custos em situações em que uma nova funcionalidade não decola como esperado e decidimos removê-la. A indústria de geração de imagens de IA está evoluindo rapidamente, com numerosos serviços dedicados disponíveis, então exploramos e gradualmente adotamos aqueles que se alinham com nossos objetivos.

Ao mesmo tempo, as necessidades da ARTA frequentemente se mostram bastante únicas, exigindo descobertas internas. Em casos em que as APIs personalizadas são inexistentes ou não fornecem qualidade de saída satisfatória, especializamos e personalizamos nossos serviços internos e desenvolvemos nossas próprias soluções para alcançar os resultados que desejamos. Por exemplo, além de atualizar os Avatares de IA, nossos engenheiros de ML e prompt desenvolveram um novo pipeline para a funcionalidade de Filtros de IA (Selfies) do aplicativo. Também desenvolvemos um algoritmo único para nossa funcionalidade de Bebê de IA que está por vir – uma funcionalidade de geração que permite que duas pessoas mesclam suas fotos e vejam como seu filho pode parecer. Com base em minha percepção do mundo como gerente de produto, eu inicialmente duvidei de seu sucesso, mas anúncios criativos com esse conceito são muito populares. Então, verificar as informações de marketing é especialmente útil em casos relacionados a conteúdo.

Os usuários podem influenciar o processo artístico na ARTA? Se sim, quais ferramentas e opções estão disponíveis para os usuários personalizarem a arte gerada por IA?

Lidamos com todos os aspectos complexos relacionados à geração, visando fornecer aos nossos usuários uma experiência artística simples sem sobrecarga técnica desnecessária. Então, a principal maneira como os usuários influenciam a saída é por meio de prompts. Mantemos esse processo transparente mostrando a solicitação de palavra exata que será enviada ao modelo para geração e oferecemos assistência na composição de prompts eficazes, se necessário.

Selecionamos as melhores configurações padrão para cada modelo integrado, de modo que os usuários não precisem se preocupar com isso. Normalmente, não há necessidade de ajustá-las para maximizar os resultados, pois elas já produzem uma saída de geração ótima. Ainda assim, se o usuário quiser experimentar, o modo avançado está a um toque de distância, e alguns parâmetros mais profundos estão na seção de configurações.

Em breve, adicionaremos um parâmetro de semente, permitindo que os usuários tenham controle total sobre a geração quando precisam recriar uma imagem idêntica do zero. Além disso, planejamos expandir a lista de proporções de aspecto. Também estamos pensando em adicionar vários controlnets às gerações regulares. Eles já são suportados no lado do servidor, pois os usamos para gerar Filtros de IA e esboços, mas ainda não são entregues aos usuários finais.

Como você percebe o impacto da IA, como a ARTA, no mercado de arte tradicional? Você vê a geração de arte de IA como uma disruptura ou uma melhoria para a indústria da arte?

Vejo como uma melhoria. A IA gerativa introduziu novas e valiosas oportunidades para melhorar o processo artístico, reduzindo significativamente o tempo de entrega. Ela ajuda artistas digitais, designers, ilustradores e outros criadores de conteúdo visual com uma variedade de tarefas, desde explorar ideias e desenvolver conceitos até gerar esboços e imagens prontas para uso. Em última análise, nossa capacidade de aproveitar seus avanços é limitada apenas por nossa imaginação.

Por exemplo, tenho um hobby de criar jogos de PC, e recentemente usei a ARTA para gerar um conjunto de ícones para habilidades e itens. Eu poderia projetá-los sozinho usando o Adobe Illustrator, mas com um gerador de imagens, obtive o que precisava quase imediatamente. Minha esposa, por sua vez, é uma retocadora-fotógrafa. Graças ao Preenchimento Gerativo do Photoshop, ela trabalha muito mais rápido e tem mais tempo livre (ou mais renda se decidir aceitar mais pedidos de retoque).

Quando feito bem, as imagens geradas por IA podem parecer indistinguíveis de obras de arte profissionais. No entanto, na minha opinião, a IA nunca substituirá um profissional de verdade. Não importa quão habilidosas as redes neurais se tornem, elas ainda são treinadas com dados criados por humanos, significando que tudo o que elas geram já existe em algum lugar. Como antes e agora, ideias verdadeiramente inovadoras só podem ser produzidas por pessoas. Embora o significado tradicional de arte permaneça associado a peças feitas por humanos, a arte de IA é como um spinoff antecipado, convidando todos, independentemente do background artístico, a experimentar uma nova experiência emocionante.

Olhando além da melhoria da qualidade da imagem, para onde você vê o futuro da geração de imagem de IA indo?

Juntamente com a qualidade da imagem, a velocidade das gerações aumentará, levando automaticamente a saídas mais rentáveis.

Acho que não demorará muito para que haja uma maneira fácil de gerar os mesmos personagens em diferentes ambientes e posições, então veremos o surgimento da IA em quadrinhos, livros infantis, gráficos de jogos e mais. O design de interiores e a produção de anúncios criativos já são esferas que ativamente aproveitam a IA gerativa, mas há mais por vir à medida que a tecnologia continua a evoluir.

Considerando que todas as gerações exigem GPUs fortes, essas tecnologias se desenvolverão junto com a IA por bastante tempo. Estamos apenas no início da jornada. Talvez a nova Apple de nosso tempo seja a Nvidia, com todos (ou pelo menos aqueles na indústria de TI) aguardando ansiosamente os novos lançamentos de placas de vídeo, assim como todos fazíamos com os iPhones.

Os geradores de imagens de IA continuarão a oferecer experiências divertidas e envolventes, seja introduzindo novos conceitos que surgem da cultura popular ou revivendo ideias antigas com tecnologia melhorada. Por exemplo, o interesse pelas gerações de Bebê de IA está crescendo atualmente. Uma tecnologia recente baseada na Stable Diffusion demonstrou saídas impressionantes ao mesclar os recursos de duas pessoas para revelar a aparência potencial de seu filho biológico. Os resultados superam muito o que estava disponível em sites de horóscopo alguns anos atrás, e as pessoas estão ansiosas para tentar novamente.

Quais são suas previsões para o que devemos esperar em seguida da IA Gerativa?

A onda de popularidade para geração de vídeo está no horizonte. Com os avanços da tecnologia atingindo um nível suficiente, haverá sem dúvida tentativas de treinar redes neurais usando expressões faciais e gestos de pessoas para criar avatares de vídeo, potencialmente até com vozes únicas de usuário.

A IA de Áudio é outra grande inovação que marca o início de uma nova era para a indústria de produção musical. Essa tecnologia já apresentou oportunidades incríveis para compor músicas com base apenas em entrada de texto, tornando-a uma ferramenta excelente para criar trilhas sonoras personalizadas para vários tipos de conteúdo de vídeo. No geral, é realmente divertido ouvir algo tão mundano quanto os Termos de Uso cantados ou cantados com entonação romântica.

Obrigado pela grande entrevista, leitores que desejam aprender mais ou gerar algumas imagens devem visitar ARTA.

Antoine é um líder visionário e sócio-fundador da Unite.AI, impulsionado por uma paixão inabalável em moldar e promover o futuro da IA e da robótica. Um empreendedor serial, ele acredita que a IA será tão disruptiva para a sociedade quanto a eletricidade, e é frequentemente pego falando sobre o potencial das tecnologias disruptivas e da AGI. Como um futurista, ele está dedicado a explorar como essas inovações moldarão nosso mundo. Além disso, ele é o fundador da Securities.io, uma plataforma focada em investir em tecnologias de ponta que estão redefinindo o futuro e remodelando setores inteiros.