Entrevistas
Ernest Piatrovich, Gerente de Producto en ARTA – Serie de Entrevistas

Ernest Piatrovich es un Gerente de Producto en AIBY Group, liderando una de las aplicaciones de alta gama impulsadas por IA de la empresa, ARTA – Generador de Imágenes de IA para iPhone y Android. Su visión estratégica y su pensamiento creativo dieron como resultado que la aplicación alcanzara el puesto #2 en las listas de éxitos de la App Store de EE. UU. poco después de su lanzamiento, cruzando el hito de 15 millones de descargas en todo el mundo, y ofreciendo los mejores Avatares de IA basados en una canalización única en casa, entre otros éxitos.
Ha sido responsable de gestionar ARTA – Generador de Arte de IA desde la fase de ideación hasta ahora. ¿Podría compartir algunas perspectivas sobre esos primeros días?
¡Claro! Esos fueron tiempos dinámicos. Logramos lanzar una aplicación bien elaborada en solo una semana, convirtiéndonos en uno de los primeros creadores de aplicaciones de consumo en ofrecer funcionalidad de generación de imagen a texto en móviles. Nuestro objetivo era construir un producto de mercado de masas que brindara a las personas “un artista” en su bolsillo. Así que, desde la conceptualización y las primeras etapas de desarrollo, nos enfocamos en la usabilidad y la escalabilidad. Pero a pesar de entrar al mercado en el momento oportuno, fue bastante desafiante aumentar nuestros volúmenes de instalación a una magnitud adecuada, incluso con un equipo de compra de medios brillante como el nuestro. Un impulso significativo ocurrió tres meses después del lanzamiento de la aplicación cuando nuestra función de Avatar se volvió popular. El volumen se volvió rápidamente moderadamente alto para nuestro nicho, y desde entonces, nuestra tarea ha sido mantenerlo e incrementarlo.
¿Cuál fue la pila de tecnología original con la que se lanzó y cuáles fueron algunos de los desafíos con la generación de arte durante este período?
Lanzamos basados en Stable Diffusion 1.3 utilizando la API oficial de Stability.ai. Debo decir que la situación con la calidad de las generaciones entonces y ahora es como la noche y el día. Cuando empezamos, nuestros administradores de QA informaban frecuentemente problemas relacionados con el valor estético de las imágenes o inexactitudes en la representación de conceptos y características específicas. Sin embargo, eso era estándar para Stable Diffusion en ese momento. Ahora, la salida de generación es mucho mejor en todos los aspectos, incluyendo la reproducción estilística, la coherencia de la composición, la fidelidad visual, el nivel de detalle y más.
Poco después del lanzamiento de la aplicación, comenzamos a alquilar servidores en Amazon, y apoyarlos resultó ser bastante un desafío. Incluso con fondos suficientes, puede que no haya un A100 disponible cuando lo necesite, y tendrá que esperar un par de días. Por lo tanto, tuvimos que vivir sin autoscale, redirigiendo todo el tráfico excesivo a las API de nuestros socios.
Mantener todo esto sigue siendo bastante complicado hasta hoy en día, con problemas menores que ocurren en un extremo o en el otro cada mes o así. Por ejemplo, ocasionalmente nos encontramos con problemas temporales con la calidad de las generaciones cuando el proveedor actualiza el servidor, prueba pesos o implementa otros cambios que afectan la salida de generación. Estos errores pueden durar desde una hora hasta medio día y son impredecibles y difíciles de rastrear. Por lo general, para cuando nuestro departamento de soporte recibe un informe de usuario sobre imágenes borrosas u otro problema que ocurre, el proveedor de la API ya ha solucionado el problema. Sin embargo, es una preocupación seria para nuestros usuarios. Por lo tanto, ahora estamos construyendo un sistema que combina múltiples proveedores y nuestros propios servidores para generaciones especiales, lo que nos permite tener más control en nuestro lado de las cosas.
Como gerente de producto, ¿qué decisiones estratégicas han sido fundamentales para guiar a ARTA a su posición de alta clasificación poco después de su lanzamiento?
El ascenso temprano de ARTA (en ese entonces llamado Aiby) resultó de la decisión oportuna de implementar la función viral de Avatar cuando apenas comenzaba a hacerse popular en las redes sociales. Reconocimos rápidamente el creciente interés en esta funcionalidad. Nuestro equipo completo, incluyendo producto, marketing y desarrollo, estaba en la misma longitud de onda y tenía una visión clara de su éxito. También reconocimos que un tiempo de lanzamiento corto era crucial. Así que, desde el primer día, dedicamos todos nuestros recursos a hacer realidad esta función, priorizándola por encima de otras tareas.
Dado que nuestra fecha límite era lo antes posible para no perder el momento en que los Avatares de IA alcanzaran su punto máximo de popularidad, optamos por utilizar una solución de terceros y personalizarla para nuestra aplicación. Mientras que los avatares comenzaban a ganar tracción en móviles, la tecnología ya estaba disponible en la web desde hace algún tiempo, incluso con una API. Gracias a los esfuerzos concentrados del equipo, nuestra primera versión funcional estuvo en la App Store en solo cinco días, ofreciendo una salida de avatar muy competitiva. Nos ayudó a alcanzar el puesto #2 en las listas de éxitos de EE. UU. y permanecer como la segunda aplicación más descargada en EE. UU. durante una semana.
Su equipo ha lanzado recientemente una actualización de la función de generación de avatares de ARTA. ¿Podría compartir algunos detalles sobre esto?
Los modelos de IA tienden a agregar características faciales genéricas durante el entrenamiento, haciendo que los avatares se vean diferentes de las fotos de origen, y cuanto más únicas sean las características de uno, más diferentes pueden parecer las interpretaciones de IA. Para abordar este problema, decidimos crear nuestro propio servicio de avatar. Habíamos estado utilizando una API de terceros durante mucho tiempo, pero no logramos mejoras significativas. Con el cambio de servidor, pudimos configurar una tecnología de entrenamiento más óptima para mantener mejor la similitud de la cara real del usuario en la salida del avatar. Aunque no puedo revelar nuestro pipeline único en detalle, se hizo posible gracias a una combinación específica de configuraciones de SDXL, LORAs y mejoradores faciales, y aún no hemos visto mejores resultados en ninguna otra parte.
Con el nuevo servidor, nos alejamos de un costo fijo por cada paquete de avatares a una tarifa mensual de servidor y ahora podemos ofrecer avatares a través de una suscripción semanal en lugar de requerir compras dentro de la aplicación por separado. Crea una experiencia más gratificante y es mucho más barato para nuestros usuarios si desean generar, por ejemplo, cinco paquetes de avatares dentro de una semana o cambiar la entrada de foto a medida que avanzan. Considerando todo lo anterior, nuestra oferta de avatar actualmente cuenta con la mejor relación calidad-precio en el mercado. Mientras que hay aplicaciones capaces de crear avatares realistas de alta calidad, ARTA se destaca por ofrecer una amplia gama de variaciones de salida coloridas y brillantes además de estilos realistas, todos con el mismo nivel preciso de reconocimiento facial.
¿De qué otras maneras ha mejorado el equipo las capacidades de la aplicación?
Concluimos que utilizar API de terceros es más eficiente para casos de uso comunes como la generación de imagen a texto, la conversión de imágenes y el rellenado. Este enfoque elimina la necesidad de gastar tiempo averiguando cómo integrar estas funcionalidades en nuestra infraestructura de servidores. Además, reduce los costos en situaciones en las que una nueva función no despega como se esperaba y decidimos eliminarla. La industria de la generación de imágenes de IA está evolucionando rápidamente, con numerosos servicios dedicados disponibles, así que exploramos y adoptamos gradualmente aquellos que se alinean con nuestros objetivos.
Al mismo tiempo, las necesidades de ARTA a menudo resultan ser bastante únicas, requiriendo hallazgos en casa. En casos en los que las API personalizadas no existen o no proporcionan una calidad de salida satisfactoria, nos especializamos y personalizamos nuestros servicios internos y desarrollamos nuestras propias soluciones para lograr los resultados que queremos. Por ejemplo, además de actualizar los Avatares de IA, nuestros ingenieros de ML y prompt han ideado una nueva canalización para la función de Filtros de IA (Selfies) de la aplicación. También hemos desarrollado un algoritmo único para nuestra próxima función de Bebé de IA – una funcionalidad de generación que permite a dos personas combinar sus fotos y ver cómo podría ser su hijo. Basado en mi percepción del mundo como gerente de producto, inicialmente dudé de su éxito, pero los anuncios creativos que presentan este concepto son muy populares. Así que, verificar los conocimientos de marketing es especialmente útil en casos relacionados con contenido.
¿Pueden los usuarios influir en el proceso artístico en ARTA? Si es así, ¿qué herramientas y opciones están disponibles para que los usuarios personalicen el arte generado por IA?
Manejamos todos los aspectos complejos relacionados con la generación, apuntando a brindar a nuestros usuarios una experiencia artística sencilla sin sobrecarga técnica innecesaria. Así que, la forma principal en que los usuarios influyen en la salida es a través de las sugerencias. Mantenemos este proceso transparente mostrando la solicitud de palabras exacta que se enviará al modelo para la generación y solo ofrecemos asistencia para componer sugerencias efectivas si es necesario.
Seleccionamos los mejores ajustes predeterminados para cada modelo integrado para que los usuarios no se molesten con eso. Por lo general, no hay necesidad de ajustarlos para maximizar los resultados, ya que ya producen una salida de generación óptima. Sin embargo, si el usuario quiere experimentar, el modo avanzado está a solo un toque de distancia, y algunos parámetros más profundos están en la sección de configuración.
Pronto agregaremos un parámetro de Semilla, que permitirá a los usuarios tener control total sobre la generación cuando necesiten recrear una imagen idéntica desde cero. Además, planeamos expandir la lista de razones de aspecto. También estamos pensando en agregar varios controlnets a generaciones regulares. Ya están soportados en el lado del servidor, ya que los usamos para generar Filtros de IA y bocetos, pero aún no se entregan a los usuarios finales.
¿Cómo percibe el impacto de la IA como ARTA en el mercado del arte tradicional? ¿Ve la generación de arte de IA como una interrupción o una mejora de la industria del arte?
Lo veo como una mejora. La IA generativa ha introducido nuevas y valiosas oportunidades para mejorar el proceso artístico mientras reduce significativamente el tiempo de entrega. Asiste a artistas digitales, diseñadores, ilustradores y otros creadores de contenido visual con una variedad de tareas, desde explorar ideas y desarrollar conceptos hasta generar bocetos y imágenes listas para usar. En última instancia, nuestra capacidad para aprovechar sus avances está limitada solo por nuestra imaginación.
Por ejemplo, tengo un hobby de crear juegos de PC, y recientemente utilicé ARTA para generar un conjunto de iconos para habilidades y artículos. Pude diseñarlos por mi cuenta utilizando Adobe Illustrator, pero con un generador de imágenes, obtuve lo que necesitaba casi de inmediato. Mi esposa, a su vez, es una retocadora-fotógrafa. Gracias a Generative Fill de Photoshop, trabaja mucho más rápido y tiene más tiempo libre (o más ingresos si decide aceptar más pedidos de retoque).
Cuando se hace bien, las imágenes generadas por IA pueden parecer indistinguibles de obras de arte profesionales. Sin embargo, en mi opinión, la IA nunca reemplazará a un profesional verdadero. No importa cuán habilidosas se vuelvan las redes neuronales, aún están entrenadas con datos creados por humanos, lo que significa que todo lo que generan ya existe en alguna parte. Como antes y ahora, las ideas verdaderamente innovadoras solo pueden ser producidas por personas. Mientras que el significado tradicional del arte sigue asociado con piezas hechas por humanos, el arte de IA es como una rama anticipada, invitando a todos, independientemente de su trasfondo artístico, a probar una emocionante nueva experiencia.
Mirando más allá de solo mejorar la calidad de la imagen, ¿hacia dónde cree que se dirige el futuro de la generación de imágenes de IA?
Junto con la calidad de la imagen, la velocidad de las generaciones aumentará, lo que llevará automáticamente a salidas más rentables.
Creo que no pasará mucho tiempo antes de que haya una forma sencilla de generar los mismos personajes en diferentes entornos y posiciones, así que veremos el auge de la IA en cómics, libros infantiles, gráficos de juegos y más. El diseño de interiores y la producción de anuncios creativos ya son esferas que aprovechan activamente la IA generativa, pero hay más por delante mientras la tecnología continúa evolucionando.
Considerando que todas las generaciones requieren GPUs fuertes, estas tecnologías se desarrollarán junto con la IA durante bastante tiempo. Solo estamos al comienzo del viaje. Quizás la nueva Apple de nuestro tiempo sea Nvidia, con todos, o al menos los que están en la industria de la TI, anticipando nuevos lanzamientos de tarjetas de video como lo hicimos con los iPhones.
Los generadores de imágenes de IA seguirán brindando experiencias divertidas y atractivas, ya sea introduciendo nuevos conceptos que surgen de la cultura popular o reviviendo ideas antiguas mejoradas con mejor tecnología. Por ejemplo, el interés en las generaciones de Bebé de IA está creciendo actualmente. Una tecnología reciente basada en Stable Diffusion ha demostrado resultados impresionantes a partir de la combinación de las características de dos individuos para revelar la posible apariencia de su hijo biológico. Los resultados superan con creces lo que estaba disponible en sitios de horóscopos hace unos años, y la gente está ansiosa por probarlo de nuevo.
¿Cuáles son sus predicciones sobre lo que debemos esperar a continuación de la IA Generativa?
La ola de popularidad de la generación de video está en el horizonte. Con los avances de la tecnología alcanzando un nivel suficiente, sin duda habrá intentos de entrenar redes neuronales utilizando expresiones faciales y gestos de las personas para crear avatares de video, potencialmente incluso con voces únicas de usuario.
La IA de Audio es otro avance significativo que anuncia una nueva era para la industria de la producción de música. Esta tecnología ya ha presentado oportunidades increíbles para componer canciones basadas únicamente en la entrada de texto, lo que la convierte en una herramienta excelente para crear bandas sonoras personalizadas para varios tipos de contenido de video. En general, es realmente divertido escuchar algo tan mundano como los Términos de Uso rapeados o cantados con entonación romántica.
Gracias por la gran entrevista, los lectores que desean aprender más o generar algunas imágenes deben visitar ARTA.












