Phỏng vấn

Ernest Piatrovich, Product Manager tại ARTA – Loạt Phỏng Vấn

Published June 24, 2024

Updated April 27, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Ernest Piatrovich là Product Manager tại AIBY Group, dẫn dắt một trong những ứng dụng hàng đầu của công ty, ARTA – Trình Tạo Hình Ảnh AI cho iPhone và Android. Tầm nhìn chiến lược và tư duy sáng tạo của ông đã dẫn đến ứng dụng đạt vị trí #2 trong bảng xếp hạng ứng dụng hàng đầu của App Store Mỹ ngay sau khi ra mắt, vượt qua mốc 15 triệu lượt tải trên toàn thế giới, và cung cấp các Avatar AI hoạt động tốt nhất dựa trên đường ống nội bộ độc đáo, cùng với nhiều thành công khác.

Bạn đã chịu trách nhiệm Quản lý ARTA – Trình Tạo Hình Ảnh AI từ giai đoạn ý tưởng cho đến nay. Bạn có thể chia sẻ một số thông tin về những ngày đầu tiên không?

Tất nhiên! Đó là những thời điểm đầy biến động. Chúng tôi đã quản lý để phát hành một ứng dụng được làm tốt trong vòng một tuần, trở thành một trong những nhà tạo ứng dụng tiêu dùng đầu tiên cung cấp chức năng tạo hình ảnh từ văn bản trên thiết bị di động. Mục tiêu của chúng tôi là xây dựng một sản phẩm thị trường đại chúng cung cấp cho mọi người một “nghệ sĩ” trong túi của họ. Vì vậy, từ giai đoạn hình thành và phát triển ban đầu, chúng tôi đã tập trung vào tính dễ sử dụng và khả năng mở rộng. Nhưng mặc dù tham gia thị trường rất kịp thời, nó khá thách thức để tăng số lượng cài đặt của chúng tôi lên một mức độ đủ, ngay cả với một đội mua truyền thông tuyệt vời như chúng tôi. Một sự thúc đẩy đáng kể đã xảy ra ba tháng sau khi ứng dụng được phát hành khi tính năng Avatar của chúng tôi trở nên phổ biến. Số lượng nhanh chóng trở nên vừa phải cho thị trường ngách của chúng tôi, và từ đó, nhiệm vụ của chúng tôi là duy trì và tăng số lượng này.

Công nghệ ban đầu mà bạn đã ra mắt và những thách thức với việc tạo hình ảnh trong giai đoạn này là gì?

Chúng tôi đã ra mắt dựa trên Stable Diffusion 1.3 sử dụng API chính thức từ Stability.ai. Tôi nên nói rằng tình hình với chất lượng của các thế hệ hiện tại và trước đây là như ngày và đêm. Khi chúng tôi bắt đầu, các trưởng nhóm kiểm soát chất lượng của chúng tôi thường xuyên báo cáo các vấn đề liên quan đến giá trị thẩm mỹ của hình ảnh hoặc sự không chính xác trong việc thể hiện các khái niệm và tính năng cụ thể. Tuy nhiên, đó là tiêu chuẩn cho Stable Diffusion vào thời điểm đó. Hiện tại, đầu ra của việc tạo ra hình ảnh tốt hơn ở tất cả các khía cạnh, bao gồm việc tái tạo phong cách, sự nhất quán của bố cục, tính trung thực về mặt hình ảnh, mức độ chi tiết và nhiều hơn nữa.

Ngay sau khi ứng dụng được phát hành, chúng tôi bắt đầu thuê máy chủ trên Amazon, và việc hỗ trợ chúng đã chứng minh là một thách thức. Ngay cả với đủ kinh phí, có thể không có A100 miễn phí khi bạn cần, và bạn sẽ phải chờ trong vài ngày. Do đó, chúng tôi phải sống mà không có khả năng tự động mở rộng, chuyển hướng tất cả lưu lượng truy cập vượt mức đến API của các đối tác.

Việc duy trì tất cả những điều này vẫn còn khá phức tạp cho đến ngày nay, với các vấn đề nhỏ xảy ra ở một bên hoặc bên kia mỗi tháng hoặc như vậy. Ví dụ, chúng tôi偶尔 gặp phải các vấn đề tạm thời về chất lượng của các thế hệ khi nhà cung cấp cập nhật máy chủ, kiểm tra trọng lượng hoặc thực hiện các thay đổi khác ảnh hưởng đến đầu ra của việc tạo ra hình ảnh. Những lỗi này có thể kéo dài từ một giờ đến nửa ngày và không thể đoán trước hoặc theo dõi được. Thông thường, vào thời điểm bộ phận hỗ trợ của chúng tôi nhận được báo cáo của người dùng về hình ảnh mờ hoặc một số vấn đề khác xảy ra, nhà cung cấp API đã sửa lỗi. Tuy nhiên, đó là một mối quan tâm nghiêm trọng đối với người dùng của chúng tôi. Do đó, chúng tôi hiện đang xây dựng một hệ thống kết hợp nhiều nhà cung cấp và máy chủ của riêng chúng tôi cho các thế hệ đặc biệt, cho phép chúng tôi có nhiều quyền kiểm soát hơn trên phía của chúng tôi.

Với tư cách là người quản lý sản phẩm, những quyết định chiến lược nào đã đóng vai trò quan trọng trong việc dẫn dắt ARTA đến vị trí hàng đầu ngay sau khi ra mắt?

Sự tăng trưởng ban đầu của ARTA (lúc đó gọi là Aiby) là kết quả của quyết định kịp thời trong việc thực hiện tính năng Avatar lan truyền khi nó vừa bắt đầu lan truyền trên các phương tiện truyền thông xã hội. Chúng tôi nhanh chóng nhận ra sự quan tâm ngày càng tăng đối với tính năng này. Toàn bộ đội ngũ của chúng tôi, bao gồm sản phẩm, tiếp thị và phát triển, đều có cùng tầm nhìn và tư duy về sự thành công của nó. Chúng tôi cũng nhận ra rằng thời gian đưa sản phẩm ra thị trường là rất quan trọng. Vì vậy, từ ngày đầu tiên, chúng tôi đã dành tất cả tài nguyên của mình để hiện thực hóa tính năng này, ưu tiên nó cao hơn các nhiệm vụ khác.

Vì thời hạn của chúng tôi là ASAP để không bỏ lỡ thời điểm khi Avatar AI đạt đến đỉnh cao của sự phổ biến, chúng tôi đã chọn sử dụng giải pháp của bên thứ ba và tùy chỉnh nó cho ứng dụng của chúng tôi. Trong khi các avatar đang bắt đầu thu hút sự chú ý trên thiết bị di động, công nghệ đã có sẵn trên web từ một thời gian, thậm chí với API. Nhờ vào nỗ lực tập trung của toàn đội, phiên bản hoạt động đầu tiên của chúng tôi đã có mặt trong App Store chỉ trong năm ngày, cung cấp đầu ra avatar cạnh tranh cao. Điều này đã giúp chúng tôi đạt vị trí #2 trong bảng xếp hạng hàng đầu của Mỹ và vẫn là ứng dụng được tải xuống nhiều thứ hai ở Mỹ trong một tuần.

Đội ngũ của bạn đã phát hành một bản nâng cấp cho tính năng tạo avatar AI của ARTA. Bạn có thể chia sẻ một số chi tiết về điều này không?

Các mô hình AI có xu hướng thêm các đặc điểm khuôn mặt chung trong quá trình đào tạo, khiến các avatar trông khác với ảnh gốc, và càng nhiều đặc điểm độc đáo của một người, càng khác biệt với cách giải thích của AI. Để giải quyết vấn đề này, chúng tôi đã quyết định tạo ra dịch vụ avatar của riêng mình. Chúng tôi đã sử dụng API của bên thứ ba trong một thời gian dài nhưng không mang lại sự cải thiện đáng kể. Với việc chuyển sang máy chủ mới, chúng tôi đã có thể thiết lập công nghệ đào tạo tối ưu hơn để duy trì sự tương đồng của khuôn mặt người dùng trong đầu ra của avatar. Mặc dù tôi không thể tiết lộ đường ống duy nhất của chúng tôi chi tiết, nhưng nó đã trở nên khả thi nhờ sự kết hợp cụ thể của các thiết lập SDXL, LORAs và các công cụ tăng cường khuôn mặt, và chúng tôi chưa từng thấy kết quả tốt hơn ở nơi khác.

Với máy chủ mới, chúng tôi đã chuyển từ chi phí cố định cho mỗi gói avatar sang phí máy chủ hàng tháng và hiện có thể cung cấp avatar thông qua đăng ký hàng tuần thay vì yêu cầu mua trong ứng dụng riêng biệt. Điều này tạo ra một trải nghiệm đầy đủ hơn và tiết kiệm hơn cho người dùng của chúng tôi nếu họ muốn tạo, ví dụ, năm gói avatar trong một tuần hoặc thay đổi ảnh đầu vào khi họ đi. Xem xét tất cả những điều trên, đề xuất avatar của chúng tôi hiện có tỷ lệ hiệu suất/giá tốt nhất trên thị trường. Mặc dù có các ứng dụng có thể tạo ra các avatar thực tế chất lượng cao, ARTA nổi bật bằng cách cung cấp một loạt các biến thể đầu ra màu sắc và tươi sáng bên cạnh các phong cách thực tế, tất cả đều có cùng mức độ nhận dạng khuôn mặt chính xác.

Đội ngũ của bạn đã cải thiện khả năng của ứng dụng theo những cách nào khác?

Chúng tôi đã kết luận rằng việc sử dụng API của bên thứ ba là hiệu quả hơn cho các trường hợp sử dụng chung như tạo hình ảnh từ văn bản, chuyển đổi hình ảnh và điền vào. Cách tiếp cận này loại bỏ nhu cầu dành thời gian để tìm hiểu cách tích hợp các chức năng này vào cơ sở hạ tầng máy chủ của chúng tôi. Hơn nữa, nó giảm chi phí trong các tình huống khi một tính năng mới không hoạt động như mong đợi và chúng tôi quyết định loại bỏ nó. Ngành công nghiệp tạo hình ảnh AI đang phát triển nhanh chóng, với nhiều dịch vụ chuyên dụng có sẵn, vì vậy chúng tôi khám phá và dần dần áp dụng những dịch vụ phù hợp với mục tiêu của mình.

Đồng thời, nhu cầu của ARTA thường tỏ ra khá độc đáo, đòi hỏi phải khám phá và tùy chỉnh nội bộ. Trong các trường hợp khi các API được tùy chỉnh không tồn tại hoặc không cung cấp chất lượng đầu ra thỏa mãn, chúng tôi chuyên về và phát triển các giải pháp nội bộ của mình để đạt được kết quả mà chúng tôi muốn. Ví dụ, ngoài việc nâng cấp Avatar AI, các kỹ sư học máy và lời nhắc của chúng tôi đã nghĩ ra một đường ống mới cho tính năng Bộ lọc AI (Selfies) của ứng dụng. Chúng tôi cũng đã phát triển một thuật toán độc đáo cho tính năng AI Baby sắp ra mắt – một chức năng tạo ra cho phép hai người hợp nhất ảnh của họ và xem con họ có thể trông như thế nào. Dựa trên nhận thức của tôi về thế giới với tư cách là người quản lý sản phẩm, ban đầu tôi nghi ngờ về sự thành công của nó, nhưng các quảng cáo sáng tạo với khái niệm này rất phổ biến. Vì vậy, việc kiểm tra các thông tin tiếp thị là đặc biệt hữu ích trong các trường hợp liên quan đến nội dung.

Người dùng có thể ảnh hưởng đến quá trình nghệ thuật trong ARTA không? Nếu vậy, những công cụ và tùy chọn nào có sẵn cho người dùng để tùy chỉnh tác phẩm nghệ thuật được tạo ra bởi AI?

Chúng tôi xử lý tất cả các khía cạnh phức tạp liên quan đến việc tạo ra hình ảnh, nhằm cung cấp cho người dùng của chúng tôi một trải nghiệm nghệ thuật trực tiếp mà không có gánh nặng kỹ thuật không cần thiết. Vì vậy, cách chính mà người dùng ảnh hưởng đến đầu ra là thông qua lời nhắc. Chúng tôi giữ quá trình này minh bạch bằng cách hiển thị chính xác yêu cầu từ mà sẽ được gửi đến mô hình để tạo ra hình ảnh và chỉ cung cấp sự hỗ trợ trong việc soạn thảo lời nhắc hiệu quả nếu cần.

Chúng tôi chọn các thiết lập mặc định tốt nhất cho mỗi mô hình tích hợp để người dùng không phải lo lắng về điều đó. Thông thường, không cần điều chỉnh chúng để tối đa hóa kết quả, vì chúng đã tạo ra đầu ra của việc tạo hình ảnh tối ưu. Tuy nhiên, nếu người dùng muốn thử nghiệm, chế độ nâng cao chỉ cách một lần chạm, và một số tham số sâu hơn nằm trong phần cài đặt.

Sắp tới, chúng tôi sẽ thêm tham số Seed, cho phép người dùng có quyền kiểm soát hoàn toàn việc tạo ra hình ảnh khi họ cần tạo lại hình ảnh giống hệt từ đầu. Ngoài ra, chúng tôi cũng dự định mở rộng danh sách tỷ lệ khía cạnh. Chúng tôi cũng đang suy nghĩ về việc thêm một số controlnet vào các thế hệ thường xuyên. Chúng đã được hỗ trợ trên phía máy chủ, vì chúng tôi sử dụng chúng để tạo ra Bộ lọc AI và phác thảo, nhưng chúng chưa được cung cấp cho người dùng cuối.

Bạn nhìn nhận tác động của AI như ARTA đối với thị trường nghệ thuật truyền thống như thế nào? Bạn có coi việc tạo hình ảnh AI là một sự phá vỡ hay một sự cải tiến cho ngành công nghiệp nghệ thuật không?

Tôi coi đó là một sự cải tiến. Trí tuệ nhân tạo tạo ra hình ảnh đã giới thiệu những cơ hội mới và quý giá để cải tiến quá trình nghệ thuật trong khi giảm đáng kể thời gian quay vòng. Nó hỗ trợ các nghệ sĩ kỹ thuật số, nhà thiết kế, họa sĩ minh họa và các nhà tạo nội dung trực quan khác với nhiều nhiệm vụ, từ việc khám phá ý tưởng và phát triển khái niệm đến việc tạo ra bản phác thảo và hình ảnh sẵn sàng sử dụng. Cuối cùng, khả năng tận dụng những tiến bộ của nó chỉ bị giới hạn bởi trí tưởng tượng của chúng tôi.

Ví dụ, tôi có một sở thích tạo trò chơi trên PC, và gần đây, tôi đã sử dụng ARTA để tạo một bộ biểu tượng cho kỹ năng và vật phẩm. Tôi có thể tự thiết kế chúng bằng Adobe Illustrator, nhưng với một trình tạo hình ảnh, tôi đã có những gì tôi cần gần như ngay lập tức. Vợ tôi, ngược lại, là một nhiếp ảnh gia và người chỉnh sửa ảnh. Nhờ vào tính năng điền tự động của Photoshop, cô ấy làm việc nhanh hơn và có nhiều thời gian rảnh hơn (hoặc có nhiều thu nhập hơn nếu cô ấy quyết định chấp nhận nhiều đơn đặt hàng chỉnh sửa hơn).

Khi được thực hiện tốt, hình ảnh được tạo ra bởi AI có thể trông không thể phân biệt được với tác phẩm nghệ thuật chuyên nghiệp. Tuy nhiên, theo quan điểm của tôi, AI sẽ không bao giờ thay thế một chuyên gia thực sự. Dù các mạng lưới thần kinh trở nên tài giỏi đến đâu, chúng vẫn được đào tạo trên dữ liệu do con người tạo ra, có nghĩa là mọi thứ chúng tạo ra đều đã tồn tại ở đâu đó. Giống như trước đây và bây giờ, những ý tưởng真正 sáng tạo chỉ có thể được tạo ra bởi con người. Trong khi ý nghĩa truyền thống của nghệ thuật vẫn gắn liền với các tác phẩm do con người tạo ra, nghệ thuật AI giống như một phân nhánh được mong đợi, mời mọi người, bất kể nền tảng nghệ thuật, thử một trải nghiệm mới thú vị.

Nhìn vượt ra ngoài việc cải thiện chất lượng hình ảnh, bạn nhìn thấy tương lai của việc tạo hình ảnh AI sẽ đi về đâu?

Cùng với chất lượng hình ảnh, tốc độ của các thế hệ sẽ tăng lên, tự động dẫn đến đầu ra tiết kiệm chi phí hơn.

Tôi nghĩ sẽ không lâu trước khi có một cách dễ dàng để tạo ra cùng một nhân vật trong các môi trường và vị trí khác nhau để chúng ta sẽ thấy sự trỗi dậy của AI trong truyện tranh, sách thiếu nhi, đồ họa trò chơi và nhiều hơn nữa. Thiết kế nội thất và sản xuất quảng cáo sáng tạo đã là những lĩnh vực tích cực tận dụng AI tạo ra hình ảnh, nhưng còn nhiều hơn nữa khi công nghệ tiếp tục phát triển.

Xét rằng tất cả các thế hệ đều yêu cầu GPU mạnh, những công nghệ này sẽ phát triển cùng với AI trong một thời gian dài. Chúng tôi chỉ mới bắt đầu hành trình. Có lẽ Apple mới của chúng ta sẽ là Nvidia, với mọi người, hoặc ít nhất là những người trong ngành công nghệ thông tin, mong đợi các bản phát hành thẻ video mới giống như chúng tôi đã làm với iPhone.

Các trình tạo hình ảnh AI sẽ tiếp tục cung cấp những trải nghiệm thú vị và hấp dẫn, cho dù bằng cách giới thiệu các khái niệm mới xuất hiện từ văn hóa đại chúng hay hồi sinh những ý tưởng cũ với công nghệ tốt hơn. Ví dụ, sự quan tâm đến việc tạo ra hình ảnh AI của em bé đang tăng lên. Một công nghệ gần đây dựa trên Stable Diffusion đã thể hiện kết quả ấn tượng từ việc kết hợp các đặc điểm của hai cá nhân để tiết lộ sự xuất hiện có thể của đứa con sinh học của họ. Kết quả này vượt xa những gì có sẵn trên các trang web tử vi vài năm trước, và mọi người đều muốn thử lại.

Những dự đoán của bạn về những gì chúng ta nên mong đợi tiếp theo từ Trí tuệ nhân tạo Tạo ra là gì?

Làn sóng phổ biến của việc tạo video đang ở trên đường chân trời. Với sự tiến bộ của công nghệ đạt đến mức đủ, chắc chắn sẽ có những nỗ lực để đào tạo các mạng lưới thần kinh bằng cách sử dụng biểu cảm khuôn mặt và cử chỉ của con người để tạo ra các avatar video, thậm chí có thể có giọng nói độc đáo của người dùng.

Trí tuệ nhân tạo Âm thanh là một bước đột phá quan trọng khác mở ra một kỷ nguyên mới cho ngành công nghiệp sản xuất âm nhạc. Công nghệ này đã trình bày những cơ hội tuyệt vời để sáng tác các bài hát dựa hoàn toàn vào đầu vào văn bản, làm cho nó trở thành một công cụ tuyệt vời để tạo ra các bản nhạc tùy chỉnh không phải là cổ điển cho nhiều loại nội dung video. Tổng thể, thật thú vị khi nghe điều gì đó tầm thường như Điều khoản Sử dụng được đọc hoặc hát với giọng điệu lãng mạn.

Cảm ơn vì cuộc phỏng vấn tuyệt vời, những người đọc muốn tìm hiểu thêm hoặc tạo hình ảnh nên truy cập ARTA.

Unite.AI

Ernest Piatrovich, Product Manager tại ARTA – Loạt Phỏng Vấn

You may like