Trí tuệ nhân tạo

Các nhà nghiên cứu phát triển phương pháp mới để kiểm soát việc tạo hình ảnh AI

mm

Các nhà nghiên cứu từ Đại học North Carolina đã phát triển một phương pháp mới để kiểm soát việc tạo hình ảnh trí tuệ nhân tạo (AI), có thể được sử dụng trong các lĩnh vực như phương tiện tự hành.

Thiết kế hình ảnh có điều kiện và các kỹ thuật khác

Thiết kế hình ảnh có điều kiện là một nhiệm vụ của AI liên quan đến việc tạo ra hình ảnh dựa trên một tập hợp các điều kiện cụ thể mà người dùng có thể yêu cầu. Các kỹ thuật mới hơn đã đưa điều này đi xa hơn và kết hợp các điều kiện cho bố cục hình ảnh, cho phép người dùng chỉ định các loại đối tượng họ muốn xuất hiện ở các vị trí cụ thể trên màn hình.

Phương pháp mới nhất được phát triển bởi các nhà nghiên cứu tại trường đại học này xây dựng trên tất cả các kỹ thuật này và cho phép người dùng có nhiều quyền kiểm soát hơn đối với hình ảnh trong khi vẫn giữ lại một số đặc điểm nhất định trên một loạt hình ảnh.

Tianfu Wu là đồng tác giả của bài nghiên cứu và là giáo sư trợ lý về kỹ thuật máy tính tại NC State.

“Phương pháp của chúng tôi rất linh hoạt,” Wu nói. “Giống như các phương pháp trước đây, của chúng tôi cho phép người dùng có hệ thống tạo ra hình ảnh dựa trên một tập hợp các điều kiện cụ thể. Nhưng của chúng tôi cũng cho phép bạn giữ lại hình ảnh đó và thêm vào nó. Ví dụ, người dùng có thể yêu cầu AI tạo ra một cảnh núi. Người dùng sau đó có thể yêu cầu hệ thống thêm những người trượt tuyết vào cảnh đó.”

Thao tác các yếu tố

Với phương pháp mới, người dùng cũng có thể cho phép AI thao tác các yếu tố để chúng có thể được nhận biết là giống nhau trong khi vẫn di chuyển hoặc thay đổi theo một cách nào đó. Một ví dụ như vậy sẽ là AI tạo ra một loạt hình ảnh nơi những người trượt tuyết quay về phía người xem trong khi di chuyển qua một phong cảnh.

“Một ứng dụng cho điều này sẽ là giúp các robot tự hành ‘tưởng tượng’ về kết quả cuối cùng có thể trông như thế nào trước khi bắt đầu một nhiệm vụ nhất định,” Wu nói. “Bạn cũng có thể sử dụng hệ thống để tạo ra hình ảnh cho đào tạo AI. Vì vậy, thay vì biên dịch hình ảnh từ các nguồn bên ngoài, bạn có thể sử dụng hệ thống này để tạo ra hình ảnh cho đào tạo các hệ thống AI khác.”

Phương pháp mới này đã được thử nghiệm với tập dữ liệu COCO-Stuff và Visual Genome, và dựa trên các tiêu chuẩn về chất lượng hình ảnh, nó vượt trội so với các kỹ thuật tốt nhất trước đó.

“Bước tiếp theo của chúng tôi là xem liệu chúng tôi có thể mở rộng công việc này sang video và hình ảnh 3D hay không,” Wu nói.

Để đào tạo phương pháp mới, các nhà nghiên cứu đã phải dựa vào một trạm làm việc 4-GPU do yêu cầu tính toán nặng. Mặc dù vậy, việc triển khai hệ thống vẫn ít tốn kém về tính toán.

“Chúng tôi đã tìm thấy rằng một GPU mang lại cho bạn gần như tốc độ thời gian thực,” Wu nói.

“Ngoài bài báo của chúng tôi, chúng tôi đã làm cho mã nguồn của phương pháp này có sẵn trên GitHub. Điều đó nói, chúng tôi luôn sẵn sàng hợp tác với các đối tác trong ngành.”

Alex McFarland là một nhà báo và nhà văn về trí tuệ nhân tạo, khám phá những phát triển mới nhất trong lĩnh vực trí tuệ nhân tạo. Ông đã hợp tác với nhiều công ty khởi nghiệp và xuất bản về trí tuệ nhân tạo trên toàn thế giới.