Trí tuệ nhân tạo

Dạy AI hiểu và sử dụng hình ảnh trong hội thoại

Published July 21, 2021

Updated April 28, 2026

Martin Anderson

Các nhà nghiên cứu từ Hàn Quốc đã phát triển một tập dữ liệu được thiết kế để hỗ trợ nghiên cứu về sự hiểu biết của AI về cách con người sử dụng hình ảnh trong hội thoại, và để giúp các mô hình ngôn ngữ tự nhiên tham gia vào sự phát triển rất gần đây này trong giao tiếp của con người.

Bài báo này, từ KAIST tại Daedeok Innopolis, lưu ý rằng nghiên cứu về các hệ thống hội thoại đa phương thức trong thập kỷ qua đã bị hạn chế bởi các tập dữ liệu và phương pháp luận tập trung vào các lĩnh vực ngoại vi của chủ đề, chẳng hạn như trả lời câu hỏi hình ảnh và tiêu đề hình ảnh.

Trong những cách tiếp cận cũ hơn, hình ảnh được đánh giá ngoài ngữ cảnh của một cuộc hội thoại, không có sự hiểu biết về cách hội thoại được tăng cường và phát triển bởi các phản hồi hình ảnh, và không có lược đồ giữa các lĩnh vực để giải mã các đóng góp của các yếu tố hình ảnh cho diễn ngôn.

Hình ảnh như các khía cạnh hàng đầu của Hội thoại

Nhiều cách tiếp cận trước đây đã là các sáng kiến hoặc phát triển từ cánh tay nghiên cứu AI của Microsoft, đã khám phá chủ đề hội thoại đa phương thức được bắt đầu bởi một hình ảnh, thay vì sử dụng hình ảnh tự do như các thành phần hội thoại.

Để giải quyết sự thiếu hụt dữ liệu nghiên cứu, các nhà nghiên cứu Hàn Quốc đã phát triển một tập dữ liệu gồm 45.000 trường hợp hội thoại liên quan đến việc sử dụng hình ảnh ad hoc, mà không tập trung vào hình ảnh ‘meme’ lan truyền; những thứ này, mặc dù là một lĩnh vực quan tâm trong nghiên cứu ngôn ngữ, nhưng có thể được coi là ít thách thức hơn, vì ý nghĩa của các meme lan truyền có thể được suy luận dễ dàng hơn thông qua hàng nghìn lần sử dụng trong ngữ cảnh trên các nền tảng truyền thông xã hội.

Phát triển Hình ảnh như một Thay thế cho Văn bản

Để phát triển một phương pháp cho việc chuyển đổi từ từ / cụm từ sang hình ảnh song song, các nhà nghiên cứu Hàn Quốc đã đào tạo một hệ thống học máy để thay thế các phần của một cuộc hội thoại dựa trên văn bản thành nội dung hình ảnh có liên quan về mặt ngữ nghĩa.

Kiến trúc của hệ thống Hàn Quốc để tạo ra một tập dữ liệu cho nghiên cứu hội thoại đa phương thức. Nguồn: https://arxiv.org/pdf/2107.08685.pdf

Xử lý trước các cụm từ mục tiêu liên quan đến việc xóa từ dừng có thể cản trở dự đoán của lần tiếp theo trong cuộc hội thoại, và việc cắt tỉa các trao đổi chất lượng thấp hơn thông qua các bộ lọc tương đồng ngữ cảnh.

Để kiểm tra tính hữu ích của tập dữ liệu, các nhà nghiên cứu đã thiết lập một mô-đun để dự đoán lượt tiếp theo trong hội thoại trong khi xem xét ngữ cảnh của cuộc hội thoại và hình ảnh liên quan.

Giao diện người dùng đánh giá của con người được sử dụng trong nghiên cứu.

Năm tập dữ liệu bên ngoài đã được sử dụng làm vật liệu cơ bản cho tập dữ liệu 45k (được cung cấp trên GitHub). Ba là các yếu tố dựa trên văn bản: DailyDialog, một tập hợp đa lượt dựa trên văn bản được chú thích thủ công từ năm 2017; và EmpatheticDialogues và PersonaChat của Facebook, cả hai đều từ năm 2018. Hai tập dữ liệu dựa trên hình ảnh được sử dụng là MS-COCO và Flicker30k.

Các cặp hình ảnh / văn bản – lược đồ JSON của các cụm từ trong tập dữ liệu, được liên kết với hình ảnh (trong ví dụ này) từ cơ sở dữ liệu hình ảnh COCO của Microsoft.

Thay thế văn bản bằng hình ảnh cho hệ thống được cung cấp bởi mạng Lý luận ngữ nghĩa hình ảnh (VSRN) đã được đào tạo trước, được phát triển vào năm 2019 tại Đại học Northeastern tại Boston. VSRN được thiết lập để hoạt động trên các cụm từ được chọn thủ công từ các tập dữ liệu văn bản đóng góp.

Thiết lập tính nhất quán

Tính nhất quán của các tập dữ liệu nguồn được thiết lập bằng cách phát triển sáu sự kết hợp của mỗi tập dữ liệu hội thoại, tương quan với các trường hợp trong mỗi tập dữ liệu hình ảnh, và được đánh giá qua nhiều vòng bởi con người.

Đánh giá của con người dựa trên ba tiêu chí: tính nhất quán với ngữ cảnh của trao đổi; sự liên quan của hình ảnh đến khái niệm cốt lõi mà hình ảnh đang cố gắng thể hiện; và mức độ mà hình ảnh chứa các đối tượng chính từ câu mục tiêu.

Xét về tiêu chí sau, có thể lập luận rằng lược đồ mà các nhà nghiên cứu quyết định đã hầu như không tính đến khả năng các khả năng hài hước,讽刺, trừu tượng hoặc siêu hình học về ý nghĩa ngữ nghĩa của một hình ảnh có thể được tiêm vào một cuộc hội thoại văn bản.

Tuy nhiên, đây là một công việc nền tảng, và nó phải bắt đầu từ đâu đó, trong khi những nỗ lực đáng kể đang được thực hiện ở nơi khác trong lĩnh vực Xử lý ngôn ngữ tự nhiên (NLP) để lập bản đồ các trường hợp của sự讽刺, trong số các ví dụ ít cụ thể hơn về mối quan hệ hình ảnh / văn bản.

Thử nghiệm

Để kiểm tra khuôn khổ tạo dữ liệu, các nhà nghiên cứu đã sử dụng một mô hình truy xuất ba phần dựa trên nghiên cứu Image-Chat của Facebook năm 2020. Mô-đun bao gồm Resnext-101 như một bộ mã hóa hình ảnh; BERT của Google cho bộ mã hóa văn bản; và một mô-đun kết hợp tùy chỉnh cho những thứ này.

Hệ thống đã đạt được 50,35 và 14,38 trên nhiệm vụ dự đoán câu hiện tại và câu tiếp theo, cải thiện so với baseline cho từng nhiệm vụ.

Sau đó, hai nhà nghiên cứu được giao nhiệm vụ tạo 100 hội thoại đa phương thức bằng cách chèn hình ảnh vào các cuộc hội thoại một cách thủ công, và chạy hệ thống chống lại những cuộc hội thoại đa phương thức ‘hữu cơ’ này. Hệ thống đã có thể dự đoán các lượt hiện tại và lượt tiếp theo với nhận thức cao về ngữ cảnh, thậm chí đối với những ví dụ ad hoc này.

Kết quả của việc thử nghiệm cho hệ thống tạo dữ liệu đa phương thức của Hàn Quốc, cho thấy sự tương quan cao và nhất quán giữa độ tương đồng hình ảnh / văn bản và điểm số câu hỏi dựa trên con người trên cùng một dữ liệu.

Martin Anderson

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]