Góc nhìn Anderson

Giảm Hallucinations trong Hình ảnh AI bằng cách Tăng cường chúng

mm
A Swami sprays a hallucinated small dragon with RAID bug-spray. SDXL, Flux.1D and Flux Kontext via Krita.

Các mô hình tầm nhìn kiểu ChatGPT thường ‘hallucinate’ các yếu tố không thuộc về hình ảnh. Một phương pháp mới giảm thiểu những lỗi này bằng cách hiển thị cho mô hình các phiên bản tăng cường của các ảo giác của chính nó, dựa trên chú thích – và sau đó yêu cầu nó thử lại. Phương pháp này không cần tái đào tạo hoặc dữ liệu bổ sung và có thể được áp dụng cho nhiều mô hình và loại mô hình khác nhau.

 

Một bài báo mới từ Trung Quốc cung cấp một cách tiếp cận thú vị về vấn đề tồn tại của ảo giác trong hình ảnh và video được tạo bởi AI – các yếu tố rõ ràng không nên có trong hình ảnh dựa trên yêu cầu và đầu vào của người dùng.

Về bản chất, hệ thống lấy một hình ảnh và cho phép mô hình mô tả nó, như bình thường; nó sau đó chuyển chú thích đó thành một hình ảnh mới bằng cách sử dụng mô hình văn bản-sang-hình ảnh – và bất kỳ đối tượng hoặc chi tiết bổ sung nào trong hình ảnh thứ hai sẽ là đại diện trực tiếp của các ảo giác ban đầu của mô hình. Sau đó, bằng cách so sánh hình ảnh gốc và hình ảnh được tạo, hệ thống nhẹ nhàng điều khiển mô hình tránh những lỗi đó lần tiếp theo nó thử:

Một hình minh họa về cách phương pháp mới xác định và giảm thiểu ảo giác trong chú thích hình ảnh. Mô hình thông thường mô tả các con chim không tồn tại trong hình ảnh gốc, dẫn đến hình ảnh được xây dựng lại thêm chúng vào. Những lỗi này được đánh dấu màu đỏ. Ngược lại, phương pháp được đề xuất tránh những chi tiết được tạo ra trong khi giữ cho chú thích cụ thể và trôi chảy. Nguồn: https://arxiv.org/pdf/2509.21997

Một hình minh họa về cách phương pháp mới xác định và giảm thiểu ảo giác trong chú thích hình ảnh. Mô hình thông thường mô tả các con chim không tồn tại trong hình ảnh gốc, dẫn đến hình ảnh được xây dựng lại thêm chúng vào. Những lỗi này được đánh dấu màu đỏ. Ngược lại, phương pháp được đề xuất tránh những chi tiết được tạo ra trong khi giữ cho chú thích cụ thể và trôi chảy. Nguồn: https://arxiv.org/pdf/2509.21997

Phương pháp bắt đầu bằng cách hiển thị hình ảnh thực cho mô hình và yêu cầu nó mô tả chúng, bao gồm cả những mô tả có đối tượng hoặc chi tiết không thực sự có mặt. Những chú thích ảo giác này sau đó được sử dụng để tạo ra hình ảnh tổng hợp mà làm cho các lỗi dễ dàng phát hiện hơn. Bằng cách so sánh hình ảnh thực và hình ảnh được tạo, hệ thống học được những mẫu nội bộ trong mô hình có xu hướng tạo ra nội dung bị làm sai.

Khi những mẫu lỗi này được xác định, chúng có thể được lưu trữ và sử dụng sau này. Khi mô hình được đưa ra một hình ảnh mới, hệ thống sẽ điều chỉnh các tín hiệu nội bộ của nó trong quá trình chú thích, đẩy nó tránh xa những mẫu đã biết gây ra ảo giác. Điều này hoạt động trong một lần và không yêu cầu dữ liệu bổ sung, tái đào tạo hoặc tạo hình ảnh mới tại thời điểm kiểm tra.

Mạng lưới Rối rắm

Trong ví dụ được hiển thị ở trên, từ bài báo, chúng ta có thể thấy rằng sự gắn kết có thể chịu trách nhiệm cho việc thêm ‘chim’ vào hình ảnh đầu vào, ngay cả khi hình ảnh đầu tiên dường như không chứa bất kỳ con chim nào.

Sự gắn kết xảy ra khi một mô hình khăng khăng liên kết các khái niệm nhất định với các khái niệm khác, chỉ vì hai (hoặc nhiều) khái niệm đó thường xuất hiện cùng nhau trong phân phối dữ liệu ban đầu mà mô hình được đào tạo. Trong trường hợp này, mô hình có thể đã xem nhiều hình ảnh của máy bay + chim, gây ra sự liên kết không áp dụng cho hình ảnh cụ thể, nhưng vẫn xâm nhập vào chú thích được tạo.

Mặc dù sự gắn kết có thể được giảm thiểu bằng cách dừng đào tạo sớm (Điều này, nói chung, làm cho mô hình linh hoạt và thích nghi tối đa), nhưng điều này cũng làm giảm chi tiết và độ phân giải của tất cả các khái niệm được đào tạo, khiến người đào tạo mô hình phải đối mặt với nghịch cảnh vĩnh cửu: tạo ra một mô hình rất linh hoạt và tách rời; hoặc tạo ra một mô hình mạnh mẽ hơn, nhưng cũng có khả năng tạo ra ‘ảo giác liên kết’?

Nếu chất lượng của chú thích và chú ý đến chi tiết trong việc thu thập dữ liệu ban đầu cho mô hình tạo ra đã tốt hơn so với các quy trình thông thường cho phép, thì chú thích cho tất cả hình ảnh nguồn sẽ có chi tiết mọi đối tượng trong mỗi hình ảnh, để mô hình được đào tạo có thể phân bổ cho chúng các mục nhập rời rạc và tách biệt trong không gian tiềm ẩn của nó.

Hiện tại, việc thực hành tự phục vụ của chú thích SEO, kết hợp với việc ad hoc thu thập web quy mô lớn vẫn còn là nguồn tốt nhất để đào tạo các mô hình tạo ra mạnh mẽ, có nghĩa là chú thích hình ảnh có xu hướng không đạt tiêu chuẩn này:

Một hình minh họa về cách chú thích yếu kém hạn chế sự hữu ích của hình ảnh LAION để đào tạo mô hình như Stable Diffusion. Nhiều nhãn văn bản là nông, mơ hồ hoặc được tối ưu hóa cho SEO hơn là mô tả chính xác, khiến mô hình khó học được các khái niệm hình ảnh tinh tế như đặc điểm khuôn mặt (nguồn gốc ban đầu là https://rom1504.github.io/, hiện không còn tồn tại).

Một hình minh họa về cách chú thích yếu kém hạn chế sự hữu ích của hình ảnh LAION để đào tạo mô hình như Stable Diffusion. Nhiều nhãn văn bản là nông, mơ hồ hoặc được tối ưu hóa cho SEO hơn là mô tả chính xác, khiến mô hình khó học được các khái niệm hình ảnh tinh tế như đặc điểm khuôn mặt. (Nguồn gốc ban đầu là https://rom1504.github.io/, hiện không còn tồn tại).

Do đó, vì một giải pháp cơ bản là không thể thực tế, việc giảm thiểu ảo giác của Mô hình Ngôn ngữ và Mô hình Ngôn ngữ-Hình ảnh bằng cách sử dụng các giải pháp và thỏa hiệp đã trở thành một phân nhánh mạnh trong văn học.

Phương pháp mới của Trung Quốc được công bố tuần này, các tác giả cho biết, đã được thử nghiệm trên nhiều kiến trúc khác nhau trong các điều kiện đa dạng và có thể chỉ ra một cách hữu ích để giảm ‘ô nhiễm ảo giác’.

Họ nói:

‘Các thí nghiệm rộng rãi trên nhiều điểm chuẩn cho thấy phương pháp của chúng tôi giảm thiểu đáng kể ảo giác ở mức độ đối tượng, thuộc tính và quan hệ trong khi vẫn giữ được khả năng nhớ và độ phong phú của chú thích.’

Bài báo mới mới có tiêu đề Phơi bày ảo giác để ức chế chúng: Chỉnh sửa đại diện của Mô hình Ngôn ngữ-Hình ảnh bằng neo tạo ra, và đến từ ba nhà nghiên cứu tại Đại học Khoa học và Công nghệ Trung Quốc và Đại học Nam Kinh.

Phương pháp

Các tác giả đã tạo ra một đường ống đầu cuối, được hiển thị dưới đây, được thiết kế để phơi bày và ức chế ảo giác trong chú thích hình ảnh:

Một hình minh họa về đường ống đầy đủ. Một mô hình ngôn ngữ-hình ảnh đầu tiên tạo ra một chú thích từ hình ảnh đầu vào, có thể bao gồm nội dung ảo giác. Chú thích này sau đó được sử dụng để tạo ra một hình ảnh được xây dựng lại thông qua một mô hình văn bản-sang-hình ảnh, làm cho bất kỳ ảo giác nào trở nên dễ dàng phát hiện hơn. Các bản nhúng từ cả hình ảnh gốc và hình ảnh được xây dựng lại được trích xuất và sử dụng để hướng dẫn điều chỉnh bên trong bộ giải mã, giúp mô hình ức chế các chi tiết ảo giác trong khi vẫn giữ được chất lượng chú thích.

Một hình minh họa về đường ống đầy đủ. Một mô hình ngôn ngữ-hình ảnh đầu tiên tạo ra một chú thích từ hình ảnh đầu vào, có thể bao gồm nội dung ảo giác. Chú thích này sau đó được sử dụng để tạo ra một hình ảnh được xây dựng lại thông qua một mô hình văn bản-sang-hình ảnh, làm cho bất kỳ ảo giác nào trở nên dễ dàng phát hiện hơn.

Bắt đầu từ một hình ảnh đầu vào thực, một mô hình ngôn ngữ-hình ảnh tạo ra một chú thích mô tả có thể chứa các đối tượng hoặc mối quan hệ được tạo ra. Chú thích này sau đó được đưa vào một mô hình văn bản-sang-hình ảnh để tạo ra một hình ảnh được xây dựng lại cho thấy chính xác những gì chú thích mô tả. So sánh hình ảnh được xây dựng lại này với hình ảnh gốc làm cho nội dung bị làm sai trở nên rõ ràng và có thể đo lường được, biến các lỗi tinh vi trong văn bản thành các sai khác có thể nhìn thấy được mà hệ thống có thể nhắm đến và giảm thiểu.

Để hướng dẫn mô hình tránh ‘tạo ra’ các chi tiết, hệ thống so sánh hai phiên bản của cùng một hình ảnh: hình ảnh gốc và một hình ảnh được xây dựng lại dựa trên chú thích. Mỗi hình ảnh được chuyển đổi thành một bản nhúng紧凑 mà nắm bắt nội dung của nó.

Hình ảnh gốc hoạt động như một tham chiếu đáng tin cậy, trong khi hình ảnh được xây dựng lại làm nổi bật nơi ảo giác có thể đã xâm nhập. Bằng cách điều chỉnh các biểu diễn nội bộ của nó để di chuyển gần hơn với hình ảnh gốc và xa hơn với hình ảnh được xây dựng lại, mô hình học cách tự sửa lỗi. Vì quá trình này không dựa trên các quy tắc được điều chỉnh thủ công hoặc dữ liệu bên ngoài, nó vẫn hoàn toàn tự giám sát.

Bài báo cho biết:

‘Ảo giác trong MLLMs intrinsically khó phát hiện vì chúng được tạo ra một cách ngôn ngữ và thường không thể phân biệt được với các mô tả trung thực ở mức độ văn bản. Sự không phù hợp nằm không ở sự khả thi của ngôn ngữ mà ở sự không phù hợp với bằng chứng hình ảnh, mà mô hình thường không nhạy cảm.’

‘Để giải quyết vấn đề này, chúng tôi giới thiệu một cơ chế phơi bày ảo giác mà tận dụng việc xây dựng lại tạo ra để chuyển đổi sự không nhất quán ngầm thành tín hiệu quan sát được.’

Cho một hình ảnh đầu vào và chú thích của nó, hệ thống sử dụng mô hình văn bản-sang-hình ảnh FLUX.1-dev để tạo lại một hình ảnh từ chú thích alone. Hình ảnh được tạo lại này có xu hướng tăng cường ý nghĩa của chú thích, làm cho bất kỳ chi tiết sai nào trở nên rõ ràng hơn. Những lỗi được khuếch đại này sau đó phục vụ như các tín hiệu hữu ích giúp mô hình nhận ra và sửa lỗi của chính nó.

Để kiểm tra phương pháp của họ, các tác giả đã tiêm ảo giác vào chú thích và sử dụng mô hình văn bản-sang-hình ảnh để tạo ra hình ảnh được xây dựng lại. Những hình ảnh này sau đó được chú thích lại bởi LLaVA, và sự tương đồng ngữ nghĩa giữa chú thích gốc và chú thích ảo giác được đánh giá:

Một hình minh họa về cách cơ chế khuếch đại ảo giác làm cho các lỗi tinh vi trở nên rõ ràng. Mỗi điểm cho thấy sự tương đồng giữa chú thích của hình ảnh gốc và hình ảnh được xây dựng lại cho một cặp hình ảnh-chú thích. Đường màu cam đại diện cho sự tương đồng được đo trực tiếp giữa chú thích gốc và chú thích ảo giác, vẫn giữ ở mức cao và che giấu các lỗi nhỏ; đường màu xanh đại diện cho sự tương đồng sau khi xây dựng lại, giảm mạnh, cho thấy quá trình biến các ảo giác ẩn thành các dấu hiệu ngữ nghĩa rõ ràng có thể được phát hiện và sửa chữa.

Một hình minh họa về cách cơ chế khuếch đại ảo giác làm cho các lỗi tinh vi trở nên rõ ràng. Mỗi điểm cho thấy sự tương đồng giữa chú thích của hình ảnh gốc và hình ảnh được xây dựng lại cho một cặp hình ảnh-chú thích. Đường màu cam đại diện cho sự tương đồng được đo trực tiếp giữa chú thích gốc và chú thích ảo giác, vẫn giữ ở mức cao và che giấu các lỗi nhỏ; đường màu xanh đại diện cho sự tương đồng sau khi xây dựng lại, giảm mạnh, cho thấy quá trình biến các ảo giác ẩn thành các dấu hiệu ngữ nghĩa rõ ràng có thể được phát hiện và sửa chữa.

Sự tương đồng giảm mạnh sau khi xây dựng lại, cho thấy quá trình làm cho các lỗi tinh vi trở nên dễ dàng phát hiện hơn.

Dữ liệu và Kiểm tra

Việc xác nhận hiệu quả của phương pháp mới liên quan đến việc sử dụng ba điểm chuẩn phù hợp: Đánh giá ảo giác chú thích với tính liên quan hình ảnh (CHAIR); Đánh giá Mô hình Ngôn ngữ benchmark (MME); và Đánh giá thăm dò đối tượng dựa trên nhóm (POPE).

Từ bài báo CHAIR: các ví dụ về đối tượng ảo giác được tạo ra bởi hai hệ thống chú thích hàng đầu, TopDown và NBT, nơi mỗi mô hình tạo ra các yếu tố hình ảnh không thực sự có trong hình ảnh, chẳng hạn như máy tính xách tay, chậu rửa hoặc ván lướt sóng. Nguồn: https://arxiv.org/pdf/1809.02156

Từ bài báo CHAIR: các ví dụ về đối tượng ảo giác được tạo ra bởi hai hệ thống chú thích hàng đầu, TopDown và NBT, nơi mỗi mô hình tạo ra các yếu tố hình ảnh không thực sự có trong hình ảnh, chẳng hạn như máy tính xách tay, chậu rửa hoặc ván lướt sóng. Nguồn: https://arxiv.org/pdf/1809.02156

Các chỉ số chuẩn như tỷ lệ ảo giác hoặc khả năng nhớ có thể gây hiểu lầm, vì một mô hình có thể tránh ảo giác bằng cách tạo ra chú thích ngắn hoặc mơ hồ. Để tính đến sự đánh đổi giữa khả năng nhớ và ảo giác, một chỉ số kết hợp gọi là Ảo giác và Khả năng nhớ (HAR@β) được sử dụng, đánh giá chú thích dựa trên cả độ chính xác và độ đầy đủ, và cho phép điều chỉnh sự cân bằng tùy thuộc vào việc tránh lỗi hoặc bao gồm thêm chi tiết quan trọng.

POPE được sử dụng để đánh giá ảo giác đối tượng nhạy cảm với ngữ cảnh, và MME để đánh giá ảo giác ở mức thuộc tính, cả hai đều được định hình như các nhiệm vụ phán quyết có/không.

Thí nghiệm được thực hiện trên các tập dữ liệu đa dạng, sử dụng mô hình Flux và biến thể LLaVA-v1.5-7B. Các tập dữ liệu được sử dụng là Microsoft COCO; A-OKVQA; và GQA.

Chỉnh sửa tiềm ẩn được thực hiện cho lớp thứ hai của mô hình, theo công việc liên quan trước đó, trong khi các siêu tham số và nhiệt độ được giữ nhất quán trên tất cả các mô hình.

Kết quả ban đầu trên CHAIR được trình bày dưới đây*:

Hiệu suất trên điểm chuẩn CHAIR cho giảm thiểu ảo giác, được đánh giá bằng nhiều chỉ số.

Hiệu suất trên điểm chuẩn CHAIR cho giảm thiểu ảo giác, được đánh giá bằng nhiều chỉ số.

Về những kết quả này, các tác giả nhận xét:

‘Phương pháp của chúng tôi nhất quán vượt trội so với các phương pháp cơ sở khác trên cả CHAIRS và CHAIRI , chứng tỏ hiệu quả vượt trội của nó trong việc ức chế ảo giác. Trong khi hầu hết các phương pháp đều giảm khả năng nhớ khi ức chế ảo giác, phản ánh sự đánh đổi giữa trung thực và thông tin, phương pháp của chúng tôi đạt được sự giảm nhỏ nhất. ‘

‘Điều này chứng tỏ rằng phương pháp của chúng tôi nắm bắt một loạt các đối tượng thực sự. Với chỉ số HAR@β, phương pháp của chúng tôi đạt được điểm số cao nhất, nhấn mạnh khả năng của nó trong việc giảm ảo giác trong khi vẫn giữ được phạm vi.’

Các nhà nghiên cứu cho rằng những kết quả mạnh mẽ này là do thiết lập giám sát kép, nơi các ngữ nghĩa sạch sẽ từ hình ảnh gốc được tăng cường, đồng thời các tín hiệu sai lệch từ hình ảnh được xây dựng lại bị ức chế. Vì việc điều chỉnh chỉ nhắm vào hướng liên quan đến ảo giác, phần còn lại của biểu diễn được giữ nguyên, cho phép hệ thống sửa lỗi mà không hy sinh chi tiết hoặc thông tin.

So sánh hiệu suất trên điểm chuẩn POPE dưới các cấu hình và tập dữ liệu khác nhau.

So sánh hiệu suất trên điểm chuẩn POPE dưới các cấu hình và tập dữ liệu khác nhau.

Về kết quả trên POPE, được hiển thị trong bảng kết quả trên, bài báo khẳng định:

‘Có thể quan sát thấy rằng phương pháp của chúng tôi nhất quán đạt được hiệu suất tốt nhất trên tất cả các thiết lập. Đặc biệt, phương pháp của chúng tôi có thể đạt được độ chính xác lên đến +5,95% và điểm F1 lên đến +6,85% trung bình, vượt trội so với các phương pháp không cần đào tạo khác với một khoảng cách lớn. ‘

‘Do đó, những kết quả này chứng tỏ rằng phương pháp của chúng tôi cung cấp một giải pháp đáng tin cậy và có thể tổng quát hóa trên các mức độ khó khăn khác nhau.’

Từ vòng kiểm tra thứ ba, so sánh hiệu suất trên MME.

Từ vòng kiểm tra thứ ba, so sánh hiệu suất trên MME.

Kiểm tra cuối cùng là trên MME, với kết quả được hiển thị ở trên. Tuy nhiên, trong số các thiếu sót khác, nó đề cập đến phương pháp ‘OPERA’, không được định nghĩa ở bất kỳ nơi nào trong bài báo chính hoặc phụ lục. Mặc dù các tác giả tuyên bố hiệu suất mạnh mẽ trên MME, mà không có định nghĩa đầy đủ về các phương pháp, chúng ta nên dừng lại ở phần kết quả này.

Một hình minh họa từ điểm chuẩn MME sử dụng LLaVA-v1.5-7B, cho thấy mô hình cơ sở tạo ra một câu trả lời ảo giác trong khi phương pháp được đề xuất đưa ra câu trả lời đúng, với hình ảnh được xây dựng lại làm cho ảo giác trở nên rõ ràng hơn.

Một hình minh họa từ điểm chuẩn MME sử dụng LLaVA-v1.5-7B, cho thấy mô hình cơ sở tạo ra một câu trả lời ảo giác trong khi phương pháp được đề xuất đưa ra câu trả lời đúng, với hình ảnh được xây dựng lại làm cho ảo giác trở nên rõ ràng hơn.

Kết luận

Mặc dù bài báo này rõ ràng là được viết vội vàng, và thiếu cấu trúc, tập trung và sự rõ ràng mà đã trở nên phổ biến trong văn học trong 12 tháng qua (có thể không liên quan đến việc sử dụng AI ngày càng tăng trong nghiên cứu học thuật), cơ chế trung tâm được trình bày vẫn rất thông minh.

Trong khi phương pháp này không yêu cầu tái đào tạo, và dường như có thể áp dụng trên nhiều kiến trúc, sẽ rất hữu ích nếu có thể xem thêm các ứng viên kiểm tra; và cũng cần xem xét rằng một hệ thống trung gian như vậy sẽ ít nhất giới thiệu độ trễ, và một số mức độ yêu cầu năng lượng bổ sung – không phải là một vấn đề nhỏ khi mở rộng quy mô.

 

* Không theo quy ước, phần chính của bài báo này trình bày kết quả với các tiêu đề chỉ được giải thích trong tài liệu phụ lục, và không trong bài báo chính – một thói quen xấu ngày càng phổ biến trong văn học, khi các nhà nghiên cứu cố gắng giới hạn luận điểm trung tâm trong 8-9 trang, ngay cả khi tài liệu không cho phép. Trong bất kỳ trường hợp nào, điểm chuẩn CHAIR, được sử dụng để đánh giá ảo giác đối tượng trong chú thích, dựa trên một tập con 500 hình ảnh của MSCOCO từ công việc trước đó. Hai hình thức được sử dụng: CHAIRS, đo lường tần suất ảo giác xuất hiện trong bất kỳ chú thích nào; và CHAIRI, đo lường số lượng đối tượng được đề cập đã bị ảo giác. HAR@β , được giới thiệu trong bài báo chính, được định nghĩa là một sự kết hợp theo kiểu Fβ của việc ức chế ảo giác và khả năng nhớ đối tượng.

Được xuất bản lần đầu vào Thứ Ba, ngày 30 tháng 9 năm 2025

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]