Góc nhìn Anderson
Cách Ngăn Chặn Trí Tuệ Nhân Tạo Miêu Tả iPhone Trong Các Thời Kỳ Quá Khứ

Trí tuệ nhân tạo hình ảnh tạo ra hình ảnh của quá khứ như thế nào? Nghiên cứu mới cho thấy rằng chúng thả điện thoại thông minh vào thế kỷ 18, chèn máy tính xách tay vào các cảnh của những năm 1930 và đặt máy hút bụi trong các ngôi nhà thế kỷ 19, đặt ra câu hỏi về cách các mô hình này tưởng tượng về lịch sử – và liệu chúng có khả năng chính xác về mặt lịch sử hay không.
Vào đầu năm 2024, khả năng tạo hình ảnh của mô hình trí tuệ nhân tạo đa phương thức Gemini của Google đã bị chỉ trích vì áp đặt đồng nhất về dân tộc trong các ngữ cảnh không phù hợp, chẳng hạn như tạo ra các binh sĩ Đức trong Thế chiến II với nguồn gốc không thể tin được:

Nhân viên quân sự Đức không thể tin được, như được hình dung bởi mô hình đa phương thức Gemini của Google vào năm 2024. Nguồn: Gemini AI/Google qua The Guardian
Đây là một ví dụ về việc các nỗ lực nhằm khắc phục sự thiên vị trong các mô hình trí tuệ nhân tạo đã không tính đến ngữ cảnh lịch sử. Trong trường hợp này, vấn đề đã được giải quyết ngay sau đó. Tuy nhiên, các mô hình dựa trên sự khuếch tán vẫn dễ bị tạo ra các phiên bản của lịch sử mà kết hợp các khía cạnh và hiện vật hiện đại và lịch sử.
Điều này là một phần do sự gắn kết, nơi các đặc điểm thường xuất hiện cùng nhau trong dữ liệu đào tạo trở nên gắn kết trong đầu ra của mô hình. Ví dụ, nếu các đối tượng hiện đại như điện thoại thông minh thường đồng xuất hiện với hành động nói hoặc nghe trong tập dữ liệu, mô hình có thể học cách liên kết các hoạt động này với các thiết bị hiện đại, ngay cả khi lời nhắc chỉ định một ngữ cảnh lịch sử. Khi các liên kết này được nhúng vào các biểu diễn nội bộ của mô hình, nó trở nên khó khăn để tách hoạt động khỏi ngữ cảnh hiện đại của nó, dẫn đến kết quả không chính xác về mặt lịch sử.
Một bài báo mới từ Thụy Sĩ, nghiên cứu về hiện tượng của các thế hệ lịch sử gắn kết trong các mô hình khuếch tán tiềm ẩn, quan sát thấy rằng các khuôn khổ trí tuệ nhân tạo có khả năng tạo ra hình ảnh người rất thực tế nhưng lại thích miêu tả các nhân vật lịch sử theo cách lịch sử:
![Từ bài báo mới, các biểu diễn đa dạng thông qua LDM của lời nhắc 'Một hình ảnh rất thực tế của một người đang cười với một người bạn trong [thời kỳ lịch sử]', với mỗi thời kỳ được chỉ định trong mỗi đầu ra. Như chúng ta có thể thấy, phương tiện của thời kỳ đã trở thành gắn kết với nội dung. Nguồn: https://arxiv.org/pdf/2505.17064](https://www.unite.ai/wp-content/uploads/2025/05/laughing-with-a-friend.jpg)
Từ bài báo mới, các biểu diễn đa dạng thông qua LDM của lời nhắc ‘Một hình ảnh rất thực tế của một người đang cười với một người bạn trong [thời kỳ lịch sử]’, với mỗi thời kỳ được chỉ định trong mỗi đầu ra. Như chúng ta có thể thấy, phương tiện của thời kỳ đã trở thành gắn kết với nội dung. Nguồn: https://arxiv.org/pdf/2505.17064
Đối với lời nhắc ‘Một hình ảnh rất thực tế của một người đang cười với một người bạn trong [thời kỳ lịch sử]’, một trong ba mô hình được thử nghiệm thường bỏ qua lời nhắc tiêu cực ‘đen trắng’ và thay vào đó sử dụng các phương pháp xử lý màu sắc phản ánh phương tiện trực quan của thời kỳ được chỉ định, chẳng hạn như bắt chước các sắc thái màu nhạt của phim celluloid từ những năm 1950 và 1970.
Khi thử nghiệm các mô hình cho khả năng tạo ra những điều không phù hợp với thời kỳ (những thứ không thuộc về thời kỳ mục tiêu, hoặc ‘không đúng thời kỳ’ – có thể từ tương lai của thời kỳ mục tiêu cũng như quá khứ của nó), họ tìm thấy một xu hướng chung để kết hợp các hoạt động không thay đổi theo thời gian (chẳng hạn như ‘hát’ hoặc ‘nấu ăn’) với các ngữ cảnh và thiết bị hiện đại:

Các hoạt động đa dạng hoàn toàn hợp lệ cho các thế kỷ trước được miêu tả với công nghệ và trang thiết bị hiện tại hoặc gần đây, trái với tinh thần của hình ảnh được yêu cầu.
Đáng chú ý là điện thoại thông minh đặc biệt khó tách rời khỏi thành ngữ của nhiếp ảnh, và từ nhiều ngữ cảnh lịch sử khác, vì sự phổ biến và miêu tả của chúng được đại diện tốt trong các tập dữ liệu hyperscale có ảnh hưởng như Common Crawl:

Trong mô hình tạo hình ảnh từ văn bản Flux, truyền thông và điện thoại thông minh là những khái niệm gắn kết chặt chẽ – ngay cả khi ngữ cảnh lịch sử không cho phép.
Để xác định mức độ của vấn đề, và để cung cấp cho các nỗ lực nghiên cứu trong tương lai một cách tiến bộ với vấn đề này, các tác giả của bài báo mới đã phát triển một tập dữ liệu tùy chỉnh để thử nghiệm các hệ thống tạo ra. Trong một lúc, chúng ta sẽ xem xét bài báo mới này, có tiêu đề Lịch Sử Tổng Hợp: Đánh Giá Các Biểu Diễn Trực Quan Của Quá Khứ Trong Các Mô Hình Khuếch Tán, và đến từ hai nhà nghiên cứu tại Đại học Zurich. Tập dữ liệu và mã đều có sẵn công khai.
Sự Thật Dễ Vỡ
Một số chủ đề trong bài báo chạm vào các vấn đề nhạy cảm về văn hóa, chẳng hạn như sự đại diện không đầy đủ của các chủng tộc và giới tính trong các biểu diễn lịch sử. Trong khi việc áp đặt sự công bằng về dân tộc của Gemini trong Đệ tam Đế chế Đức là một sự sửa đổi lịch sử lịch sử và xúc phạm, việc khôi phục lại ‘truyền thống’ đại diện về chủng tộc (nơi các mô hình khuếch tán đã ‘cập nhật’ những điều này) thường sẽ hiệu quả ‘tẩy trắng’ lịch sử.
Nhiều chương trình lịch sử gần đây, chẳng hạn như Bridgerton, làm mờ sự chính xác về dân tộc trong các cách có thể ảnh hưởng đến các tập dữ liệu đào tạo trong tương lai, làm phức tạp các nỗ lực để căn chỉnh hình ảnh thời kỳ được tạo ra bởi LLM với các tiêu chuẩn truyền thống. Tuy nhiên, đây là một chủ đề phức tạp, учитывая xu hướng lịch sử của (Tây) lịch sử để ưa thích sự giàu có và trắng da, và để bỏ lại nhiều ‘câu chuyện ít hơn’ không được kể.
Phương Pháp và Thử Nghiệm
Để thử nghiệm cách các mô hình tạo ra hình ảnh giải thích ngữ cảnh lịch sử, các tác giả đã tạo ra HistVis, một tập dữ liệu gồm 30.000 hình ảnh được tạo ra từ 100 lời nhắc miêu tả các hoạt động của con người, mỗi hoạt động được thực hiện qua 10 thời kỳ lịch sử khác nhau:

Một mẫu từ tập dữ liệu HistVis, mà các tác giả đã làm cho có sẵn tại Hugging Face. Nguồn: https://huggingface.co/datasets/latentcanon/HistVis
Các hoạt động, chẳng hạn như nấu ăn, cầu nguyện hoặc nghe nhạc, được chọn vì tính phổ quát của chúng, và được diễn đạt theo một định dạng trung lập để tránh neo mô hình vào một vẻ ngoài cụ thể. Các thời kỳ cho tập dữ liệu trải dài từ thế kỷ 17 đến ngày nay, với sự tập trung thêm vào năm thập kỷ riêng biệt từ thế kỷ 20.
30.000 hình ảnh được tạo ra bằng cách sử dụng ba mô hình khuếch tán mã nguồn mở được sử dụng rộng rãi: Stable Diffusion XL; Stable Diffusion 3; và FLUX.1. Bằng cách cô lập thời kỳ là biến số duy nhất, các nhà nghiên cứu đã tạo ra một cơ sở cấu trúc để đánh giá cách các tín hiệu lịch sử được mã hóa trực quan hoặc bị bỏ qua bởi các hệ thống này.
Đominance về Phong Cách Trực Quan
Các tác giả ban đầu đã kiểm tra xem các mô hình tạo ra hình ảnh có mặc định vào các phong cách trực quan cụ thể khi miêu tả các thời kỳ lịch sử; vì dường như rằng ngay cả khi lời nhắc không đề cập đến phương tiện hoặc vẻ ngoài, các mô hình vẫn thường gắn kết các thế kỷ với các phong cách đặc trưng:
![Các phong cách trực quan dự đoán cho hình ảnh được tạo ra từ lời nhắc “Một người đang nhảy múa với một người khác trong [thời kỳ lịch sử]” (trái) và từ lời nhắc sửa đổi “Một hình ảnh rất thực tế của một người đang nhảy múa với một người khác trong [thời kỳ lịch sử]” với “hình ảnh đen trắng” được đặt làm lời nhắc tiêu cực (phải).](https://www.unite.ai/wp-content/uploads/2025/05/period-style.jpg)
Các phong cách trực quan dự đoán cho hình ảnh được tạo ra từ lời nhắc ‘Một người đang nhảy múa với một người khác trong [thời kỳ lịch sử]’ (trái) và từ lời nhắc sửa đổi ‘Một hình ảnh rất thực tế của một người đang nhảy múa với một người khác trong [thời kỳ lịch sử]’ với ‘hình ảnh đen trắng’ được đặt làm lời nhắc tiêu cực (phải).
Để đo lường xu hướng này, các tác giả đã đào tạo một mạng nơ-ron tích chập (CNN) để phân loại mỗi hình ảnh trong tập dữ liệu HistVis vào một trong năm loại: vẽ; điêu khắc; minh họa; tranh; hoặc nhiếp ảnh. Các loại này được dự định để phản ánh các mẫu phổ biến xuất hiện trên các thời kỳ và hỗ trợ so sánh cấu trúc.
Tính Nhất Quán về Lịch Sử
Dòng phân tích tiếp theo đã xem xét tính nhất quán về lịch sử: liệu hình ảnh được tạo ra có bao gồm các đối tượng không phù hợp với thời kỳ hay không. Thay vì sử dụng một danh sách cố định các mục bị cấm, các tác giả đã phát triển một phương pháp linh hoạt tận dụng các mô hình ngôn ngữ lớn (LLM) và mô hình ngôn ngữ-vision (VLM) để phát hiện các yếu tố dường như không phù hợp, dựa trên ngữ cảnh lịch sử.
Dân Số
Phân tích cuối cùng đã xem xét cách các mô hình miêu tả chủng tộc và giới tính theo thời gian. Sử dụng tập dữ liệu HistVis, các tác giả đã so sánh đầu ra của mô hình với các ước tính cơ sở được tạo ra bởi một mô hình ngôn ngữ. Những ước tính này không chính xác nhưng cung cấp một ý niệm thô về tính hợp lý lịch sử, giúp tiết lộ liệu các mô hình có điều chỉnh việc miêu tả để phù hợp với thời kỳ dự định hay không.
Kết Luận
Trong quá trình đào tạo một mô hình khuếch tán, các khái niệm mới không được sắp xếp gọn gàng vào các khe đã định sẵn trong không gian tiềm ẩn. Thay vào đó, chúng hình thành các cụm được định hình bởi tần suất xuất hiện và bởi sự gần gũi với các ý tưởng liên quan. Kết quả là một cấu trúc lỏng lẻo nơi các khái niệm tồn tại liên quan đến tần suất và ngữ cảnh điển hình, chứ không phải bởi bất kỳ sự tách biệt sạch sẽ hoặc kinh nghiệm nào.
Điều này làm cho nó trở nên khó khăn để cô lập những gì được coi là ‘lịch sử’ trong một tập dữ liệu lớn, đa năng. Như những phát hiện trong bài báo mới gợi ý, nhiều thời kỳ được đại diện nhiều hơn bởi hiện diện của phương tiện được sử dụng để miêu tả chúng hơn là bởi bất kỳ chi tiết lịch sử sâu sắc nào.
Đây là một lý do tại sao vẫn còn khó khăn để tạo ra một hình ảnh rất thực tế của một nhân vật từ (ví dụ) thế kỷ 19; trong hầu hết các trường hợp, mô hình sẽ dựa vào các thành ngữ trực quan được rút ra từ phim và truyền hình. Khi những điều này không khớp với yêu cầu, sẽ không có gì khác trong dữ liệu để bù đắp. Cầu nối này có thể phụ thuộc vào các cải tiến trong tương lai về việc tách các khái niệm chồng chéo.
Được xuất bản lần đầu vào Thứ Hai, ngày 26 tháng 5 năm 2025












