Góc nhìn Anderson
Trí tuệ nhân tạo khó bắt chước ngôn ngữ lịch sử

Một sự hợp tác giữa các nhà nghiên cứu tại Hoa Kỳ và Canada đã phát hiện ra rằng các mô hình ngôn ngữ lớn (LLM) như ChatGPT gặp khó khăn trong việc tái tạo các thành ngữ lịch sử mà không cần đào tạo trước rộng rãi – một quá trình tốn kém và đòi hỏi nhiều lao động, nằm ngoài khả năng của hầu hết các sáng kiến học thuật hoặc giải trí, khiến các dự án như hoàn thành tiểu thuyết chưa hoàn thành cuối cùng của Charles Dickens thông qua trí tuệ nhân tạo trở thành một đề xuất không thể thực hiện được.
Các nhà nghiên cứu đã khám phá một loạt các phương pháp để tạo ra văn bản nghe có vẻ chính xác về mặt lịch sử, bắt đầu từ việc sử dụng các đoạn văn từ thế kỷ thứ hai mươi và chuyển sang tinh chỉnh một mô hình thương mại trên một bộ sưu tập nhỏ các cuốn sách từ thời kỳ đó.
Họ cũng so sánh kết quả với một mô hình riêng biệt đã được đào tạo hoàn toàn trên các cuốn sách được xuất bản giữa năm 1880 và 1914.
Trong thử nghiệm đầu tiên, việc hướng dẫn ChatGPT-4o bắt chước ngôn ngữ của thời kỳ cuối thế kỷ đã tạo ra kết quả rất khác so với mô hình GPT2 nhỏ hơn đã được tinh chỉnh trên văn học từ thời kỳ đó:

Khi được yêu cầu hoàn thành một văn bản lịch sử thực sự (phía trên giữa), thậm chí ChatGPT-4o (phía dưới bên trái) không thể giúp tránh rơi vào ‘chế độ blog’, không thể thể hiện được thành ngữ được yêu cầu. Ngược lại, mô hình GPT2 tinh chỉnh (phía dưới bên phải) bắt được phong cách ngôn ngữ tốt, nhưng không chính xác ở các khía cạnh khác. Nguồn: https://arxiv.org/pdf/2505.00030
Mặc dù tinh chỉnh mang lại kết quả gần hơn với phong cách ban đầu, nhưng người đọc vẫn thường có thể phát hiện ra dấu vết của ngôn ngữ hoặc ý tưởng hiện đại, cho thấy rằng thậm chí các mô hình được điều chỉnh cẩn thận vẫn tiếp tục phản ánh ảnh hưởng của dữ liệu đào tạo đương đại.
Các nhà nghiên cứu đã đi đến kết luận khó chịu rằng không có giải pháp ngắn gọn về mặt kinh tế để tạo ra văn bản lịch sử chính xác về mặt thành ngữ hoặc đối thoại được tạo ra bởi máy.
… (Content continues in the same format, following the exact structure and translation rules provided)










