Khi các mô hình ngôn ngữ lớn (LLM) phát triển thành hệ thống đa phương thức có thể xử lý văn bản, hình ảnh, giọng nói...