Trí tuệ nhân tạo

Trí tuệ nhân tạo sinh (Generative AI): Ý tưởng đằng sau CHATGPT, Dall-E, Midjourney và nhiều hơn

Published August 8, 2023

Updated April 28, 2026

Aayush Mittal Mittal

Thế giới nghệ thuật, giao tiếp và cách chúng ta nhận thức về thực tế đang thay đổi nhanh chóng. Nếu chúng ta nhìn lại lịch sử của sự đổi mới của con người, chúng ta có thể coi việc phát minh ra bánh xe hoặc việc phát hiện ra điện là những bước nhảy vĩ đại. Ngày nay, một cuộc cách mạng mới đang diễn ra – bắc cầu giữa sự sáng tạo của con người và tính toán của máy móc. Đó là Trí tuệ nhân tạo sinh (Generative AI).

Các mô hình sinh (Generative models) đã làm mờ ranh giới giữa con người và máy móc. Với sự ra đời của các mô hình như GPT-4, sử dụng các mô-đun biến đổi (transformer modules), chúng ta đã tiến gần hơn đến việc tạo ra ngôn ngữ tự nhiên và phong phú. Những tiến bộ này đã thúc đẩy các ứng dụng trong việc tạo tài liệu, hệ thống đối thoại của rô-bốt trò chuyện và thậm chí là việc tạo ra nhạc tổng hợp.

Các quyết định gần đây của các công ty công nghệ lớn (Big-Tech) nhấn mạnh tầm quan trọng của nó. Microsoft đã loại bỏ ứng dụng Cortana của mình trong tháng này để ưu tiên các đổi mới Trí tuệ nhân tạo sinh (Generative AI) mới, như Bing Chat. Apple cũng đã dành một phần đáng kể của $22,6 tỷ ngân sách nghiên cứu và phát triển (R&D) cho Trí tuệ nhân tạo sinh, như đã được chỉ định bởi CEO Tim Cook.

Một kỷ nguyên mới của các mô hình: Sinh (Generative) so với Phân biệt (Discriminative)

Câu chuyện về Trí tuệ nhân tạo sinh không chỉ là về các ứng dụng của nó mà còn về cơ chế hoạt động bên trong của nó. Trong hệ sinh thái trí tuệ nhân tạo, có hai loại mô hình: phân biệt và sinh.

Các mô hình phân biệt là những gì mà hầu hết mọi người gặp phải trong cuộc sống hàng ngày. Những thuật toán này lấy dữ liệu đầu vào, chẳng hạn như văn bản hoặc hình ảnh, và ghép nó với đầu ra mục tiêu, như bản dịch từ hoặc chẩn đoán y tế. Chúng về việc ánh xạ và dự đoán.

Các mô hình sinh, mặt khác, là những nhà sáng tạo. Chúng không chỉ giải thích hoặc dự đoán; chúng tạo ra các đầu ra phức tạp mới từ các vectơ số thường không liên quan đến các giá trị thực tế.

Công nghệ đằng sau các mô hình sinh

Các mô hình sinh nợ sự tồn tại của chúng cho các mạng nơ-ron sâu (deep neural networks), các cấu trúc tinh vi được thiết kế để bắt chước chức năng của não bộ con người. Bằng cách nắm bắt và xử lý các biến thể đa dạng trong dữ liệu, các mạng này phục vụ như xương sống của nhiều mô hình sinh.

Làm thế nào những mô hình sinh này được tạo ra? Thông thường, chúng được xây dựng với các mạng nơ-ron sâu, được tối ưu hóa để nắm bắt các biến thể đa dạng trong dữ liệu. Một ví dụ điển hình là Mạng đối lập sinh (Generative Adversarial Network – GAN), nơi hai mạng nơ-ron, sinh và phân biệt, cạnh tranh và học hỏi từ nhau trong một mối quan hệ giáo viên-học sinh độc đáo. Từ các bức tranh đến chuyển đổi phong cách, từ việc tạo nhạc đến chơi trò chơi, những mô hình này đang phát triển và mở rộng theo những cách trước đây không thể tưởng tượng được.

Điều này không dừng lại ở GAN. Máy tự động mã hóa biến thể (Variational Autoencoders – VAEs) là một nhân vật quan trọng khác trong lĩnh vực mô hình sinh. VAEs nổi bật với khả năng tạo ra hình ảnh siêu thực từ những con số ngẫu nhiên. Làm thế nào? Xử lý những con số này thông qua một vectơ ẩn (latent vector) đã tạo ra nghệ thuật phản ánh sự phức tạp của thẩm mỹ con người.

Loại Trí tuệ nhân tạo sinh: Văn bản sang Văn bản, Văn bản sang Hình ảnh

Biến đổi (Transformers) và Mô hình ngôn ngữ lớn (LLMs)

Bài báo “Chú ý là tất cả những gì bạn cần” của Google Brain đã đánh dấu một sự thay đổi trong cách chúng ta nghĩ về mô hình hóa văn bản. Thay vì các kiến trúc phức tạp và tuần tự như Mạng nơ-ron hồi quy (Recurrent Neural Networks – RNNs) hoặc Mạng nơ-ron tích chập (Convolutional Neural Networks – CNNs), mô hình Biến đổi (Transformer) đã giới thiệu khái niệm về chú ý, vốn基本 là tập trung vào các phần khác nhau của văn bản đầu vào tùy thuộc vào ngữ cảnh. Một trong những lợi ích chính của điều này là sự dễ dàng song song hóa. Không giống như RNNs, chúng xử lý văn bản tuần tự, khiến chúng khó mở rộng, Transformers có thể xử lý các phần của văn bản đồng thời, làm cho quá trình đào tạo nhanh hơn và hiệu quả hơn trên các tập dữ liệu lớn.

: Kiến trúc mô hình Biến đổi

Trong một văn bản dài, không phải mọi từ hoặc câu bạn đọc đều có cùng mức độ quan trọng. Một số phần đòi hỏi sự chú ý nhiều hơn dựa trên ngữ cảnh. Đây là nơi cơ chế chú ý bắt chước.

Trí tuệ nhân tạo trò chuyện (ChatGPT): Công cụ Trí tuệ nhân tạo sinh phổ biến nhất

Bắt đầu với sự ra đời của GPT vào năm 2018, mô hình này cơ bản được xây dựng trên nền tảng 12 lớp, 12 đầu chú ý và 120 triệu tham số, chủ yếu được đào tạo trên một tập dữ liệu gọi là BookCorpus. Đây là một khởi đầu ấn tượng, cung cấp một cái nhìn về tương lai của các mô hình ngôn ngữ.

GPT-2, được công bố vào năm 2019, đã tăng bốn lần số lượng lớp và đầu chú ý. Đặc biệt, số lượng tham số của nó đã tăng vọt lên 1,5 tỷ. Phiên bản nâng cấp này được đào tạo từ WebText, một tập dữ liệu phong phú với 40GB văn bản từ các liên kết Reddit khác nhau.

GPT-3, được ra mắt vào tháng 5 năm 2020, có 96 lớp, 96 đầu chú ý và một số lượng tham số khổng lồ là 175 tỷ. Điều làm cho GPT-3 khác biệt là dữ liệu đào tạo đa dạng của nó, bao gồm CommonCrawl, WebText, Wikipedia tiếng Anh, tập đoàn sách và các nguồn khác, kết hợp cho một tổng cộng 570 GB.

Những chi tiết về cách thức hoạt động của ChatGPT vẫn còn là bí mật được bảo vệ chặt chẽ. Tuy nhiên, một quá trình gọi là ‘học tăng cường từ phản hồi của con người’ (reinforcement learning from human feedback – RLHF) được biết đến là then chốt. Nguồn gốc từ một dự án ChatGPT trước đó, kỹ thuật này đã giúp mô hình GPT-3.5 được tinh chỉnh để phù hợp hơn với các hướng dẫn viết.

Kết luận

Kết hợp sự sáng tạo của con người với tính toán của máy móc, Trí tuệ nhân tạo sinh đã trở thành một công cụ vô giá, với các nền tảng như ChatGPT và DALL-E 2 đang đẩy ranh giới của những gì có thể. Từ việc tạo ra nội dung văn bản đến việc điêu khắc các kiệt tác trực quan, các ứng dụng của chúng là vô cùng đa dạng và phong phú.

Khi công cụ như ChatGPT trở nên dễ tiếp cận hơn, đây là thời điểm hoàn hảo để thử nghiệm và khám phá. Dù bạn là một nghệ sĩ, lập trình viên hay người đam mê công nghệ, lĩnh vực Trí tuệ nhân tạo sinh đang đầy những khả năng chờ được khám phá. Cuộc cách mạng không còn ở trên đường chân trời; nó đang ở đây và bây giờ. Vậy, hãy khám phá!

Related Topics:chatgpt DALL-E deep learning generative ai LLM Midjourney

Aayush Mittal

Tôi đã dành 5 năm qua để đắm mình trong thế giới hấp dẫn của Máy học và Học sâu. Đam mê và chuyên môn của tôi đã dẫn tôi đến việc đóng góp vào hơn 50 dự án kỹ thuật phần mềm đa dạng, với trọng tâm đặc biệt là AI/ML. Sự tò mò liên tục của tôi cũng đã thu hút tôi đến Xử lý Ngôn ngữ Tự nhiên, một lĩnh vực tôi渴望 khám phá thêm.