AGI

Phong cảnh Evolving của Trí tuệ Nhân tạo Tạo sinh: Một Cuộc khảo sát về Hỗn hợp của Chuyên gia, Đa phương thức và Suche cho AGI

Đã xuất bản 12 tháng 1, 2024

Đã cập nhật 22 tháng 5, 2026

Aayush Mittal Mittal

Lĩnh vực trí tuệ nhân tạo (AI) đã chứng kiến sự tăng trưởng đáng kể vào năm 2023. Trí tuệ nhân tạo tạo sinh, tập trung vào việc tạo ra nội dung thực tế như hình ảnh, âm thanh, video và văn bản, đã ở tiền phong của những tiến bộ này. Các mô hình như DALL-E 3, Stable Diffusion và ChatGPT đã thể hiện những khả năng sáng tạo mới, nhưng cũng đặt ra những lo ngại về đạo đức, thiên vị và lạm dụng.

Khi trí tuệ nhân tạo tạo sinh tiếp tục phát triển với tốc độ nhanh, hỗn hợp của chuyên gia (MoE), học đa phương thức và khát vọng hướng tới trí tuệ nhân tạo tổng quát (AGI) có vẻ sẽ định hình các biên giới nghiên cứu và ứng dụng tiếp theo. Bài viết này sẽ cung cấp một cuộc khảo sát toàn diện về trạng thái hiện tại và hướng phát triển tương lai của trí tuệ nhân tạo tạo sinh, phân tích cách các đổi mới như Gemini của Google và dự án dự kiến như Q* của OpenAI đang biến đổi phong cảnh. Nó sẽ kiểm tra các tác động thực tế trên các lĩnh vực như y tế, tài chính, giáo dục và các lĩnh vực khác, đồng thời đưa ra các thách thức mới về chất lượng nghiên cứu và sự phù hợp của AI với các giá trị của con người.

Sự ra mắt của ChatGPT vào cuối năm 2022 đã đặc biệt tạo ra sự phấn khích và lo ngại mới về AI, từ khả năng ngôn ngữ tự nhiên ấn tượng của nó đến khả năng lan truyền thông tin sai lệch. Trong khi đó, mô hình Gemini mới của Google thể hiện khả năng đối thoại được cải tiến đáng kể so với các tiền nhiệm như LaMDA thông qua các tiến bộ như sự chú ý spike-and-slab. Các dự án được đồn đại như Q* của OpenAI gợi ý về việc kết hợp AI đối thoại với học tăng cường.

Những đổi mới này cho thấy sự chuyển hướng ưu tiên sang các mô hình tạo sinh đa phương thức và đa năng. Sự cạnh tranh cũng tiếp tục gia tăng giữa các công ty như Google, Meta, Anthropic và Cohere trong việc đẩy ranh giới của sự phát triển AI có trách nhiệm.

Sự Phát triển của Nghiên cứu AI

Khi khả năng đã tăng trưởng, xu hướng nghiên cứu và ưu tiên cũng đã thay đổi, thường tương ứng với các cột mốc công nghệ. Sự trỗi dậy của học sâu đã tái tạo sự quan tâm đến mạng nơ-ron, trong khi xử lý ngôn ngữ tự nhiên đã tăng vọt với các mô hình cấp ChatGPT. Trong khi đó, sự chú ý đến đạo đức vẫn tồn tại như một ưu tiên không đổi giữa sự tiến bộ nhanh chóng.

Các kho lưu trữ tiền xuất bản như arXiv cũng đã chứng kiến sự tăng trưởng theo cấp số nhân trong các bài nộp về AI, cho phép sự phổ biến nhanh hơn nhưng giảm đánh giá đồng nghiệp và tăng nguy cơ sai sót hoặc thiên vị không được kiểm soát. Sự tương tác giữa nghiên cứu và tác động thực tế vẫn còn phức tạp, đòi hỏi sự hợp tác hơn nữa để định hướng tiến bộ.

MoE và Hệ thống Đa phương thức – Làn sóng Tiếp theo của Trí tuệ Nhân tạo Tạo sinh

Để cho phép AI đa năng và tinh vi hơn trên các ứng dụng đa dạng, hai phương pháp đang trở nên nổi bật là hỗn hợp của chuyên gia (MoE) và học đa phương thức.

Kiến trúc MoE kết hợp nhiều mạng nơ-ron chuyên gia “chuyên môn” được tối ưu hóa cho các nhiệm vụ hoặc loại dữ liệu khác nhau. Gemini của Google sử dụng MoE để掌握 cả trao đổi đối thoại dài và trả lời câu hỏi ngắn gọn. MoE cho phép xử lý một loạt các đầu vào mà không làm tăng kích thước mô hình.

Hệ thống đa phương thức như Gemini của Google đang thiết lập các tiêu chuẩn mới bằng cách xử lý các phương thức đa dạng ngoài văn bản. Tuy nhiên, để hiện thực hóa tiềm năng của AI đa phương thức, cần phải vượt qua các rào cản kỹ thuật và thách thức đạo đức chính.

Gemini: Định hình lại Tiêu chuẩn trong Đa phương thức

Gemini là một AI đối thoại đa phương thức, được thiết kế để hiểu mối quan hệ giữa văn bản, hình ảnh, âm thanh và video. Cấu trúc mã hóa kép, sự chú ý chéo phương thức và giải mã đa phương thức cho phép hiểu ngữ cảnh tinh vi. Gemini được cho là vượt qua các hệ thống mã hóa đơn trong việc liên kết các khái niệm văn bản với các vùng trực quan. Bằng cách tích hợp kiến thức cấu trúc và đào tạo chuyên sâu, Gemini vượt qua các tiền nhiệm như GPT-3 và GPT-4 trong:

Phạm vi phương thức được xử lý, bao gồm âm thanh và video
Hiệu suất trên các tiêu chuẩn như hiểu ngôn ngữ đa nhiệm lớn
Tạo mã trên nhiều ngôn ngữ lập trình
Khả năng mở rộng thông qua các phiên bản tùy chỉnh như Gemini Ultra và Nano
Minh bạch thông qua lý do cho đầu ra

Ngăn trở Kỹ thuật trong Hệ thống Đa phương thức

Để hiện thực hóa AI đa phương thức mạnh mẽ, cần giải quyết các vấn đề về đa dạng dữ liệu, khả năng mở rộng, đánh giá và giải thích. Các tập dữ liệu không cân bằng và sự không nhất quán trong chú thích dẫn đến thiên vị. Xử lý nhiều luồng dữ liệu đồng thời gây áp lực lên tài nguyên tính toán, đòi hỏi kiến trúc mô hình được tối ưu hóa. Các tiến bộ trong cơ chế chú ý và thuật toán là cần thiết để tích hợp các đầu vào đa phương thức mâu thuẫn. Các vấn đề về khả năng mở rộng vẫn tồn tại do chi phí tính toán lớn. Việc tinh chỉnh các chỉ số đánh giá thông qua các tiêu chuẩn toàn diện là rất quan trọng. Cải thiện sự tin cậy của người dùng thông qua AI giải thích cũng vẫn rất quan trọng. Việc giải quyết các chướng ngại vật kỹ thuật này sẽ là chìa khóa để mở khóa khả năng của AI đa phương thức.

Các kỹ thuật học tiên tiến như học tự giám sát, học siêu và tinh chỉnh đang ở tiền phong của nghiên cứu AI, tăng cường sự tự chủ, hiệu quả và tính đa năng của các mô hình AI.

Học Tự Giám sát: Tự chủ trong Đào tạo Mô hình

Học tự giám sát nhấn mạnh vào việc đào tạo mô hình tự chủ bằng cách sử dụng dữ liệu không được gắn nhãn, giảm thiểu nỗ lực gắn nhãn thủ công và thiên vị mô hình. Nó kết hợp các mô hình tạo sinh như tự mã hóa và GAN cho việc học phân phối dữ liệu và tái tạo đầu vào, và sử dụng các phương pháp tương phản như SimCLR và MoCo để phân biệt giữa các cặp mẫu tích cực và tiêu cực. Các chiến lược dự đoán tự, lấy cảm hứng từ NLP và được tăng cường bởi các Transformer tầm nhìn gần đây, đóng vai trò quan trọng trong học tự giám sát, thể hiện tiềm năng của nó trong việc thúc đẩy khả năng đào tạo tự chủ của AI.

Học Siêu

Học siêu, hay “học để học”, tập trung vào việc trang bị cho các mô hình AI khả năng thích nghi nhanh với các nhiệm vụ mới bằng cách sử dụng số lượng mẫu dữ liệu hạn chế. Kỹ thuật này rất quan trọng trong các tình huống có sẵn dữ liệu hạn chế, đảm bảo các mô hình có thể nhanh chóng thích nghi và hoạt động trên nhiều nhiệm vụ. Nó nhấn mạnh vào khái niệm tổng quát hóa với ít mẫu, cho phép AI xử lý nhiều nhiệm vụ với dữ liệu tối thiểu, dướilining tầm quan trọng của nó trong việc phát triển các hệ thống AI đa năng và thích nghi.

Tinh chỉnh: Tùy chỉnh AI cho Các nhu cầu Cụ thể

Tinh chỉnh liên quan đến việc điều chỉnh các mô hình đã được đào tạo trước để phù hợp với các lĩnh vực hoặc sở thích người dùng cụ thể. Hai phương pháp chính bao gồm tinh chỉnh từ đầu đến cuối, điều chỉnh tất cả trọng số của bộ mã hóa và phân loại, và tinh chỉnh trích xuất tính năng, nơi trọng số của bộ mã hóa được cố định cho phân loại cấp dòng. Kỹ thuật này đảm bảo rằng các mô hình tạo sinh được điều chỉnh hiệu quả cho các nhu cầu hoặc yêu cầu cụ thể của người dùng hoặc lĩnh vực, tăng cường khả năng áp dụng của chúng trên nhiều ngữ cảnh.

Định hướng Giá trị Con người: Điều hòa AI với Đạo đức

Định hướng giá trị con người tập trung vào việc điều hòa các mô hình AI với các giá trị và chuẩn mực đạo đức của con người, đảm bảo rằng các quyết định của chúng phản ánh các tiêu chuẩn và giá trị xã hội. Khía cạnh này rất quan trọng trong các tình huống mà AI tương tác chặt chẽ với con người, chẳng hạn như trong chăm sóc sức khỏe và trợ lý cá nhân, để đảm bảo rằng các hệ thống AI đưa ra quyết định có trách nhiệm và phù hợp về mặt đạo đức.

Phát triển AGI

AGI tập trung vào việc phát triển AI có khả năng hiểu và lý luận phức tạp, tương đương với khả năng nhận thức của con người. Khát vọng lâu dài này liên tục đẩy ranh giới của nghiên cứu và phát triển AI. An toàn và Kiểm soát AGI giải quyết các rủi ro tiềm ẩn liên quan đến các hệ thống AI tiên tiến, nhấn mạnh nhu cầu về các giao thức an toàn nghiêm ngặt và sự phù hợp về mặt đạo đức với các giá trị và chuẩn mực xã hội.

MoE Đổi mới

Kiến trúc Mixture of Experts (MoE) đại diện cho một bước tiến quan trọng trong các mô hình ngôn ngữ transformer, cung cấp khả năng mở rộng và hiệu quả chưa từng có. Các mô hình MoE, như Switch Transformer và Mixtral, đang nhanh chóng định nghĩa lại quy mô và hiệu suất mô hình trên nhiều nhiệm vụ ngôn ngữ.

Khái niệm Cốt lõi

Mô hình MoE sử dụng kiến trúc dẫn động bởi sự sparsity với nhiều mạng nơ-ron chuyên gia và cơ chế cổng có thể đào tạo, tối ưu hóa tài nguyên tính toán và thích nghi với độ phức tạp của nhiệm vụ. Chúng thể hiện những lợi thế đáng kể trong tốc độ đào tạo trước, nhưng đối mặt với thách thức trong tinh chỉnh và đòi hỏi nhiều bộ nhớ cho việc suy luận.

Mô hình MoE được biết đến với tốc độ đào tạo trước vượt trội, với các đổi mới như DeepSpeed-MoE tối ưu hóa suy luận để đạt được độ trễ và hiệu quả chi phí tốt hơn. Các tiến bộ gần đây đã giải quyết hiệu quả nút thắt giao tiếp tất cả với tất cả, tăng cường hiệu quả đào tạo và suy luận.

Tập hợp các Khối Xây dựng cho Trí tuệ Nhân tạo Tổng quát

AGI đại diện cho khả năng假设 của AI trong việc匹配 hoặc vượt qua trí tuệ con người trên mọi lĩnh vực. Mặc dù AI hiện đại vượt trội trong các nhiệm vụ hẹp, AGI vẫn còn xa và gây tranh cãi do rủi ro tiềm ẩn.

Tuy nhiên, những tiến bộ dần dần trong các lĩnh vực như học chuyển, đào tạo đa nhiệm, khả năng đối thoại và trừu tượng đã tiến gần hơn tới tầm nhìn của AGI. Dự án Q* của OpenAI nhằm mục đích tích hợp học tăng cường vào các mô hình ngôn ngữ lớn như một bước tiến nữa.

Ranh giới Đạo đức và Rủi ro của ViệcManipulating Mô hình AI

Jailbreaks cho phép kẻ tấn công vượt qua các ranh giới đạo đức được thiết lập trong quá trình tinh chỉnh AI. Điều này dẫn đến việc tạo ra nội dung có hại như thông tin sai lệch, ngôn từ căm thù, email lừa đảo và mã độc, gây rủi ro cho cá nhân, tổ chức và xã hội nói chung. Ví dụ, một mô hình bị jailbreak có thể tạo ra nội dung hỗ trợ cho các câu chuyện chia rẽ hoặc hoạt động tội phạm mạng. (Tìm hiểu thêm)

Mặc dù chưa có báo cáo về các cuộc tấn công mạng sử dụng jailbreaking, nhưng nhiều bản jailbreak mẫu đã sẵn sàng trực tuyến và bán trên dark web. Những công cụ này cung cấp các lời nhắc được thiết kế để thao túng các mô hình AI như ChatGPT, có thể cho phép các hacker rò rỉ thông tin nhạy cảm thông qua các chatbot công ty. Sự phổ biến của những công cụ này trên các diễn đàn tội phạm mạng làm nổi bật sự cấp thiết của việc giải quyết mối đe dọa này. (Đọc thêm)

Giảm thiểu Rủi ro Jailbreak

Để đối phó với những mối đe dọa này, một cách tiếp cận đa diện là cần thiết:

Đào tạo Tinh chỉnh Robust: Bao gồm dữ liệu đa dạng trong quá trình tinh chỉnh cải thiện khả năng chống lại sự thao túng của mô hình.
Đào tạo Đối thủ: Đào tạo với các ví dụ đối thủ tăng cường khả năng của mô hình trong việc nhận ra và chống lại các đầu vào bị thao túng.
Đánh giá Định kỳ: Giám sát liên tục đầu ra giúp phát hiện sự偏差 khỏi các hướng dẫn đạo đức.
Giám sát Con người: Sự tham gia của người đánh giá thêm một lớp an toàn nữa.

Mối đe dọa Được cung cấp bởi AI: Khai thác ảo

Ảo giác AI, nơi các mô hình tạo ra đầu ra không dựa trên dữ liệu đào tạo, có thể bị khai thác. Ví dụ, kẻ tấn công đã thao túng ChatGPT để khuyến nghị các gói không tồn tại, dẫn đến sự lan truyền của phần mềm độc hại. Điều này làm nổi bật sự cần thiết của việc cảnh giác liên tục và các biện pháp đối phó mạnh mẽ chống lại sự khai thác như vậy. (Khám phá thêm)

Mặc dù đạo đức của việc theo đuổi AGI vẫn còn phức tạp, sự theo đuổi khát vọng của nó vẫn tiếp tục ảnh hưởng đến các hướng nghiên cứu AI tạo sinh – cho dù các mô hình hiện tại giống như các bước đệm hay các bước sai lầm trên con đường đến trí tuệ nhân tạo cấp độ con người.

Aayush Mittal, Mittal

Tôi đã dành 5 năm qua để đắm mình trong thế giới hấp dẫn của Máy học và Học sâu. Đam mê và chuyên môn của tôi đã dẫn tôi đến việc đóng góp vào hơn 50 dự án kỹ thuật phần mềm đa dạng, với sự tập trung đặc biệt vào AI/ML. Sự tò mò liên tục của tôi cũng đã thu hút tôi đến với Xử lý Ngôn ngữ Tự nhiên, một lĩnh vực tôi渴望 khám phá thêm.