AGI

Khám phá Gemini 1.5: Cách Mô hình Trí tuệ Nhân tạo Đa phương thức Mới nhất của Google Nâng cao Cảnh quan Trí tuệ Nhân tạo Vượt qua Người tiền nhiệm

Published February 20, 2024

Updated April 27, 2026

Dr. Tehseen Zia

Trong cảnh quan trí tuệ nhân tạo đang phát triển nhanh chóng, Google tiếp tục dẫn đầu với những phát triển tiên phong trong các công nghệ trí tuệ nhân tạo đa phương thức. Ngay sau khi ra mắt Gemini 1.0, mô hình ngôn ngữ lớn đa phương thức tiên tiến của họ, Google đã giới thiệu Gemini 1.5. Phiên bản này không chỉ nâng cao khả năng đã được thiết lập bởi Gemini 1.0 mà còn mang lại những cải tiến đáng kể trong phương pháp của Google để xử lý và tích hợp dữ liệu đa phương thức. Bài viết này cung cấp một cuộc khám phá về Gemini 1.5, làm sáng tỏ cách tiếp cận đổi mới và các tính năng đặc trưng của nó.

Gemini 1.0: Đặt nền móng

Được ra mắt bởi Google DeepMind và Google Research vào ngày 6 tháng 12 năm 2023, Gemini 1.0 đã giới thiệu một loại mô hình trí tuệ nhân tạo đa phương thức mới có khả năng hiểu và tạo nội dung ở các định dạng khác nhau, chẳng hạn như văn bản, âm thanh, hình ảnh và video. Đây là một bước tiến đáng kể trong lĩnh vực trí tuệ nhân tạo, mở rộng phạm vi cho việc quản lý các loại thông tin đa dạng.

Tính năng nổi bật của Gemini là khả năng kết hợp mượt mà các loại dữ liệu khác nhau. Không giống như các mô hình trí tuệ nhân tạo truyền thống có thể chuyên về một định dạng dữ liệu duy nhất, Gemini tích hợp văn bản, hình ảnh và âm thanh. Sự tích hợp này cho phép nó thực hiện các nhiệm vụ như phân tích ghi chú viết tay hoặc giải mã các sơ đồ phức tạp, do đó giải quyết một loạt các thách thức phức tạp.

Gia đình Gemini cung cấp các mô hình cho các ứng dụng khác nhau: mô hình Ultra cho các nhiệm vụ phức tạp, mô hình Pro cho tốc độ và khả năng mở rộng trên các nền tảng chính như Google Bard, và các mô hình Nano (Nano-1 và Nano-2) với 1,8 tỷ và 3,25 tỷ tham số, tương ứng, được thiết kế để tích hợp vào các thiết bị như điện thoại thông minh Google Pixel 8 Pro.

Nhảy vọt đến Gemini 1.5

Phiên bản mới nhất của Google, Gemini 1.5, nâng cao chức năng và hiệu quả hoạt động của người tiền nhiệm, Gemini 1.0. Phiên bản này áp dụng một kiến trúc Mixture-of-Experts (MoE) mới, khác với cách tiếp cận mô hình lớn thống nhất được thấy trong người tiền nhiệm. Kiến trúc này kết hợp một bộ sưu tập các mô hình biến đổi nhỏ hơn, chuyên về quản lý các phân đoạn dữ liệu cụ thể hoặc các nhiệm vụ riêng biệt. Thiết lập này cho phép Gemini 1.5 động态 kích hoạt chuyên gia phù hợp nhất dựa trên dữ liệu đầu vào, tối ưu hóa khả năng học và xử lý thông tin của mô hình.

Cách tiếp cận đổi mới này nâng cao đáng kể hiệu quả đào tạo và triển khai mô hình bằng cách chỉ kích hoạt các chuyên gia cần thiết cho các nhiệm vụ. Do đó, Gemini 1.5 có khả năng nhanh chóng nắm vững các nhiệm vụ phức tạp và cung cấp kết quả chất lượng cao một cách hiệu quả hơn so với các mô hình truyền thống. Những tiến bộ như vậy cho phép các nhóm nghiên cứu của Google tăng tốc phát triển và cải tiến mô hình Gemini, mở rộng các khả năng trong lĩnh vực trí tuệ nhân tạo.

Mở rộng Khả năng

Một tiến bộ đáng chú ý trong Gemini 1.5 là khả năng xử lý thông tin được mở rộng. Cửa sổ ngữ cảnh của mô hình, là lượng dữ liệu người dùng mà nó có thể phân tích để tạo ra phản hồi, hiện đã mở rộng lên đến 1 triệu token — một sự tăng đáng kể so với 32.000 token của Gemini 1.0. Sự cải tiến này có nghĩa là Gemini 1.5 Pro có thể xử lý đồng thời lượng lớn dữ liệu, chẳng hạn như một giờ nội dung video, mười một giờ âm thanh, hoặc các cơ sở mã và tài liệu văn bản lớn. Nó cũng đã được thử nghiệm thành công với tối đa 10 triệu token, thể hiện khả năng hiểu và diễn giải tập dữ liệu lớn của nó.

Nhìn về Khả năng của Gemini 1.5

Những cải tiến về kiến trúc và cửa sổ ngữ cảnh mở rộng của Gemini 1.5 cho phép nó thực hiện phân tích tinh vi trên các tập dữ liệu lớn. Cho dù đó là việc khám phá các chi tiết cụ thể của nhiệm vụ Apollo 11 bản ghi hay diễn giải một bộ phim câm, Gemini 1.5 thể hiện khả năng giải quyết vấn đề không có tiền lệ, đặc biệt là với các khối mã dài.

Được phát triển trên các bộ tăng tốc TPUv4 tiên tiến của Google, Gemini 1.5 Pro đã được đào tạo trên một tập dữ liệu đa dạng, bao gồm nhiều lĩnh vực và bao gồm nội dung đa phương thức và đa ngôn ngữ. Cơ sở đào tạo rộng lớn này, kết hợp với tinh chỉnh dựa trên dữ liệu ưa thích của con người, đảm bảo rằng đầu ra của Gemini 1.5 Pro phù hợp với nhận thức của con người.

Thông qua kiểm tra chuẩn mực nghiêm ngặt đối với một loạt các nhiệm vụ, Gemini 1.5 Pro không chỉ vượt trội so với người tiền nhiệm của nó trong đa số các đánh giá mà còn đứng ngang hàng với mô hình Gemini 1.0 Ultra lớn hơn. Gemini 1.5 Pro thể hiện khả năng “học trong ngữ cảnh” mạnh mẽ, hiệu quả thu được kiến thức mới từ các gợi ý chi tiết mà không cần điều chỉnh thêm. Điều này đặc biệt rõ ràng trong hiệu suất của nó trên bản dịch Máy từ Một Sách (MTOB), nơi nó dịch từ tiếng Anh sang Kalamang — một ngôn ngữ được nói bởi một số lượng nhỏ người — với trình độ chuyên môn tương đương với học tập của con người, nhấn mạnh khả năng thích ứng và hiệu quả học tập của nó.

Truy cập Xem trước Hạn chế

Gemini 1.5 Pro hiện có sẵn trong một phiên bản xem trước hạn chế cho các nhà phát triển và khách hàng doanh nghiệp thông qua AI Studio và Vertex AI, với kế hoạch cho một bản phát hành rộng rãi hơn và các tùy chọn tùy chỉnh trên đường chân trời. Giai đoạn xem trước này cung cấp một cơ hội duy nhất để khám phá cửa sổ ngữ cảnh mở rộng của nó, với những cải tiến về tốc độ xử lý được dự đoán. Các nhà phát triển và khách hàng doanh nghiệp quan tâm đến Gemini 1.5 Pro có thể đăng ký thông qua AI Studio hoặc liên hệ với các nhóm tài khoản Vertex AI của họ để biết thêm thông tin.

Kết luận

Gemini 1.5 đại diện cho một bước tiến đáng kể trong sự phát triển của trí tuệ nhân tạo đa phương thức. Xây dựng trên nền tảng được thiết lập bởi Gemini 1.0, phiên bản mới này mang lại các phương pháp cải tiến cho việc xử lý và tích hợp các loại dữ liệu khác nhau. Sự giới thiệu của một cách tiếp cận kiến trúc mới và khả năng xử lý dữ liệu mở rộng nhấn mạnh nỗ lực liên tục của Google nhằm nâng cao công nghệ trí tuệ nhân tạo. Với khả năng xử lý nhiệm vụ hiệu quả hơn và học tập tiên tiến, Gemini 1.5 thể hiện sự tiến hóa liên tục của trí tuệ nhân tạo. Hiện có sẵn cho một nhóm các nhà phát triển và khách hàng doanh nghiệp được chọn, nó báo hiệu những khả năng thú vị cho tương lai của trí tuệ nhân tạo, với sự phát hành rộng rãi hơn và những tiến bộ thêm trên đường chân trời.

Related Topics:Large Multimodal Models Multimodal AI Multimodal Large Language Model

Dr. Tehseen Zia

Tiến sĩ Tehseen Zia là Giáo sư Liên kết có thời hạn tại Đại học COMSATS Islamabad, nắm giữ bằng Tiến sĩ về Trí tuệ Nhân tạo từ Đại học Công nghệ Vienna, Áo. Chuyên về Trí tuệ Nhân tạo, Học máy, Khoa học Dữ liệu và Thị giác Máy tính, ông đã có những đóng góp đáng kể với các ấn phẩm trên các tạp chí khoa học uy tín. Tiến sĩ Tehseen cũng đã dẫn dắt các dự án công nghiệp khác nhau với tư cách là Điều tra viên Chính và từng là Tư vấn viên Trí tuệ Nhân tạo.