Trí tuệ nhân tạo

Khám phá Gemini 1.5: Cách Mô hình AI đa phương thức mới nhất của Google nâng tầm bối cảnh AI vượt xa người tiền nhiệm của nó

Được phát hành 20 Tháng hai, 2024

Tiến sĩ Tehseen Zia

Trong bối cảnh trí tuệ nhân tạo đang phát triển nhanh chóng, Google tiếp tục dẫn đầu với những phát triển tiên phong trong AI đa phương thức công nghệ. Ngay sau khi ra mắt Gemini 1.0, công nghệ tiên tiến của họ mô hình ngôn ngữ lớn đa phương thức, Google hiện đã tiết lộ Gemini 1.5. Sự lặp lại này không chỉ nâng cao năng lực được thiết lập bởi Gemini 1.0 mà còn mang lại những cải tiến đáng kể trong phương pháp xử lý và tích hợp dữ liệu đa phương thức của Google. Bài viết này cung cấp cái nhìn tổng quan về Gemini 1.5, làm sáng tỏ cách tiếp cận sáng tạo và các tính năng đặc biệt của nó.

Song Tử 1.0: Đặt nền móng

Được ra mắt bởi Google DeepMind và Google Research vào ngày 6 tháng 2023 năm 1.0, Gemini XNUMX đã giới thiệu một loại mô hình AI đa phương thức mới có khả năng hiểu và tạo nội dung ở nhiều định dạng khác nhau, chẳng hạn như văn bản, âm thanh, hình ảnh và video. Điều này đánh dấu một bước tiến quan trọng trong AI, mở rộng phạm vi quản lý các loại thông tin đa dạng.

Tính năng nổi bật của Gemini là khả năng kết hợp liền mạch nhiều loại dữ liệu. Không giống như các mô hình AI thông thường có thể chuyên về một định dạng dữ liệu duy nhất, Gemini tích hợp văn bản, hình ảnh và âm thanh. Sự tích hợp này cho phép nó thực hiện các tác vụ như phân tích các ghi chú viết tay hoặc giải mã các sơ đồ phức tạp, từ đó giải quyết được nhiều thách thức phức tạp.

Gia đình Gemini cung cấp các mô hình cho nhiều ứng dụng khác nhau: mô hình Ultra cho các tác vụ phức tạp, mô hình Pro cho tốc độ và khả năng mở rộng trên các nền tảng chính như Google Bard và các mô hình Nano (Nano-1 và Nano-2) với 1.8 tỷ và 3.25 tỷ tham số , tương ứng, được thiết kế để tích hợp vào các thiết bị như điện thoại thông minh Google Pixel 8 Pro.

Bước nhảy vọt đến Song Tử 1.5

Phiên bản mới nhất của Google, Gemini 1.5, nâng cao chức năng và hiệu quả hoạt động của phiên bản tiền nhiệm, Gemini 1.0. Phiên bản này áp dụng một Sự kết hợp của các chuyên gia (MoE), một sự khởi đầu từ cách tiếp cận mô hình lớn, thống nhất được thấy ở phiên bản tiền nhiệm. Kiến trúc này kết hợp một bộ sưu tập nhỏ hơn, chuyên biệt mô hình máy biến áp, mỗi người đều thành thạo trong việc quản lý các phân đoạn dữ liệu cụ thể hoặc các nhiệm vụ riêng biệt. Thiết lập này cho phép Gemini 1.5 tương tác linh hoạt với chuyên gia phù hợp nhất dựa trên dữ liệu đến, hợp lý hóa khả năng tìm hiểu và xử lý thông tin của mô hình.

Cách tiếp cận sáng tạo này nâng cao đáng kể hiệu quả đào tạo và triển khai mô hình bằng cách chỉ kích hoạt những chuyên gia cần thiết cho các nhiệm vụ. Do đó, Gemini 1.5 có khả năng xử lý nhanh chóng các tác vụ phức tạp và mang lại kết quả chất lượng cao hiệu quả hơn so với các mô hình thông thường. Những tiến bộ này cho phép các nhóm nghiên cứu của Google đẩy nhanh quá trình phát triển và cải tiến mô hình Gemini, mở rộng khả năng trong lĩnh vực AI.

Khả năng mở rộng

Một cải tiến đáng chú ý trong Gemini 1.5 là khả năng xử lý thông tin được mở rộng. Cửa sổ ngữ cảnh của mô hình, tức là lượng dữ liệu người dùng mà nó có thể phân tích để tạo ra phản hồi, giờ đây mở rộng lên đến 1 triệu token — tăng đáng kể so với 32,000 token của Gemini 1.0. Cải tiến này cho phép Gemini 1.5 Pro có thể xử lý đồng thời lượng dữ liệu khổng lồ, chẳng hạn như một giờ nội dung video, mười một giờ âm thanh, hoặc các cơ sở mã và tài liệu văn bản lớn. Nó cũng đã được thử nghiệm thành công với tối đa 10 triệu token, cho thấy khả năng đặc biệt trong việc hiểu và diễn giải các tập dữ liệu khổng lồ.

Cái nhìn thoáng qua về khả năng của Gemini 1.5

Những cải tiến về kiến trúc và cửa sổ ngữ cảnh mở rộng của Gemini 1.5 cho phép nó thực hiện phân tích phức tạp trên các tập thông tin lớn. Cho dù đó là việc đào sâu vào các chi tiết phức tạp của sứ mệnh Apollo 11 bảng điểm hoặc diễn giải một bộ phim câm, Gemini 1.5 thể hiện khả năng giải quyết vấn đề vô song, đặc biệt là với các khối mã dài.

Được phát triển trên bộ tăng tốc TPUv4 tiên tiến của Google, Gemini 1.5 Pro đã được đào tạo trên một tập dữ liệu đa dạng, bao gồm nhiều lĩnh vực khác nhau, bao gồm nội dung đa phương thức và đa ngôn ngữ. Nền tảng đào tạo rộng lớn này, kết hợp với việc tinh chỉnh dựa trên dữ liệu sở thích của con người, đảm bảo kết quả đầu ra của Gemini 1.5 Pro phù hợp với nhận thức của con người.

Thông qua kiểm tra điểm chuẩn nghiêm ngặt Trước vô số nhiệm vụ, Gemini 1.5 Pro không chỉ vượt trội hơn người tiền nhiệm của nó trong phần lớn các đánh giá mà còn sánh ngang với mẫu Gemini 1.0 Ultra lớn hơn. Gemini 1.5 Pro thể hiện khả năng “học theo ngữ cảnh” mạnh mẽ, tiếp thu kiến thức mới một cách hiệu quả từ những lời nhắc chi tiết mà không cần điều chỉnh thêm. Điều này đặc biệt rõ ràng trong hoạt động của nó trên Dịch máy từ một cuốn sách (MTOB), trong đó nó được dịch từ tiếng Anh sang tiếng Kalamang—một ngôn ngữ được một số ít người sử dụng—với trình độ tương đương với trình độ học tập của con người, nhấn mạnh khả năng thích ứng và hiệu quả học tập của nó.

Quyền truy cập xem trước hạn chế

Gemini 1.5 Pro hiện có sẵn ở dạng bản xem trước giới hạn dành cho nhà phát triển và khách hàng doanh nghiệp thông qua phòng thu AI và Đỉnh AI, với kế hoạch phát hành rộng rãi hơn và các tùy chọn có thể tùy chỉnh trong tương lai. Giai đoạn xem trước này mang đến cơ hội duy nhất để khám phá cửa sổ ngữ cảnh mở rộng của nó, với những cải tiến về tốc độ xử lý được mong đợi. Các nhà phát triển và khách hàng doanh nghiệp quan tâm đến Gemini 1.5 Pro có thể đăng ký thông qua AI Studio hoặc liên hệ với nhóm tài khoản Vertex AI của họ để biết thêm thông tin.

Lời kết

Gemini 1.5 là một bước tiến đáng chú ý trong quá trình phát triển AI đa phương thức. Dựa trên nền tảng của Gemini 1.0, phiên bản mới này mang đến những phương pháp cải tiến để xử lý và tích hợp các loại dữ liệu khác nhau. Việc giới thiệu một phương pháp tiếp cận kiến trúc mới và khả năng xử lý dữ liệu mở rộng làm nổi bật nỗ lực không ngừng của Google nhằm nâng cao công nghệ AI. Với tiềm năng xử lý tác vụ hiệu quả hơn và khả năng học tập nâng cao, Gemini 1.5 thể hiện sự phát triển liên tục của AI. Hiện chỉ dành cho một nhóm nhà phát triển và khách hàng doanh nghiệp được chọn lọc, phiên bản này báo hiệu những tiềm năng thú vị cho tương lai của AI, với khả năng tiếp cận rộng rãi hơn và những tiến bộ hơn nữa trong tương lai.

Chủ đề liên quan:Mô hình đa phương thức lớn AI đa phương thức Mô hình ngôn ngữ lớn đa phương thức

Trao quyền cho các Mô hình Tầm nhìn Lớn (LVM) trong các Nhiệm vụ theo Miền cụ thể thông qua Học tập Chuyển tiếp

Đừng bỏ lỡ

Những gì chúng ta biết về Sora của OpenAI cho đến nay

Tiến sĩ Tehseen Zia

Tiến sĩ Tehseen Zia là Phó Giáo sư chính thức tại Đại học COMSATS Islamabad, có bằng Tiến sĩ về AI tại Đại học Công nghệ Vienna, Áo. Chuyên về Trí tuệ nhân tạo, Học máy, Khoa học dữ liệu và Thị giác máy tính, ông đã có những đóng góp đáng kể với các công bố trên các tạp chí khoa học uy tín. Tiến sĩ Tehseen cũng đã lãnh đạo nhiều dự án công nghiệp khác nhau với tư cách là Điều tra viên chính và là Nhà tư vấn AI.