Trí tuệ nhân tạo
Trí tuệ nhân tạo đa phương thức Gemini của Google – Một cuộc lặn sâu kỹ thuật

Sundar Pichai, CEO của Google, cùng với Demis Hassabis từ Google DeepMind, đã giới thiệu Gemini vào tháng 12 năm 2023. Mô hình ngôn ngữ lớn mới này được tích hợp trên toàn bộ sản phẩm của Google, mang lại những cải tiến lan tỏa qua các dịch vụ và công cụ được hàng triệu người sử dụng.
Gemini, trí tuệ nhân tạo đa phương thức tiên tiến của Google, được sinh ra từ sự hợp tác của các phòng thí nghiệm DeepMind và Brain AI thống nhất. Gemini đứng trên vai của những người tiền nhiệm, hứa hẹn mang lại một bộ ứng dụng thông minh và kết nối hơn.
Việc công bố Google Gemini, nằm ngay sau sự ra mắt của Bard, Duet AI và PaLM 2 LLM, đánh dấu một ý định rõ ràng từ Google không chỉ để cạnh tranh mà còn dẫn đầu trong cuộc cách mạng AI.
Trái với bất kỳ ý niệm nào về mùa đông AI, việc ra mắt Gemini gợi ý một mùa xuân AI thịnh vượng, đầy tiềm năng và tăng trưởng. Khi chúng ta phản ánh lại một năm kể từ sự xuất hiện của ChatGPT, điều đó tự nó đã là một khoảnh khắc đột phá cho AI, động thái của Google cho thấy sự mở rộng của ngành công nghiệp này còn lâu mới kết thúc; trên thực tế, nó có thể chỉ mới bắt đầu.
Gemini là gì?
Mô hình Gemini của Google có khả năng xử lý các loại dữ liệu đa dạng như văn bản, hình ảnh, âm thanh và video. Nó có ba phiên bản – Ultra, Pro và Nano – mỗi phiên bản được thiết kế cho các ứng dụng cụ thể, từ lý luận phức tạp đến sử dụng trên thiết bị. Ultra excels trong các nhiệm vụ đa mặt và sẽ có sẵn trên Bard Advanced, trong khi Pro cung cấp sự cân bằng giữa hiệu suất và hiệu quả tài nguyên, đã được tích hợp vào Bard cho các lời nhắc văn bản. Nano, được tối ưu hóa cho việc triển khai trên thiết bị, có hai kích cỡ và có các tối ưu hóa phần cứng như lượng tử hóa 4 bit cho sử dụng ngoại tuyến trên các thiết bị như Pixel 8 Pro.
Kiến trúc của Gemini độc đáo với khả năng đầu ra đa phương thức bản địa, sử dụng các token hình ảnh rời rạc cho việc tạo hình ảnh và tích hợp các tính năng âm thanh từ Mô hình Nói chung để hiểu âm thanh tinh vi. Khả năng của nó trong việc xử lý dữ liệu video như các hình ảnh tuần tự, xen kẽ với các đầu vào văn bản hoặc âm thanh, thể hiện khả năng đa phương thức của nó.
Truy cập Gemini
Gemini 1.0 đang được triển khai trên toàn bộ hệ sinh thái của Google, bao gồm Bard, hiện nay được hưởng lợi từ các khả năng tinh chỉnh của Gemini Pro. Google cũng đã tích hợp Gemini vào các dịch vụ Tìm kiếm, Quảng cáo và Duet, nâng cao trải nghiệm người dùng với các phản hồi nhanh hơn và chính xác hơn.
Đối với những người muốn tận dụng khả năng của Gemini, Google AI Studio và Google Cloud Vertex cung cấp quyền truy cập vào Gemini Pro, với sau này cung cấp nhiều tùy chỉnh và tính năng bảo mật hơn.
Để trải nghiệm các khả năng nâng cao của Bard được hỗ trợ bởi Gemini Pro, người dùng có thể thực hiện các bước đơn giản sau:
- Dẫn đường đến Bard: Mở trình duyệt web yêu thích của bạn và truy cập trang web Bard.
- Đăng nhập An toàn: Truy cập dịch vụ bằng cách đăng nhập vào tài khoản Google của bạn, đảm bảo một trải nghiệm liền mạch và an toàn.
- Trò chuyện Tương tác: Bạn có thể sử dụng Bard, nơi các tính năng tiên tiến của Gemini Pro có thể được chọn.
Sức mạnh của Đa phương thức:
Ở cốt lõi, Gemini sử dụng kiến trúc dựa trên bộ chuyển đổi, tương tự như những mô hình NLP thành công như GPT-3. Tuy nhiên, sự độc đáo của Gemini nằm ở khả năng xử lý và tích hợp thông tin từ nhiều phương thức, bao gồm văn bản, hình ảnh và mã. Điều này được thực hiện thông qua một kỹ thuật mới gọi là chú ý đa phương thức, cho phép mô hình học các mối quan hệ và sự phụ thuộc giữa các loại dữ liệu khác nhau.
Dưới đây là phân tích các thành phần chính của Gemini:
- Mã hóa Đa phương thức: Module này xử lý dữ liệu đầu vào từ mỗi phương thức (ví dụ: văn bản, hình ảnh) độc lập, trích xuất các tính năng liên quan và tạo ra các biểu diễn riêng biệt.
- Mạng Chú ý Đa phương thức: Mạng này là trái tim của Gemini. Nó cho phép mô hình học các mối quan hệ và sự phụ thuộc giữa các biểu diễn, cho phép chúng “nói” với nhau và làm phong phú thêm sự hiểu biết của chúng.
- Giải mã Đa phương thức: Module này sử dụng các biểu diễn được làm phong phú bởi mạng chú ý đa phương thức để thực hiện các nhiệm vụ khác nhau, chẳng hạn như tạo chú thích hình ảnh, tạo hình ảnh từ văn bản và tạo mã.
Mô hình Gemini không chỉ là về việc hiểu văn bản hoặc hình ảnh – nó là về việc tích hợp các loại thông tin khác nhau theo cách gần giống với cách chúng ta, con người, nhận thức thế giới. Ví dụ, Gemini có thể nhìn vào một chuỗi hình ảnh và xác định thứ tự logic hoặc không gian của các vật thể trong chúng. Nó cũng có thể phân tích các tính năng thiết kế của các vật thể để đưa ra các phán đoán, chẳng hạn như xe hơi nào có hình dạng khí động học hơn.
Nhưng tài năng của Gemini vượt ra ngoài việc hiểu hình ảnh. Nó có thể chuyển đổi một tập hợp hướng dẫn thành mã, tạo ra các công cụ thực tế như một bộ đếm thời gian không chỉ hoạt động như hướng dẫn mà còn bao gồm các yếu tố sáng tạo, chẳng hạn như biểu tượng cảm xúc động viên, để nâng cao tương tác của người dùng. Điều này cho thấy khả năng xử lý các nhiệm vụ đòi hỏi sự kết hợp giữa sáng tạo và chức năng – những kỹ năng thường được coi là đặc trưng của con người.

Khả năng của Gemini : Lý luận Không gian (Nguồn)

Khả năng của Gemini mở rộng đến việc thực hiện các nhiệm vụ lập trình(Nguồn)
Thiết kế tinh vi của Gemini dựa trên lịch sử phong phú của nghiên cứu mạng nơ-ron và tận dụng công nghệ TPU tiên tiến của Google để đào tạo. Gemini Ultra, đặc biệt, đã thiết lập các chuẩn mực mới trong các lĩnh vực AI, thể hiện sự cải thiện đáng kể về hiệu suất trong các nhiệm vụ lý luận đa phương thức.
Với khả năng phân tích và hiểu dữ liệu phức tạp, Gemini cung cấp các giải pháp cho các ứng dụng thực tế, đặc biệt là trong lĩnh vực giáo dục. Nó có thể phân tích và sửa các giải pháp cho các vấn đề, như trong vật lý, bằng cách hiểu các ghi chú viết tay và cung cấp đánh máy toán học chính xác. Các khả năng như vậy gợi ý một tương lai nơi AI hỗ trợ trong các môi trường giáo dục, cung cấp cho học sinh và giáo viên các công cụ học tập và giải quyết vấn đề tiên tiến.
Gemini đã được tận dụng để tạo ra các đại lý như AlphaCode 2, excels trong các vấn đề lập trình cạnh tranh. Điều này thể hiện khả năng của Gemini trong việc hoạt động như một mô hình AI tổng quát, có khả năng xử lý các vấn đề phức tạp, đa bước.
Gemini Nano mang sức mạnh của AI đến các thiết bị hàng ngày, duy trì các khả năng ấn tượng trong các nhiệm vụ như tóm tắt và đọc hiểu, cũng như các thách thức liên quan đến mã hóa và STEM. Các mô hình nhỏ hơn này được tinh chỉnh để cung cấp các chức năng AI chất lượng cao trên các thiết bị bộ nhớ thấp, khiến AI tiên tiến trở nên dễ tiếp cận hơn bao giờ hết.
Việc phát triển Gemini liên quan đến các đổi mới trong các thuật toán đào tạo và cơ sở hạ tầng, sử dụng các TPU mới nhất của Google. Điều này cho phép việc mở rộng và đào tạo quy trình hiệu quả, đảm bảo rằng ngay cả các mô hình nhỏ nhất cũng cung cấp hiệu suất vượt trội.
Bộ dữ liệu đào tạo cho Gemini đa dạng như khả năng của nó, bao gồm tài liệu web, sách, mã, hình ảnh, âm thanh và video. Bộ dữ liệu đa phương thức và đa ngôn ngữ này đảm bảo rằng các mô hình Gemini có thể hiểu và xử lý nhiều loại nội dung một cách hiệu quả.
Gemini và GPT-4
Mặc dù sự xuất hiện của các mô hình khác, câu hỏi trên mọi người đang nghĩ là làm thế nào Gemini của Google so sánh với GPT-4 của OpenAI, chuẩn mực của ngành cho các LLM mới. Dữ liệu của Google cho thấy rằng trong khi GPT-4 có thể vượt trội trong các nhiệm vụ lý luận thông thường, Gemini Ultra có lợi thế trong gần như mọi lĩnh vực khác.
Bảng so sánh trên cho thấy hiệu suất ấn tượng của AI Gemini của Google trên nhiều nhiệm vụ khác nhau. Đặc biệt, Gemini Ultra đã đạt được kết quả đáng chú ý trong chuẩn mực MMLU với độ chính xác 90,04%, cho thấy sự hiểu biết vượt trội của nó trong các câu hỏi trắc nghiệm trên 57 môn.
Trong chuẩn mực GSM8K, đánh giá các câu hỏi toán học cấp trường tiểu học, Gemini Ultra đạt điểm 94,4%, thể hiện kỹ năng xử lý số học tiên tiến của nó. Trong các chuẩn mực mã hóa, với Gemini Ultra đạt điểm 74,4% trong chuẩn mực HumanEval cho việc tạo mã Python, cho thấy sự hiểu biết mạnh mẽ về ngôn ngữ lập trình của nó.
Chuẩn mực DROP, kiểm tra khả năng đọc hiểu, lại thấy Gemini Ultra dẫn đầu với điểm 82,4%. Trong khi đó, trong một bài kiểm tra lý luận thông thường, HellaSwag, Gemini Ultra thể hiện khả năng đáng chú ý, mặc dù nó không vượt qua chuẩn mực cực cao do GPT-4 thiết lập.
Kết luận
Kiến trúc độc đáo của Gemini, được hỗ trợ bởi công nghệ tiên tiến của Google, đặt nó vào vị trí là một người chơi đáng gờm trong lĩnh vực AI, thách thức các chuẩn mực hiện có do các mô hình như GPT-4 thiết lập. Các phiên bản của nó – Ultra, Pro và Nano – mỗi phiên bản được thiết kế cho các nhu cầu cụ thể, từ các nhiệm vụ lý luận phức tạp đến các ứng dụng hiệu quả trên thiết bị, thể hiện cam kết của Google trong việc đưa AI tiên tiến đến các nền tảng và thiết bị khác nhau.
Việc tích hợp Gemini vào hệ sinh thái của Google, từ Bard đến Google Cloud Vertex, nhấn mạnh tiềm năng của nó trong việc nâng cao trải nghiệm người dùng trên nhiều dịch vụ. Nó không chỉ hứa hẹn cải thiện các ứng dụng hiện có mà còn mở ra các con đường mới cho các giải pháp AI, cho dù trong hỗ trợ cá nhân hóa, sáng tạo hay phân tích kinh doanh.
Khi chúng ta nhìn về phía trước, sự tiến bộ liên tục trong các mô hình AI như Gemini nhấn mạnh tầm quan trọng của nghiên cứu và phát triển liên tục. Các thách thức trong việc đào tạo các mô hình tinh vi như vậy và đảm bảo việc sử dụng chúng một cách có trách nhiệm và đạo đức vẫn là trọng tâm của cuộc thảo luận.














