Kết nối với chúng tôi

Gemma: Google mang đến khả năng AI nâng cao thông qua nguồn mở

Trí tuệ nhân tạo

Gemma: Google mang đến khả năng AI nâng cao thông qua nguồn mở

mm

Được phát hành

 on

Mã nguồn mở LLM Gemma của Google

Lĩnh vực trí tuệ nhân tạo (AI) đã chứng kiến ​​những tiến bộ to lớn trong những năm gần đây, chủ yếu được thúc đẩy bởi những tiến bộ trong học kĩ càngxử lý ngôn ngữ tự nhiên (NLP). Đi đầu trong những tiến bộ này là mô hình ngôn ngữ lớn (LLM) – Các hệ thống AI được đào tạo về lượng dữ liệu văn bản khổng lồ có thể tạo ra văn bản giống con người và tham gia vào các tác vụ đàm thoại.

Các LLM như PaLM của Google, Claude của Anthropic và Gopher của DeepMind đã chứng tỏ được những khả năng vượt trội, từ mã hóa đến lý luận thông thường. Tuy nhiên, hầu hết các mô hình này chưa được phát hành công khai, hạn chế khả năng tiếp cận nghiên cứu, phát triển và các ứng dụng có lợi.

Điều này đã thay đổi với nguồn mở gần đây của Gemma – một dòng LLM từ DeepMind của Google dựa trên các mô hình Gemini độc quyền mạnh mẽ của họ. Trong bài đăng trên blog này, chúng ta sẽ đi sâu vào Gemma, phân tích kiến ​​trúc, quy trình đào tạo, hiệu suất và bản phát hành có trách nhiệm của nó.

Tổng quan về Gemma

Vào tháng 2023 năm XNUMX, DeepMind nguồn mở hai kích cỡ của mô hình Gemma – phiên bản 2 tỷ tham số được tối ưu hóa để triển khai trên thiết bị và phiên bản 7 tỷ tham số lớn hơn được thiết kế để sử dụng GPU/TPU.

Gemma tận dụng phương pháp đào tạo và kiến ​​trúc dựa trên máy biến áp tương tự như các mô hình Gemini hàng đầu của DeepMind. Nó được đào tạo trên 6 nghìn tỷ mã thông báo văn bản từ các tài liệu web, toán học và mã.

DeepMind đã phát hành cả các điểm kiểm tra thô được đào tạo trước của Gemma, cũng như các phiên bản được tinh chỉnh bằng phương pháp học có giám sát và phản hồi của con người để nâng cao khả năng trong các lĩnh vực như đối thoại, làm theo hướng dẫn và mã hóa.

Bắt đầu với Gemma

Bản phát hành mở của Gemma giúp các nhà phát triển, nhà nghiên cứu và những người đam mê có thể tiếp cận các khả năng AI tiên tiến của nó. Dưới đây là hướng dẫn nhanh để bắt đầu:

Triển khai bất khả tri về nền tảng

Điểm mạnh chính của Gemma là tính linh hoạt – bạn có thể chạy nó trên CPU, GPU hoặc TPU. Đối với CPU, hãy tận dụng TensorFlow Lite hoặc HuggingFace Transformers. Để tăng tốc hiệu suất trên GPU/TPU, hãy sử dụng TensorFlow. Các dịch vụ đám mây như Vertex AI của Google Cloud cũng cung cấp khả năng mở rộng liền mạch.

Truy cập các mô hình được đào tạo trước

Gemma có nhiều biến thể được đào tạo trước khác nhau tùy thuộc vào nhu cầu của bạn. Các mô hình 2B và 7B cung cấp khả năng sáng tạo mạnh mẽ ngay từ đầu. Để tinh chỉnh tùy chỉnh, các mẫu 2B-FT và 7B-FT là điểm khởi đầu lý tưởng.

Xây dựng các ứng dụng thú vị

Bạn có thể xây dựng nhiều ứng dụng đa dạng với Gemma, như tạo câu chuyện, dịch ngôn ngữ, trả lời câu hỏi và sản xuất nội dung sáng tạo. Điều quan trọng là tận dụng điểm mạnh của Gemma thông qua việc tinh chỉnh bộ dữ liệu của riêng bạn.

Kiến trúc

Gemma sử dụng kiến ​​trúc biến áp chỉ dành cho bộ giải mã, xây dựng dựa trên những tiến bộ như chú ý nhiều truy vấn và nhúng vị trí quay:

  • Máy biến áp: Được giới thiệu vào năm 2017, kiến ​​trúc máy biến áp chỉ dựa trên cơ chế chú ý đã trở nên phổ biến trong NLP. Gemma kế thừa khả năng của máy biến áp để mô hình hóa các phần phụ thuộc tầm xa trong văn bản.
  • Chỉ dành cho bộ giải mã: Gemma chỉ sử dụng ngăn xếp bộ giải mã biến áp, không giống như các mô hình bộ mã hóa-giải mã như BART hay T5. Điều này cung cấp khả năng sáng tạo mạnh mẽ cho các tác vụ như tạo văn bản.
  • Chú ý nhiều truy vấn: Gemma sử dụng tính năng chú ý nhiều truy vấn trong mô hình lớn hơn của mình, cho phép mỗi đầu chú ý xử lý song song nhiều truy vấn để suy luận nhanh hơn.
  • nhúng vị trí quay: Gemma thể hiện thông tin vị trí bằng cách sử dụng phương pháp nhúng quay thay vì mã hóa vị trí tuyệt đối. Kỹ thuật này làm giảm kích thước mô hình trong khi vẫn giữ được thông tin vị trí.

Việc sử dụng các kỹ thuật như chú ý nhiều truy vấn và nhúng vị trí quay cho phép các mô hình Gemma đạt được sự cân bằng tối ưu giữa hiệu suất, tốc độ suy luận và kích thước mô hình.

Dữ liệu và quy trình đào tạo

Gemma đã được đào tạo về tới 6 nghìn tỷ mã thông báo dữ liệu văn bản, chủ yếu bằng tiếng Anh. Điều này bao gồm các tài liệu web, văn bản toán học và mã nguồn. DeepMind đã đầu tư nhiều nỗ lực vào việc lọc dữ liệu, loại bỏ nội dung độc hại bằng cách sử dụng các bộ phân loại và chẩn đoán.

Quá trình đào tạo được thực hiện bằng cơ sở hạ tầng TPUv5 của Google, với tối đa 4096 TPU được sử dụng để đào tạo Gemma-7B. Các kỹ thuật song song dữ liệu và mô hình hiệu quả cho phép đào tạo các mô hình lớn bằng phần cứng phổ thông.

Đào tạo theo giai đoạn đã được sử dụng, liên tục điều chỉnh phân phối dữ liệu để tập trung vào văn bản có liên quan, chất lượng cao. Các giai đoạn tinh chỉnh cuối cùng sử dụng sự kết hợp giữa các ví dụ làm theo hướng dẫn tổng hợp và do con người tạo ra để nâng cao khả năng.

Hiệu suất mô hình

DeepMind đã đánh giá nghiêm ngặt các mô hình Gemma trên một tập hợp rộng hơn 25 điểm chuẩn bao gồm khả năng trả lời câu hỏi, lý luận, toán học, mã hóa, lẽ thường và khả năng đối thoại.

Gemma đạt được kết quả tiên tiến nhất so với các mô hình nguồn mở có quy mô tương tự trên phần lớn các điểm chuẩn. Một số điểm nổi bật:

  • Toán học: Gemma vượt trội trong các bài kiểm tra lý luận toán học như GSM8K và MATH, vượt trội so với các mô hình như Codex và Claude của Anthropic hơn 10 điểm.
  • Lập trình: Gemma đạt hoặc vượt hiệu suất của Codex trên các tiêu chuẩn lập trình như MBPP, mặc dù không được đào tạo cụ thể về mã.
  • Đối thoại: Gemma thể hiện khả năng đàm thoại mạnh mẽ với tỷ lệ thắng 51.7% trước Mistral-7B của Anthropic trong các bài kiểm tra sở thích của con người.
  • lý luận: Ở các nhiệm vụ yêu cầu suy luận như ARC và Winogrande, Gemma vượt trội hơn các mô hình 7B khác từ 5-10 điểm.

Tính linh hoạt của Gemma trong các lĩnh vực thể hiện khả năng thông minh tổng quát mạnh mẽ của nó. Trong khi vẫn còn khoảng cách về hiệu suất ở cấp độ con người, Gemma thể hiện một bước nhảy vọt trong NLP nguồn mở.

An toàn và Trách nhiệm

Việc phát hành trọng số nguồn mở của các mô hình lớn đặt ra những thách thức xung quanh việc sử dụng sai có chủ ý và các thành kiến ​​cố hữu của mô hình. DeepMind đã thực hiện các bước để giảm thiểu rủi ro:

  • Lọc dữ liệu: Văn bản có khả năng độc hại, bất hợp pháp hoặc sai lệch đã bị xóa khỏi dữ liệu huấn luyện bằng cách sử dụng các thuật toán phân loại và chẩn đoán.
  • Đánh giá: Gemma đã được thử nghiệm trên hơn 30 điểm chuẩn được tuyển chọn để đánh giá tính an toàn, công bằng và mạnh mẽ. Nó phù hợp hoặc vượt quá các mô hình khác.
  • Tinh chỉnh: Tinh chỉnh mô hình tập trung vào việc cải thiện các khả năng an toàn như lọc thông tin và các hành vi phòng ngừa/từ chối thích hợp.
  • Điều khoản sử dụng: Các điều khoản sử dụng nghiêm cấm các ứng dụng mang tính xúc phạm, bất hợp pháp hoặc phi đạo đức đối với các mô hình Gemma. Tuy nhiên, việc thực thi vẫn còn nhiều thách thức.
  • Thẻ mẫu: Thẻ nêu chi tiết các khả năng, hạn chế và thành kiến ​​của mô hình đã được phát hành để nâng cao tính minh bạch.

Mặc dù tồn tại rủi ro từ nguồn mở, DeepMind xác định việc phát hành Gemma mang lại lợi ích xã hội ròng dựa trên hồ sơ an toàn và khả năng hỗ trợ nghiên cứu của nó. Tuy nhiên, việc giám sát thận trọng các tác hại tiềm ẩn sẽ vẫn rất quan trọng.

Kích hoạt làn sóng đổi mới AI tiếp theo

Việc phát hành Gemma dưới dạng một dòng mô hình nguồn mở nhằm mở khóa tiến trình trên toàn cộng đồng AI:

  • Tiếp cận: Gemma giảm bớt rào cản cho các tổ chức trong việc xây dựng bằng NLP tiên tiến, những tổ chức trước đây phải đối mặt với chi phí tính toán/dữ liệu cao để đào tạo LLM của riêng họ.
  • Ứng dụng mới: Bằng cách cung cấp nguồn mở các điểm kiểm tra được điều chỉnh và đào tạo trước, DeepMind cho phép phát triển dễ dàng hơn các ứng dụng có lợi trong các lĩnh vực như giáo dục, khoa học và khả năng tiếp cận.
  • Customization: Các nhà phát triển có thể tùy chỉnh thêm Gemma cho các ứng dụng theo ngành hoặc theo miền cụ thể thông qua đào tạo liên tục về dữ liệu độc quyền.
  • Nghiên cứu: Các mô hình mở như Gemma thúc đẩy tính minh bạch và kiểm toán cao hơn đối với các hệ thống NLP hiện tại, làm sáng tỏ các hướng nghiên cứu trong tương lai.
  • Sáng tạo: Sự sẵn có của các mô hình cơ sở mạnh mẽ như Gemma sẽ đẩy nhanh tiến độ trên các lĩnh vực như giảm thiểu thành kiến, tính xác thực và an toàn AI.

Bằng cách cung cấp khả năng của Gemma cho tất cả mọi người thông qua nguồn mở, DeepMind hy vọng sẽ thúc đẩy sự phát triển có trách nhiệm của AI vì lợi ích xã hội.

Con đường phía trước

Với mỗi bước nhảy vọt về AI, chúng ta tiến gần hơn tới các mô hình có thể cạnh tranh hoặc vượt xa trí thông minh của con người trên tất cả các lĩnh vực. Các hệ thống như Gemma nhấn mạnh những tiến bộ nhanh chóng trong các mô hình tự giám sát đang mở ra những khả năng nhận thức ngày càng tiên tiến như thế nào.

Tuy nhiên, công việc vẫn là cải thiện độ tin cậy, khả năng diễn giải và khả năng kiểm soát của AI – những lĩnh vực mà trí tuệ con người vẫn thống trị tối cao. Các lĩnh vực như toán học nêu bật những khoảng cách dai dẳng này, trong đó Gemma đạt 64% điểm MMLU so với hiệu suất ước tính 89% của con người.

Việc thu hẹp những khoảng trống này đồng thời đảm bảo sự an toàn và đạo đức của các hệ thống AI ngày càng có năng lực cao hơn sẽ là những thách thức trọng tâm trong những năm tới. Việc đạt được sự cân bằng hợp lý giữa sự cởi mở và thận trọng sẽ rất quan trọng vì DeepMind hướng tới mục tiêu dân chủ hóa khả năng tiếp cận các lợi ích của AI trong khi quản lý các rủi ro mới nổi.

Các sáng kiến ​​nhằm thúc đẩy sự an toàn của AI – như ANC của Dario Amodei, nhóm Đạo đức & Xã hội của DeepMind và AI Hiến pháp của Anthropic – báo hiệu sự nhận thức ngày càng tăng về nhu cầu về sắc thái này. Sự tiến bộ có ý nghĩa sẽ đòi hỏi sự đối thoại cởi mở, dựa trên bằng chứng giữa các nhà nghiên cứu, nhà phát triển, nhà hoạch định chính sách và công chúng.

Nếu được điều hướng một cách có trách nhiệm, Gemma không đại diện cho đỉnh cao của AI mà là cơ sở cho thế hệ các nhà nghiên cứu AI tiếp theo theo bước DeepMind hướng tới trí tuệ nhân tạo tổng hợp công bằng và có lợi.

Kết luận

Việc DeepMind phát hành các mô hình Gemma đánh dấu một kỷ nguyên mới cho AI nguồn mở - một kỷ nguyên vượt qua các tiêu chuẩn hạn hẹp để trở thành các khả năng trí tuệ tổng quát. Được thử nghiệm rộng rãi về độ an toàn và khả năng tiếp cận rộng rãi, Gemma đặt ra tiêu chuẩn mới về nguồn mở có trách nhiệm trong AI.

Được thúc đẩy bởi tinh thần cạnh tranh được rèn luyện bằng các giá trị hợp tác, việc chia sẻ những đột phá như Gemma đã nâng tầm mọi con thuyền trong hệ sinh thái AI. Toàn bộ cộng đồng hiện có quyền truy cập vào dòng LLM đa năng để thúc đẩy hoặc hỗ trợ các sáng kiến ​​của họ.

Mặc dù rủi ro vẫn còn, nhưng sự siêng năng về mặt kỹ thuật và đạo đức của DeepMind mang lại niềm tin rằng lợi ích của Gemma lớn hơn những tác hại tiềm tàng của nó. Khi khả năng AI ngày càng phát triển tiên tiến hơn, việc duy trì sắc thái giữa sự cởi mở và thận trọng này sẽ rất quan trọng.

Gemma đưa chúng ta tiến một bước gần hơn tới AI mang lại lợi ích cho toàn nhân loại. Nhưng nhiều thách thức lớn vẫn đang chờ đợi trên con đường hướng tới trí tuệ nhân tạo tổng hợp nhân từ. Nếu các nhà nghiên cứu, nhà phát triển AI và xã hội nói chung có thể duy trì tiến trình hợp tác, thì một ngày nào đó Gemma có thể được coi là một cơ sở lịch sử chứ không phải là hội nghị thượng đỉnh cuối cùng.

Tôi đã dành 50 năm qua để đắm mình trong thế giới hấp dẫn của Học máy và Học sâu. Niềm đam mê và chuyên môn của tôi đã giúp tôi đóng góp cho hơn XNUMX dự án kỹ thuật phần mềm đa dạng, đặc biệt tập trung vào AI/ML. Sự tò mò không ngừng của tôi cũng đã lôi kéo tôi đến với Xử lý ngôn ngữ tự nhiên, một lĩnh vực mà tôi háo hức khám phá thêm.