sơ khai 5 LLM nguồn mở tốt nhất (tháng 2024 năm XNUMX) - Unite.AI
Kết nối với chúng tôi
Mảng ( [ID] => 1 [tên_người_dùng] => Antoine [tên_người_dùng] => Tardif [biệt danh] => Antoine Tardif [tên_người_dùng] => quản trị viên [tên_hiển thị] => Antoine Tardif [tên_người_dùng] => [email được bảo vệ]
    [user_url] => [user_registered] => 2018-08-27 14:46:37 [user_description] => Đối tác sáng lập của unity.AI & là thành viên của Hội đồng Công nghệ Forbes, Antoine là một nhà tương lai học người đam mê tương lai của AI và robot. Ông cũng là người sáng lập của Chứng khoán.io, một trang web tập trung vào đầu tư vào công nghệ đột phá. [người dùng_avatar] => mm
)

Best Of

5 LLM nguồn mở tốt nhất (tháng 2024 năm XNUMX)

cập nhật on
LLM nguồn mở

Trong thế giới trí tuệ nhân tạo (AI) đang phát triển nhanh chóng, các Mô hình ngôn ngữ lớn (LLM) đã nổi lên như một nền tảng, thúc đẩy sự đổi mới và định hình lại cách chúng ta tương tác với công nghệ.

Khi các mô hình này ngày càng trở nên phức tạp, thì việc dân chủ hóa việc tiếp cận chúng ngày càng được chú trọng. Đặc biệt, các mô hình nguồn mở đang đóng một vai trò then chốt trong quá trình dân chủ hóa này, cung cấp cho các nhà nghiên cứu, nhà phát triển và những người đam mê cơ hội để tìm hiểu sâu về những điểm phức tạp của chúng, tinh chỉnh chúng cho các nhiệm vụ cụ thể hoặc thậm chí xây dựng dựa trên nền tảng của chúng.

Trong blog này, chúng ta sẽ khám phá một số LLM mã nguồn mở hàng đầu đang tạo nên làn sóng trong cộng đồng AI, mỗi giải pháp đều mang đến những điểm mạnh và khả năng độc đáo của mình.

1. lạc đà không bướu 2

Meta's Llama 2 là một bổ sung đột phá cho dòng sản phẩm mô hình AI của họ. Đây không chỉ là một mô hình khác; nó được thiết kế để cung cấp nhiên liệu cho một loạt các ứng dụng hiện đại. Dữ liệu đào tạo của Llama 2 rất lớn và đa dạng, khiến nó trở thành một bước tiến đáng kể so với người tiền nhiệm. Sự đa dạng trong đào tạo này đảm bảo rằng Llama 2 không chỉ là một cải tiến gia tăng mà còn là một bước tiến lớn hướng tới tương lai của các tương tác do AI điều khiển.

Sự hợp tác giữa Meta và Microsoft đã mở rộng tầm nhìn cho Llama 2. Mô hình mã nguồn mở hiện được hỗ trợ trên các nền tảng như Azure và Windows, nhằm mục đích cung cấp cho các nhà phát triển và tổ chức các công cụ để tạo ra trải nghiệm dựa trên AI. Sự hợp tác này nhấn mạnh sự cống hiến của cả hai công ty trong việc làm cho AI trở nên dễ tiếp cận hơn và cởi mở hơn với tất cả mọi người.

Llama 2 không chỉ là sự kế thừa của mô hình Llama ban đầu; nó đại diện cho một sự thay đổi mô hình trong đấu trường chatbot. Mặc dù mô hình Llama đầu tiên mang tính cách mạng trong việc tạo văn bản và mã, nhưng tính khả dụng của nó bị hạn chế để tránh sử dụng sai mục đích. Mặt khác, Llama 2 được thiết lập để tiếp cận nhiều đối tượng hơn. Nó được tối ưu hóa cho các nền tảng như AWS, Azure và nền tảng lưu trữ mô hình AI của Hugging Face. Hơn nữa, với sự hợp tác của Meta với Microsoft, Llama 2 sẵn sàng ghi dấu ấn không chỉ trên Windows mà còn trên các thiết bị được cung cấp bởi hệ thống trên chip Snapdragon của Qualcomm.

An toàn là trọng tâm trong thiết kế của Llama 2. Nhận thấy những thách thức mà các mô hình ngôn ngữ lớn trước đây như GPT gặp phải, đôi khi tạo ra nội dung gây hiểu lầm hoặc có hại, Meta đã thực hiện nhiều biện pháp để đảm bảo độ tin cậy của Llama 2. Người mẫu đã trải qua quá trình đào tạo nghiêm ngặt để giảm thiểu 'ảo giác', thông tin sai lệch và thành kiến.

Các tính năng hàng đầu của LLaMa 2:

  • Dữ liệu đào tạo đa dạng: Dữ liệu đào tạo của Llama 2 vừa phong phú vừa đa dạng, đảm bảo sự hiểu biết và hiệu suất toàn diện.
  • Hợp tác với Microsoft: Llama 2 được hỗ trợ trên các nền tảng như Azure và Windows, mở rộng phạm vi ứng dụng của nó.
  • Sẵn có mở: Không giống như người tiền nhiệm của nó, Llama 2 có sẵn cho nhiều đối tượng hơn, sẵn sàng tinh chỉnh trên nhiều nền tảng.
  • Thiết kế lấy an toàn làm trung tâm: Meta đã nhấn mạnh đến sự an toàn, đảm bảo rằng Llama 2 tạo ra kết quả chính xác và đáng tin cậy đồng thời giảm thiểu các đầu ra có hại.
  • Phiên bản được tối ưu hóa: Llama 2 có hai phiên bản chính – Llama 2 và Llama 2-Chat, phiên bản sau được thiết kế đặc biệt cho các cuộc trò chuyện hai chiều. Các phiên bản này có độ phức tạp từ 7 tỷ đến 70 tỷ tham số.
  • Đào tạo nâng cao: Llama 2 được đào tạo trên hai triệu mã thông báo, tăng đáng kể so với 1.4 nghìn tỷ mã thông báo của Llama ban đầu.

2. Hoa

Vào năm 2022, sau nỗ lực hợp tác toàn cầu với sự tham gia của các tình nguyện viên từ hơn 70 quốc gia và các chuyên gia từ Ôm Mặt, dự án BLOOM đã được công bố. Mô hình ngôn ngữ lớn (LLM) này, được tạo ra thông qua một sáng kiến ​​kéo dài một năm, được thiết kế để tạo văn bản tự hồi quy, có khả năng mở rộng một dấu nhắc văn bản nhất định. Nó được đào tạo trên một kho dữ liệu văn bản khổng lồ sử dụng sức mạnh tính toán đáng kể.

Sự ra mắt của BLOOM là một bước quan trọng trong việc làm cho công nghệ AI tổng hợp trở nên dễ tiếp cận hơn. Là một LLM nguồn mở, nó tự hào có 176 tỷ tham số, khiến nó trở thành một trong những LLM đáng gờm nhất trong lớp. BLOOM có khả năng tạo văn bản mạch lạc và chính xác trên 46 ngôn ngữ và 13 ngôn ngữ lập trình.

Dự án nhấn mạnh tính minh bạch, cho phép công chúng truy cập vào mã nguồn và dữ liệu đào tạo. Sự cởi mở này mời gọi việc kiểm tra, sử dụng và nâng cao mô hình liên tục.

Có thể truy cập miễn phí thông qua nền tảng Ôm mặt, BLOOM là minh chứng cho sự đổi mới hợp tác trong AI.

Các tính năng hàng đầu của Bloom:

  • Khả năng đa ngôn ngữ: BLOOM thành thạo trong việc tạo văn bản bằng 46 ngôn ngữ và 13 ngôn ngữ lập trình, thể hiện phạm vi ngôn ngữ rộng của nó.
  • Truy cập nguồn mở: Mã nguồn và dữ liệu đào tạo của mô hình được cung cấp công khai, thúc đẩy tính minh bạch và cải thiện tính hợp tác.
  • Tạo văn bản tự động: Được thiết kế để tiếp tục văn bản từ một lời nhắc nhất định, BLOOM vượt trội trong việc mở rộng và hoàn thiện chuỗi văn bản.
  • Số lượng tham số lớn: Với 176 tỷ tham số, BLOOM là một trong những LLM nguồn mở mạnh mẽ nhất hiện có.
  • Hợp tác toàn cầu: Được phát triển thông qua một dự án kéo dài một năm với sự đóng góp của các tình nguyện viên trên hơn 70 quốc gia và các nhà nghiên cứu Ôm Mặt.
  • Khả năng truy cập miễn phí: Người dùng có thể truy cập và sử dụng BLOOM miễn phí thông qua hệ sinh thái Ôm Mặt, tăng cường tính dân chủ hóa trong lĩnh vực AI.
  • Đào tạo quy mô công nghiệp: Mô hình được đào tạo trên một lượng lớn dữ liệu văn bản sử dụng các tài nguyên tính toán đáng kể, đảm bảo hiệu suất mạnh mẽ.

3. MPT-7B

MosaicML Foundations đã đóng góp đáng kể cho không gian này với việc giới thiệu MPT-7B, LLM mã nguồn mở mới nhất của họ. MPT-7B, từ viết tắt của MosaicML Pretraining Transformer, là kiểu máy biến áp chỉ dành cho bộ giải mã, kiểu GPT. Mô hình này tự hào có một số cải tiến, bao gồm triển khai lớp được tối ưu hóa hiệu suất và thay đổi kiến ​​trúc để đảm bảo độ ổn định đào tạo cao hơn.

Một tính năng nổi bật của MPT-7B là đào tạo trên bộ dữ liệu mở rộng bao gồm 1 nghìn tỷ mã thông báo văn bản và mã. Quá trình đào tạo nghiêm ngặt này được thực hiện trên nền tảng MosaicML trong khoảng thời gian 9.5 ngày.

Bản chất nguồn mở của MPT-7B định vị nó như một công cụ có giá trị cho các ứng dụng thương mại. Nó có khả năng tác động đáng kể đến các phân tích dự đoán và quá trình ra quyết định của các doanh nghiệp và tổ chức.

Ngoài mô hình cơ sở, MosaicML Foundations cũng đang phát hành các mô hình chuyên biệt được điều chỉnh cho các tác vụ cụ thể, chẳng hạn như MPT-7B-Hướng dẫn cho hướng dẫn dạng ngắn sau, MPT-7B-Trò chuyện để tạo đối thoại và MPT-7B-StoryWriter-65k+ để tạo ra câu chuyện dài.

Hành trình phát triển của MPT-7B rất toàn diện, với nhóm MosaicML quản lý tất cả các giai đoạn từ chuẩn bị dữ liệu đến triển khai trong vòng vài tuần. Dữ liệu được lấy từ nhiều kho lưu trữ khác nhau và nhóm đã sử dụng các công cụ như GPT-NeoX của EleutherAI và mã thông báo 20B để đảm bảo kết hợp đào tạo đa dạng và toàn diện.

Các tính năng chính Tổng quan về MPT-7B:

  • Cấp phép Thương mại: MPT-7B được cấp phép sử dụng cho mục đích thương mại, khiến nó trở thành tài sản quý giá cho các doanh nghiệp.
  • Dữ liệu đào tạo mở rộng: Mô hình tự hào đào tạo trên một bộ dữ liệu khổng lồ gồm 1 nghìn tỷ mã thông báo.
  • Xử lý đầu vào dài: MPT-7B được thiết kế để xử lý các đầu vào cực kỳ dài mà không ảnh hưởng.
  • Tốc độ và hiệu quả: Mô hình được tối ưu hóa để đào tạo và suy luận nhanh chóng, đảm bảo kết quả kịp thời.
  • Mã nguồn mở: MPT-7B đi kèm với mã đào tạo mã nguồn mở hiệu quả, thúc đẩy tính minh bạch và dễ sử dụng.
  • So sánh xuất sắc: MPT-7B đã thể hiện sự vượt trội so với các mẫu nguồn mở khác trong phạm vi 7B-20B, với chất lượng tương đương với LLaMA-7B.

4. Chim ưng

Falcon LLM, là một mô hình đã nhanh chóng vươn lên dẫn đầu trong hệ thống phân cấp LLM. Falcon LLM, cụ thể là Falcon-40B, là một LLM nền tảng được trang bị 40 tỷ tham số và đã được đào tạo trên một nghìn tỷ mã thông báo ấn tượng. Nó hoạt động như một mô hình chỉ dành cho bộ giải mã tự hồi quy, về cơ bản có nghĩa là nó dự đoán mã thông báo tiếp theo theo trình tự dựa trên mã thông báo trước đó. Kiến trúc này gợi nhớ đến mô hình GPT. Đáng chú ý là kiến ​​trúc của Falcon đã thể hiện hiệu suất vượt trội so với GPT-3, đạt được kỳ tích này chỉ với 75% ngân sách tính toán đào tạo và yêu cầu tính toán ít hơn đáng kể trong quá trình suy luận.

Nhóm tại Viện Đổi mới Công nghệ đã đặt trọng tâm vào chất lượng dữ liệu trong quá trình phát triển Falcon. Nhận thấy mức độ nhạy cảm của LLM đối với chất lượng dữ liệu đào tạo, họ đã xây dựng một đường dẫn dữ liệu có quy mô lên tới hàng chục nghìn lõi CPU. Điều này cho phép xử lý nhanh chóng và trích xuất nội dung chất lượng cao từ web, đạt được thông qua quá trình lọc và chống trùng lặp mở rộng.

Ngoài Falcon-40B, TII cũng đã giới thiệu các phiên bản khác, bao gồm Falcon-7B, sở hữu 7 tỷ thông số và được huấn luyện trên 1,500 tỷ token. Ngoài ra còn có các mẫu chuyên dụng như Falcon-40B-Instruct và Falcon-7B-Instruct, được thiết kế riêng cho các nhiệm vụ cụ thể.

Huấn luyện Falcon-40B là một quá trình sâu rộng. Mô hình này được đào tạo trên bộ dữ liệu RefinedWeb, một bộ dữ liệu web đồ sộ bằng tiếng Anh do TII xây dựng. Bộ dữ liệu này được xây dựng dựa trên CommonCrawl và trải qua quá trình lọc nghiêm ngặt để đảm bảo chất lượng. Sau khi mô hình được chuẩn bị xong, nó được xác thực dựa trên một số tiêu chuẩn nguồn mở, bao gồm EAI Harness, HELM và BigBench.

Các tính năng chính Tổng quan về Falcon LLM:

  • Thông số mở rộng: Falcon-40B được trang bị 40 tỷ tham số, đảm bảo khả năng học tập và hoạt động toàn diện.
  • Mô hình chỉ dành cho bộ giải mã hồi quy tự động: Kiến trúc này cho phép Falcon dự đoán các mã tiếp theo dựa trên các mã trước đó, tương tự như mô hình GPT.
  • Hiệu suất vượt trội: Falcon vượt trội so với GPT-3 trong khi chỉ sử dụng 75% ngân sách điện toán đào tạo.
  • Đường ống dữ liệu chất lượng cao: Đường dẫn dữ liệu của TII đảm bảo trích xuất nội dung chất lượng cao từ web, rất quan trọng cho việc đào tạo mô hình.
  • Nhiều mẫu mã: Ngoài Falcon-40B, TII còn cung cấp Falcon-7B và các mẫu chuyên dụng như Falcon-40B-Instruct và Falcon-7B-Instruct.
  • Tính khả dụng của nguồn mở: Falcon LLM đã được mã nguồn mở, thúc đẩy khả năng truy cập và tính toàn diện trong lĩnh vực AI.

5. Vicuna-13B

LMSYS ORG đã tạo được dấu ấn quan trọng trong lĩnh vực LLM nguồn mở với việc giới thiệu Vicuna-13B. Chatbot mã nguồn mở này đã được đào tạo tỉ mỉ bằng cách tinh chỉnh LLaMA trên các cuộc hội thoại do người dùng chia sẻ có nguồn gốc từ ShareGPT. Đánh giá sơ bộ, do GPT-4 làm giám khảo, cho thấy Vicuna-13B đạt chất lượng hơn 90% so với các mẫu nổi tiếng như OpenAI ChatGPT và Google Bard.

Thật ấn tượng, Vicuna-13B vượt trội so với các mẫu đáng chú ý khác như LLaMA và Stanford Alpaca trong hơn 90% trường hợp. Toàn bộ quá trình đào tạo Vicuna-13B được thực hiện với chi phí khoảng 300 USD. Đối với những người quan tâm đến việc khám phá các khả năng của nó, mã, trọng số và bản trình diễn trực tuyến đã được cung cấp công khai cho các mục đích phi thương mại.

Mô hình Vicuna-13B đã được tinh chỉnh với 70 cuộc hội thoại ChatGPT do người dùng chia sẻ, cho phép mô hình tạo ra các phản hồi chi tiết và có cấu trúc tốt hơn. Chất lượng của những phản hồi này tương đương với ChatGPT. Tuy nhiên, đánh giá chatbot là một nỗ lực phức tạp. Với những tiến bộ trong GPT-4, ngày càng có nhiều người tò mò về tiềm năng đóng vai trò là khung đánh giá tự động của GPT-4 để tạo điểm chuẩn và đánh giá hiệu suất. Những phát hiện ban đầu cho thấy GPT-4 có thể tạo ra thứ hạng nhất quán và đánh giá chi tiết khi so sánh các phản hồi của chatbot. Đánh giá sơ bộ dựa trên GPT-90 cho thấy Vicuna đạt được XNUMX% khả năng của các mẫu như Bard/ChatGPT.

Các tính năng chính Tổng quan về Vicuna-13B:

  • Bản chất nguồn mở: Vicuna-13B có sẵn để công chúng truy cập, thúc đẩy tính minh bạch và sự tham gia của cộng đồng.
  • Dữ liệu đào tạo mở rộng: Mô hình đã được đào tạo trên 70 nghìn cuộc hội thoại do người dùng chia sẻ, đảm bảo hiểu biết toàn diện về các tương tác đa dạng.
  • Hiệu suất cạnh tranh: Hiệu suất của Vicuna-13B ngang bằng với các công ty hàng đầu trong ngành như ChatGPT và Google Bard.
  • Đào tạo hiệu quả về chi phí: Toàn bộ quá trình đào tạo Vicuna-13B được thực hiện với chi phí thấp khoảng 300 USD.
  • Tinh chỉnh trên LLaMA: Mô hình đã được tinh chỉnh trên LLaMA, đảm bảo hiệu suất và chất lượng phản hồi được nâng cao.
  • Bản demo trực tuyến có sẵn: Bản demo trực tuyến tương tác có sẵn để người dùng kiểm tra và trải nghiệm khả năng của Vicuna-13B.

Vương quốc mở rộng của các mô hình ngôn ngữ lớn

Lĩnh vực Mô hình ngôn ngữ lớn rất rộng lớn và không ngừng mở rộng, với mỗi mô hình mới sẽ vượt qua ranh giới của những gì có thể. Bản chất nguồn mở của các LLM được thảo luận trong blog này không chỉ thể hiện tinh thần hợp tác của cộng đồng AI mà còn mở đường cho những đổi mới trong tương lai.

Những mô hình này, từ khả năng chatbot ấn tượng của Vicuna đến các thước đo hiệu suất vượt trội của Falcon, đại diện cho đỉnh cao của công nghệ LLM hiện tại. Khi chúng ta tiếp tục chứng kiến ​​những tiến bộ nhanh chóng trong lĩnh vực này, rõ ràng là các mô hình nguồn mở sẽ đóng một vai trò quan trọng trong việc định hình tương lai của AI.

Cho dù bạn là nhà nghiên cứu dày dạn kinh nghiệm, người mới bắt đầu đam mê AI hay ai đó tò mò về tiềm năng của những mô hình này, thì không có thời gian nào tốt hơn để đi sâu vào và khám phá những khả năng to lớn mà chúng mang lại.

Alex McFarland là một nhà báo và nhà văn về AI đang khám phá những phát triển mới nhất về trí tuệ nhân tạo. Anh ấy đã cộng tác với nhiều công ty khởi nghiệp và ấn phẩm về AI trên toàn thế giới.

Một đối tác sáng lập của unity.AI & một thành viên của Hội đồng Công nghệ Forbes, Antoine là một nhà tương lai học người đam mê tương lai của AI và robot.

Ông cũng là người sáng lập của Chứng khoán.io, một trang web tập trung vào đầu tư vào công nghệ đột phá.