Connect with us

Snowflake Arctic: Mô hình LLM tiên tiến cho Trí tuệ nhân tạo doanh nghiệp

Trí tuệ nhân tạo

Snowflake Arctic: Mô hình LLM tiên tiến cho Trí tuệ nhân tạo doanh nghiệp

mm
Snowflake Arctic: The Cutting-Edge LLM for Enterprise AI

Các doanh nghiệp ngày nay đang ngày càng tìm cách tận dụng các mô hình ngôn ngữ lớn (LLM) để tăng cường năng suất và tạo ra các ứng dụng thông minh. Tuy nhiên, nhiều mô hình LLM có sẵn là các mô hình chung không được thiết kế cho các nhu cầu doanh nghiệp chuyên biệt như phân tích dữ liệu, mã hóa và tự động hóa nhiệm vụ. Đó là nơi Snowflake Arctic ra đời – một mô hình LLM tiên tiến được thiết kế và tối ưu hóa cho các trường hợp sử dụng cốt lõi của doanh nghiệp.

Được phát triển bởi nhóm nghiên cứu AI của Snowflake, Arctic đã đẩy ranh giới của những gì có thể đạt được với đào tạo hiệu quả, tiết kiệm chi phí và mức độ cởi mở chưa từng có. Mô hình này vượt trội trong các tiêu chuẩn doanh nghiệp chính trong khi yêu cầu ít năng lực tính toán hơn so với các LLM hiện có. Hãy cùng khám phá những gì làm cho Arctic trở thành một yếu tố thay đổi cuộc chơi cho trí tuệ nhân tạo doanh nghiệp.

Trí tuệ doanh nghiệp được định nghĩa lại Ở cốt lõi, Arctic tập trung vào việc cung cấp hiệu suất vượt trội trên các chỉ số thực sự quan trọng đối với doanh nghiệp – mã hóa, truy vấn SQL, theo dõi hướng dẫn phức tạp và tạo ra đầu ra dựa trên thực tế. Snowflake đã kết hợp các khả năng quan trọng này vào một chỉ số “trí tuệ doanh nghiệp” mới.

Kết quả nói lên tất cả. Arctic đạt hoặc vượt qua các mô hình như LLAMA 7B và LLAMA 70B trên các tiêu chuẩn trí tuệ doanh nghiệp trong khi sử dụng ít hơn một nửa ngân sách tính toán cho đào tạo. Điều đáng chú ý là, mặc dù sử dụng 17 lần ít hơn tài nguyên tính toán so với LLAMA 70B, Arctic đạt được sự tương đương trên các thử nghiệm chuyên biệt như mã hóa (HumanEval+, MBPP+), tạo SQL (Spider) và theo dõi hướng dẫn (IFEval).

Nhưng khả năng của Arctic vượt ra ngoài việc chỉ đạt được các tiêu chuẩn doanh nghiệp. Nó duy trì hiệu suất mạnh mẽ trên hiểu biết ngôn ngữ chung, suy luận và năng lực toán học so với các mô hình được đào tạo với ngân sách tính toán cao hơn gấp nhiều lần như DBRX. Khả năng toàn diện này làm cho Arctic trở thành lựa chọn không thể vượt qua để giải quyết các nhu cầu AI đa dạng của một doanh nghiệp.

Sự đổi mới

Kiến trúc Transformer Hybrid Dense-MoE Vậy làm thế nào nhóm Snowflake xây dựng một mô hình LLM mạnh mẽ và hiệu quả như vậy? Câu trả lời nằm ở kiến trúc Dense Mixture-of-Experts (MoE) Hybrid Transformer tiên tiến của Arctic.

Các mô hình transformer dày truyền thống trở nên ngày càng tốn kém để đào tạo khi kích thước của chúng tăng lên, với yêu cầu tính toán tăng tuyến tính. Thiết kế MoE giúp tránh điều này bằng cách sử dụng nhiều mạng feed-forward song song (chuyên gia) và chỉ kích hoạt một tập con cho mỗi token đầu vào.

Tuy nhiên, chỉ sử dụng kiến trúc MoE là không đủ – Arctic kết hợp sức mạnh của cả thành phần dày và MoE một cách thông minh. Nó kết hợp một bộ giải mã transformer dày 10 tỷ tham số với một lớp MLP MoE đa lớp 128 chuyên gia. Mô hình hybrid này có tổng cộng 480 tỷ tham số nhưng chỉ 17 tỷ tham số được kích hoạt tại bất kỳ thời điểm nào sử dụng cổng trên cùng 2.

Hệ quả là sâu sắc – Arctic đạt được chất lượng mô hình và khả năng chưa từng có mà vẫn còn hiệu quả về tính toán trong đào tạo và suy luận. Ví dụ, Arctic có 50% ít tham số hoạt động hơn so với các mô hình như DBRX trong quá trình suy luận.

Nhưng kiến trúc mô hình chỉ là một phần của câu chuyện. Sự xuất sắc của Arctic là kết quả của nhiều kỹ thuật và kiến thức tiên phong được phát triển bởi nhóm nghiên cứu Snowflake:

  1. Chương trình đào tạo dữ liệu tập trung vào doanh nghiệp Thông qua thí nghiệm rộng rãi, nhóm đã phát hiện ra rằng các kỹ năng chung như suy luận thông thường nên được học sớm, trong khi các chuyên môn phức tạp hơn như mã hóa và SQL được học tốt nhất sau này trong quá trình đào tạo. Chương trình đào tạo dữ liệu của Arctic tuân theo một cách tiếp cận ba giai đoạn bắt chước tiến trình học tập của con người.

Một teratoken đầu tiên tập trung vào xây dựng một nền tảng chung rộng rãi. 1,5 teratoken tiếp theo tập trung vào phát triển các kỹ năng doanh nghiệp thông qua dữ liệu được thiết kế cho SQL, mã hóa và hơn thế nữa. Teratoken cuối cùng tinh chỉnh thêm các chuyên môn của Arctic bằng cách sử dụng các tập dữ liệu tinh chỉnh.

  1. Lựa chọn kiến trúc tối ưu Trong khi MoE hứa hẹn mang lại chất lượng tốt hơn trên mỗi tính toán, việc chọn cấu hình phù hợp là rất quan trọng nhưng lại chưa được hiểu rõ. Thông qua nghiên cứu chi tiết, Snowflake đã chọn một kiến trúc sử dụng 128 chuyên gia với cổng trên cùng 2 ở mỗi lớp sau khi đánh giá các giao dịch chất lượng-hiệu quả.

Tăng số lượng chuyên gia cung cấp nhiều kết hợp hơn, nâng cao khả năng của mô hình. Tuy nhiên, điều này cũng làm tăng chi phí giao tiếp, vì vậy Snowflake đã chọn 128 chuyên gia “nén” được kích hoạt thông qua cổng trên cùng 2 là sự cân bằng tối ưu.

  1. Thiết kế hệ thống đồng bộ Nhưng ngay cả một kiến trúc mô hình tối ưu cũng có thể bị suy yếu bởi các nút thắt hệ thống. Vì vậy, nhóm Snowflake cũng đổi mới ở đây – thiết kế kiến trúc mô hình đồng bộ với các hệ thống đào tạo và suy luận cơ bản.

Để đào tạo hiệu quả, các thành phần dày và MoE được cấu trúc để cho phép giao tiếp và tính toán chồng chéo, che giấu đáng kể chi phí giao tiếp. Về phía suy luận, nhóm đã tận dụng các đổi mới của NVIDIA để cho phép triển khai hiệu quả cao bất chấp quy mô của Arctic.

Các kỹ thuật như định lượng FP8 cho phép phù hợp với toàn bộ mô hình trên một nút GPU đơn cho suy luận tương tác. Các lô lớn hơn tận dụng khả năng song song của Arctic trên nhiều nút trong khi vẫn còn hiệu quả về tính toán nhờ vào 17 tỷ tham số hoạt động compact.

Với giấy phép Apache 2.0, trọng lượng và mã của Arctic có sẵn không bị cản trở cho bất kỳ sử dụng cá nhân, nghiên cứu hoặc thương mại. Nhưng Snowflake đã đi xa hơn, mở nguồn toàn bộ công thức dữ liệu, triển khai mô hình, mẹo và kiến thức nghiên cứu sâu sắc thúc đẩy Arctic.

Sách nấu ăn Arctic” là một cơ sở kiến thức toàn diện bao gồm mọi khía cạnh của việc xây dựng và tối ưu hóa một mô hình MoE lớn như Arctic. Nó cô đọng lại các kiến thức chính trên nguồn dữ liệu, thiết kế kiến trúc mô hình, thiết kế hệ thống đồng bộ, các lược đồ đào tạo/suy luận tối ưu và hơn thế nữa.

Từ việc xác định chương trình đào tạo dữ liệu tối ưu đến kiến trúc MoE trong khi tối ưu hóa trình biên dịch, lập lịch và phần cứng – cơ sở kiến thức rộng lớn này dân chủ hóa các kỹ năng trước đây bị giới hạn trong các phòng thí nghiệm AI tinh hoa. Sách nấu ăn Arctic tăng tốc đường cong học tập và trao quyền cho các doanh nghiệp, nhà nghiên cứu và nhà phát triển trên toàn cầu để tạo ra các mô hình LLM hiệu quả về chi phí và được tùy chỉnh cho hầu như bất kỳ trường hợp sử dụng nào.

Bắt đầu với Arctic

Đối với các công ty muốn tận dụng Arctic, Snowflake cung cấp nhiều đường dẫn để bắt đầu nhanh chóng:

Suy luận không máy chủ: Khách hàng của Snowflake có thể truy cập mô hình Arctic miễn phí trên Snowflake Cortex, nền tảng AI được quản lý hoàn toàn của công ty. Ngoài ra, Arctic có sẵn trên tất cả các danh mục mô hình chính như AWS, Microsoft Azure, NVIDIA và hơn thế nữa.

Bắt đầu từ đầu: Trọng lượng và triển khai mô hình mã nguồn mở cho phép nhà phát triển tích hợp trực tiếp Arctic vào ứng dụng và dịch vụ của họ. Kho Arctic cung cấp mẫu mã, hướng dẫn triển khai, công thức tinh chỉnh và hơn thế nữa.

Xây dựng mô hình tùy chỉnh: Nhờ vào các hướng dẫn toàn diện của Sách nấu ăn Arctic, nhà phát triển có thể xây dựng mô hình MoE tùy chỉnh của riêng họ từ đầu được tối ưu hóa cho bất kỳ trường hợp sử dụng chuyên biệt nào bằng cách sử dụng kiến thức từ sự phát triển của Arctic.

Một kỷ nguyên mới của Trí tuệ nhân tạo doanh nghiệp mở Arctic không chỉ là một mô hình ngôn ngữ mạnh mẽ khác – nó báo hiệu một kỷ nguyên mới của các khả năng AI chuyên biệt, hiệu quả về chi phí và được thiết kế cho doanh nghiệp.

Từ việc cách mạng hóa phân tích dữ liệu và năng suất mã hóa đến việc cung cấp năng lượng cho tự động hóa nhiệm vụ và các ứng dụng thông minh hơn, DNA doanh nghiệp đầu tiên của Arctic khiến nó trở thành một lựa chọn không thể vượt qua so với các LLM chung. Và bằng cách mở nguồn không chỉ mô hình mà cả quá trình nghiên cứu và phát triển đằng sau nó, Snowflake đang nuôi dưỡng một văn hóa hợp tác sẽ nâng cao toàn bộ hệ sinh thái AI.

Khi các doanh nghiệp ngày càng chấp nhận AI tạo sinh, Arctic cung cấp một bản thiết kế táo bạo cho việc phát triển các mô hình rõ ràng vượt trội cho các khối lượng công việc sản xuất và môi trường doanh nghiệp. Sự kết hợp của nghiên cứu tiên tiến, hiệu quả chưa từng có và một đạo đức cởi mở thiết lập một tiêu chuẩn mới trong việc dân chủ hóa tiềm năng chuyển đổi của AI.

Khi chúng ta khám phá các khả năng của Arctic, rõ ràng là mô hình này không chỉ là một bước tiến trong lĩnh vực AI mà còn là một bước nhảy vĩ đại trong cách chúng ta tiếp cận việc phát triển và triển khai các mô hình ngôn ngữ.

Làm việc với Arctic

Giờ rằng chúng ta đã khám phá những gì làm cho Arctic thực sự đột phá, hãy cùng khám phá cách các nhà phát triển và nhà khoa học dữ liệu có thể bắt đầu sử dụng mô hình này.
Ngay từ đầu, Arctic có sẵn được đào tạo trước và sẵn sàng triển khai thông qua các trung tâm mô hình chính như Hugging Face và các nền tảng AI đối tác. Nhưng sức mạnh thực sự của nó xuất hiện khi tùy chỉnh và tinh chỉnh nó cho các trường hợp sử dụng cụ thể của bạn.

Giấy phép Apache 2.0 của Arctic cung cấp sự tự do toàn diện để tích hợp nó vào ứng dụng, dịch vụ hoặc luồng công việc AI tùy chỉnh của bạn. Hãy cùng đi qua một số ví dụ mã sử dụng thư viện transformers để bắt đầu:
Suy luận cơ bản với Arctic

Đối với các trường hợp sử dụng tạo văn bản nhanh, chúng ta có thể tải Arctic và chạy suy luận cơ bản rất dễ dàng:


from transformers import AutoTokenizer, AutoModelForCausalLM

# Tải tokenizer và mô hình
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct")

# Tạo một đầu vào đơn giản và tạo văn bản
input_text = "Đây là một câu hỏi cơ bản: What là thủ đô của Pháp?"
input_ids = tokenizer.encode(input_text, return_tensors="pt")

# Tạo phản hồi với Arctic
output = model.generate(input_ids, max_length=150, do_sample=True, top_k=50, top_p=0.95, num_return_sequences=1)
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)

print(generated_text)

Điều này sẽ xuất ra một thứ gì đó như:

“Thủ đô của Pháp là Paris. Paris là thành phố lớn nhất của Pháp và là trung tâm kinh tế, chính trị và văn hóa của đất nước. Đó là nơi có những địa danh nổi tiếng như Tháp Eiffel, bảo tàng Louvre và Nhà thờ Notre-Dame.”

Như bạn có thể thấy, Arctic hiểu rõ câu hỏi và cung cấp một phản hồi chi tiết, dựa trên thực tế, tận dụng khả năng hiểu ngôn ngữ mạnh mẽ của nó.

Tinh chỉnh cho các nhiệm vụ chuyên biệt

Mặc dù ấn tượng ngay từ đầu, Arctic thực sự tỏa sáng khi được tùy chỉnh và tinh chỉnh trên dữ liệu chuyên dụng của bạn cho các nhiệm vụ chuyên biệt. Snowflake đã cung cấp các công thức toàn diện bao gồm:

  • Thu thập dữ liệu đào tạo chất lượng cao được thiết kế cho trường hợp sử dụng của bạn
  • Triển khai chương trình đào tạo đa giai đoạn tùy chỉnh
  • Sử dụng các phương pháp tinh chỉnh hiệu quả như LoRA, P-Tuning hoặc FactorizedFusion
  • Tối ưu hóa cho các kỹ năng doanh nghiệp quan trọng như SQL, mã hóa hoặc các kỹ năng khác

Dưới đây là một ví dụ về cách tinh chỉnh Arctic trên tập dữ liệu mã hóa của bạn bằng cách sử dụng LoRA và các công thức của Snowflake:


from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import LoraConfig, get_peft_model, prepare_model_for_int8_training

# Tải mô hình Arctic cơ bản
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct", load_in_8bit=True)

# Khởi tạo cấu hình LoRA
lora_config = LoraConfig(
r=8,
lora_alpha=16,
target_modules=["query_key_value"],
lora_dropout=0.05,
bias="none",
task_type="CAUSAL_LM"
)

# Chuẩn bị mô hình cho tinh chỉnh LoRA
model = prepare_model_for_int8_training(model)
model = get_peft_model(model, lora_config)

# Tập dữ liệu mã hóa của bạn
data = load_coding_datasets()

# Tinh chỉnh với các công thức của Snowflake
train(model, data, ...)

Mã này minh họa cách bạn có thể dễ dàng tải Arctic, khởi tạo một cấu hình LoRA được thiết kế cho tạo mã, và sau đó tinh chỉnh mô hình trên tập dữ liệu mã hóa chuyên dụng của bạn bằng cách sử dụng hướng dẫn của Snowflake.

Tùy chỉnh và tinh chỉnh, Arctic trở thành một công cụ mạnh mẽ được điều chỉnh để cung cấp hiệu suất không thể vượt qua trên các quy trình làm việc doanh nghiệp cốt lõi và nhu cầu của cổ đông.

Chu kỳ đổi mới nhanh chóng của Arctic

Một trong những khía cạnh ấn tượng nhất của Arctic là tốc độ chóng mặt mà nhóm nghiên cứu AI của Snowflake đã hình thành, phát triển và phát hành mô hình này cho thế giới. Từ khi bắt đầu đến khi phát hành mã nguồn mở, toàn bộ dự án Arctic chỉ mất ít hơn ba tháng và chỉ sử dụng khoảng một phần tám ngân sách tính toán điển hình cho việc đào tạo các mô hình ngôn ngữ lớn tương tự.

Khả năng lặp lại nhanh chóng, đổi mới và sản phẩm hóa nghiên cứu AI tiên tiến là thực sự đáng chú ý. Điều này chứng tỏ khả năng kỹ thuật sâu sắc của Snowflake và đặt công ty vào vị trí liên tục đẩy ranh giới trong việc phát triển các khả năng AI mới, được tối ưu hóa cho doanh nghiệp.

Gia đình Arctic và các mô hình nhúng

Arctic chỉ là bước đầu tiên trong tham vọng của Snowflake trong không gian LLM doanh nghiệp. Công ty đã mở nguồn một loạt các mô hình nhúng văn bản hàng đầu trong ngành, được tối ưu hóa cho hiệu suất truy xuất trên nhiều hồ sơ kích thước.

Như được minh họa dưới đây, các mô hình nhúng Arctic đạt được độ chính xác truy xuất hàng đầu trên chuẩn mực MTEB (truy xuất văn bản) được tôn trọng, vượt qua các mô hình nhúng hàng đầu khác, bao gồm cả các dịch vụ đóng từ các gã khổng lồ công nghệ lớn.

[Chèn hình ảnh hiển thị kết quả chuẩn mực MTEB cho các mô hình nhúng Arctic]

Những mô hình nhúng này bổ sung cho mô hình LLM Arctic và cho phép các doanh nghiệp xây dựng các giải pháp hỏi và trả lời, cũng như tạo văn bản tăng cường truy xuất từ một ngăn xếp mã nguồn mở tích hợp.

Nhưng con đường của Snowflake không dừng lại ở Arctic và các mô hình nhúng. Các nhà nghiên cứu AI của công ty đang làm việc chăm chỉ để mở rộng gia đình Arctic với các mô hình mới được thiết kế cho các nhiệm vụ đa phương thức, giọng nói, video và nhiều khả năng tiên phong khác – tất cả đều được xây dựng bằng cách sử dụng cùng các nguyên tắc về chuyên môn hóa, hiệu quả và cởi mở.

Hợp tác cho một hệ sinh thái AI mở Snowflake hiểu rằng việc hiện thực hóa toàn bộ tiềm năng của AI doanh nghiệp cấp độ mở đòi hỏi phải nuôi dưỡng một hệ sinh thái hợp tác phong phú trên toàn cộng đồng AI. Việc phát hành Arctic đã kích hoạt các hợp tác với các nền tảng và nhà cung cấp lớn:

NVIDIA đã hợp tác chặt chẽ với Snowflake để tối ưu hóa Arctic cho việc triển khai hiệu quả bằng cách sử dụng ngăn xếp suy luận AI tiên tiến của NVIDIA, bao gồm TensorRT, Triton và nhiều hơn nữa. Điều này cho phép các doanh nghiệp cung cấp Arctic với quy mô tiết kiệm chi phí.

Hugging Face, trung tâm mô hình mã nguồn mở hàng đầu, đã chào đón Arctic vào các thư viện và kho mô hình của mình. Điều này cho phép tích hợp liền mạch Arctic vào các luồng công việc và ứng dụng AI hiện có dựa trên Hugging Face.

Các nền tảng như Replicate, SageMaker và nhiều hơn nữa đã nhanh chóng cung cấp các bản demo được lưu trữ, API và các đường dẫn tích hợp trơn tru cho Arctic, đẩy nhanh việc áp dụng nó.

Mã nguồn mở đã chỉ đạo sự phát triển của Arctic, và các hệ sinh thái mở vẫn là trung tâm của sự tiến hóa của nó. Snowflake cam kết nuôi dưỡng sự hợp tác phong phú với các nhà nghiên cứu, nhà phát triển, đối tác và doanh nghiệp trên toàn cầu để đẩy ranh giới của những gì có thể đạt được với các mô hình AI chuyên biệt và mở.

Tôi đã dành 5 năm qua để đắm mình trong thế giới hấp dẫn của Máy học và Học sâu. Đam mê và chuyên môn của tôi đã dẫn tôi đến việc đóng góp vào hơn 50 dự án kỹ thuật phần mềm đa dạng, với trọng tâm đặc biệt là AI/ML. Sự tò mò liên tục của tôi cũng đã thu hút tôi đến Xử lý Ngôn ngữ Tự nhiên, một lĩnh vực tôi渴望 khám phá thêm.