Trí tuệ nhân tạo
Cerebras giới thiệu giải pháp suy luận AI nhanh nhất thế giới: Tốc độ gấp 20 lần với chi phí thấp

Hệ thống Cerebras, công ty tiên phong trong lĩnh vực điện toán AI hiệu suất cao, đã giới thiệu một giải pháp đột phá nhằm cách mạng hóa khả năng suy luận của AI. Vào ngày 27 tháng 2024 năm 20, công ty đã công bố ra mắt Cerebras Inference, dịch vụ suy luận AI nhanh nhất trên thế giới. Với các chỉ số hiệu suất vượt xa các chỉ số của các hệ thống dựa trên GPU truyền thống, Cerebras Inference mang lại tốc độ gấp XNUMX lần với chi phí thấp, thiết lập một chuẩn mực mới trong điện toán AI.
Tốc độ và hiệu quả chi phí chưa từng có
Suy luận Cerebras được thiết kế để mang lại hiệu suất vượt trội trên nhiều mô hình AI khác nhau, đặc biệt là trong phân khúc đang phát triển nhanh chóng của mô hình ngôn ngữ lớn (LLM). Chẳng hạn, nó xử lý 1,800 mã thông báo mỗi giây cho mô hình Llama 3.1 8B và 450 mã thông báo mỗi giây cho mô hình Llama 3.1 70B. Hiệu suất này không chỉ nhanh hơn 20 lần so với các giải pháp dựa trên GPU của NVIDIA mà còn có chi phí thấp hơn đáng kể. Cerebras cung cấp dịch vụ này với mức giá khởi điểm chỉ là 10 xu trên một triệu mã thông báo cho mẫu Llama 3.1 8B và 60 xu trên một triệu mã thông báo cho mẫu Llama 3.1 70B, thể hiện sự cải thiện gấp 100 lần về hiệu suất giá so với các dịch vụ dựa trên GPU hiện có.
Duy trì độ chính xác trong khi vượt qua giới hạn tốc độ
Một trong những khía cạnh ấn tượng nhất của Cerebras Inference là khả năng duy trì độ chính xác hiện đại đồng thời mang lại tốc độ chưa từng có. Không giống như các phương pháp khác hy sinh độ chính xác để lấy tốc độ, giải pháp của Cerebras nằm trong miền 16 bit trong toàn bộ quá trình suy luận. Điều này đảm bảo rằng hiệu suất đạt được không làm giảm chất lượng đầu ra của mô hình AI, một yếu tố quan trọng đối với các nhà phát triển tập trung vào độ chính xác.
Micah Hill-Smith, Đồng sáng lập và Giám đốc điều hành của Phân tích nhân tạo, nhấn mạnh tầm quan trọng của thành tựu này: “Cerebras đang cung cấp tốc độ nhanh hơn rất nhiều so với các giải pháp dựa trên GPU cho các mẫu AI Llama 3.1 8B và 70B của Meta. Chúng tôi đang đo tốc độ trên 1,800 mã thông báo đầu ra mỗi giây trên Llama 3.1 8B và trên 446 mã thông báo đầu ra mỗi giây trên Llama 3.1 70B – một kỷ lục mới trong các tiêu chuẩn này.”
Tầm quan trọng ngày càng tăng của suy luận AI
AI suy luận là phân khúc điện toán AI phát triển nhanh nhất, chiếm khoảng 40% tổng thị trường phần cứng AI. Sự ra đời của suy luận AI tốc độ cao, chẳng hạn như Cerebras cung cấp, cũng giống như sự ra đời của Internet băng thông rộng—mở ra những cơ hội mới và báo trước một kỷ nguyên mới cho các ứng dụng AI. Với Cerebras Inference, giờ đây các nhà phát triển có thể xây dựng các ứng dụng AI thế hệ tiếp theo yêu cầu hiệu năng phức tạp, theo thời gian thực, chẳng hạn như tác nhân AI và hệ thống thông minh.
Andrew Ng, Người sáng lập DeepLearning.AI, nhấn mạnh tầm quan trọng của tốc độ trong phát triển AI: “DeepLearning.AI có nhiều quy trình làm việc tổng thể yêu cầu nhắc LLM nhiều lần để nhận được kết quả. Cerebras đã xây dựng khả năng suy luận nhanh ấn tượng, điều này sẽ rất hữu ích cho khối lượng công việc như vậy."
Hỗ trợ ngành rộng rãi và quan hệ đối tác chiến lược
Cerebras đã nhận được sự hỗ trợ mạnh mẽ từ các nhà lãnh đạo trong ngành và đã hình thành quan hệ đối tác chiến lược để đẩy nhanh quá trình phát triển các ứng dụng AI. Kim Branson, SVP AI/ML tại GlaxoSmithKline, một khách hàng đầu tiên của Cerebras, đã nhấn mạnh tiềm năng biến đổi của công nghệ này: “Tốc độ và quy mô thay đổi mọi thứ.”
Các công ty khác, chẳng hạn như LiveKit, Sự bối rốivà Meter cũng bày tỏ sự hào hứng về tác động mà Cerebras Inference sẽ mang lại đối với hoạt động của họ. Các công ty này đang tận dụng sức mạnh của khả năng tính toán của Cerebras để tạo ra trải nghiệm AI giống con người hơn, phản ứng nhanh hơn, cải thiện tương tác của người dùng trong công cụ tìm kiếm và nâng cao hệ thống quản lý mạng.
Suy luận về não: Cấp độ và khả năng tiếp cận
Cerebras Inference có sẵn ở ba cấp độ có giá cạnh tranh: Miễn phí, Nhà phát triển và Doanh nghiệp. Bậc miễn phí cung cấp quyền truy cập API miễn phí với giới hạn sử dụng rộng rãi, giúp nhiều người dùng có thể truy cập được. Cấp Nhà phát triển cung cấp tùy chọn triển khai linh hoạt, không cần máy chủ, với các mô hình Llama 3.1 có giá 10 xu và 60 xu trên một triệu mã thông báo. Cấp doanh nghiệp phục vụ cho các tổ chức có khối lượng công việc ổn định, cung cấp các mô hình được tinh chỉnh, thỏa thuận cấp độ dịch vụ tùy chỉnh và hỗ trợ tận tình, với mức giá sẵn có theo yêu cầu.
Cung cấp năng lượng cho suy luận não: Công cụ quy mô wafer 3 (WSE-3)
Trọng tâm của Cerebras Inference là hệ thống Cerebras CS-3, được hỗ trợ bởi Công cụ quy mô wafer 3 (WSE-3) hàng đầu trong ngành. Bộ xử lý AI này có kích thước và tốc độ vô song, cung cấp băng thông bộ nhớ lớn hơn 7,000 lần so với H100 của NVIDIA. Quy mô lớn của WSE-3 cho phép nó xử lý nhiều người dùng đồng thời, đảm bảo tốc độ nhanh chóng mà không ảnh hưởng đến hiệu suất. Kiến trúc này cho phép Cerebras vượt qua những đánh đổi thường gây khó khăn cho các hệ thống dựa trên GPU, mang lại hiệu suất tốt nhất cho khối lượng công việc AI.
Tích hợp liền mạch và API thân thiện với nhà phát triển
Suy luận Cerebras được thiết kế dành cho các nhà phát triển. Nó có API hoàn toàn tương thích với API hoàn thành trò chuyện OpenAI, cho phép di chuyển dễ dàng với những thay đổi mã tối thiểu. Cách tiếp cận thân thiện với nhà phát triển này đảm bảo rằng việc tích hợp Suy luận Cerebras vào quy trình làm việc hiện tại diễn ra liền mạch nhất có thể, cho phép triển khai nhanh chóng các ứng dụng AI hiệu suất cao.
Hệ thống Cerebras: Thúc đẩy sự đổi mới trong các ngành
Cerebras Systems không chỉ là công ty dẫn đầu về điện toán AI mà còn là công ty chủ chốt trong nhiều ngành công nghiệp khác nhau, bao gồm chăm sóc sức khỏe, năng lượng, chính phủ, điện toán khoa học và dịch vụ tài chính. Các giải pháp của công ty là công cụ thúc đẩy những đột phá tại các tổ chức như Phòng thí nghiệm Quốc gia, Aleph Alpha, Phòng khám Mayo và GlaxoSmithKline.
Bằng cách cung cấp tốc độ, khả năng mở rộng và độ chính xác chưa từng có, Cerebras đang cho phép các tổ chức trong các lĩnh vực này giải quyết một số vấn đề thách thức nhất trong AI và hơn thế nữa. Cho dù đó là tăng tốc khám phá thuốc trong chăm sóc sức khỏe hay nâng cao khả năng tính toán trong nghiên cứu khoa học, Cerebras luôn đi đầu trong việc thúc đẩy đổi mới.
Kết luận: Kỷ nguyên mới cho suy luận AI
Cerebras Systems đang thiết lập một tiêu chuẩn mới cho suy luận AI với việc ra mắt Cerebras Inference. Bằng cách cung cấp tốc độ gấp 20 lần so với các hệ thống dựa trên GPU truyền thống với chi phí thấp, Cerebras không chỉ giúp AI dễ tiếp cận hơn mà còn mở đường cho thế hệ ứng dụng AI tiếp theo. Với công nghệ tiên tiến, quan hệ đối tác chiến lược và cam kết đổi mới, Cerebras sẵn sàng dẫn dắt ngành AI bước vào một kỷ nguyên mới với hiệu suất và khả năng mở rộng chưa từng có.
Để biết thêm thông tin về Hệ thống Cerebras và dùng thử Suy luận Cerebras, hãy truy cập www.cerebras.ai.