AGI
Inflection-2.5: Trung Tâm LLM Đấu Trường GPT-4 và Gemini
Inflection AI đã tạo ra sóng gió trong lĩnh vực mô hình ngôn ngữ lớn (LLM) với việc ra mắt gần đây của Inflection-2.5, một mô hình cạnh tranh với các LLM hàng đầu thế giới, bao gồm GPT-4 của OpenAI và Gemini của Google.
Sự tăng trưởng nhanh chóng của Inflection AI đã được thúc đẩy thêm bởi một vòng đầu tư khổng lồ 1,3 tỷ đô la, do các gã khổng lồ trong ngành như Microsoft, NVIDIA và các nhà đầu tư nổi tiếng như Reid Hoffman, Bill Gates và Eric Schmidt dẫn đầu. khoản đầu tư đáng kể này đưa tổng số tiền huy động được của công ty lên 1,525 tỷ đô la.
Hợp tác với các đối tác CoreWeave và NVIDIA, Inflection AI đang xây dựng cụm AI lớn nhất thế giới, bao gồm 22.000 GPU Tensor Core H100 của NVIDIA chưa từng có. Năng lực tính toán khổng lồ này sẽ hỗ trợ đào tạo và triển khai một thế hệ mô hình AI quy mô lớn mới, cho phép Inflection AI đẩy ranh giới của những gì có thể trong lĩnh vực AI cá nhân.
Công việc đột phá của công ty đã mang lại kết quả đáng chú ý, với cụm Inflection AI, hiện bao gồm hơn 3.500 GPU Tensor Core H100 của NVIDIA, mang lại hiệu suất hàng đầu trên điểm chuẩn nguồn mở MLPerf. Trong một bản gửi chung với CoreWeave và NVIDIA, cụm đã hoàn thành nhiệm vụ đào tạo tham chiếu cho mô hình ngôn ngữ lớn chỉ trong 11 phút, củng cố vị trí của nó là cụm nhanh nhất trên điểm chuẩn này.
Thành tựu này theo sau việc ra mắt Inflection-1, mô hình ngôn ngữ lớn trong nhà của Inflection AI, được ca ngợi là mô hình tốt nhất trong lớp tính toán của nó. Vượt trội so với các gã khổng lồ trong ngành như GPT-3.5, LLaMA, Chinchilla và PaLM-540B trên một loạt các điểm chuẩn thường được sử dụng để so sánh LLM, Inflection-1 cho phép người dùng tương tác với Pi, trợ lý AI cá nhân của Inflection AI, theo cách đơn giản và tự nhiên, nhận được thông tin và lời khuyên nhanh chóng, liên quan và hữu ích.
Cam kết của Inflection AI về tính minh bạch và khả năng tái tạo được thể hiện trong việc phát hành một bản ghi kỹ thuật chi tiết về đánh giá và hiệu suất của Inflection-1 trên các điểm chuẩn khác nhau. Bản ghi cho biết Inflection-1 vượt trội so với các mô hình trong cùng lớp tính toán, được định nghĩa là các mô hình được đào tạo bằng cách sử dụng tối đa các phép toán dấu phẩy động (FLOPs) của PaLM-540B.
Sự thành công của Inflection-1 và sự mở rộng nhanh chóng của cơ sở hạ tầng tính toán của công ty, được thúc đẩy bởi vòng đầu tư đáng kể, nhấn mạnh cam kết không ngừng của Inflection AI trong việc thực hiện sứ mệnh tạo ra một trợ lý AI cá nhân cho mọi người. Với việc tích hợp Inflection-1 vào Pi, người dùng hiện có thể trải nghiệm sức mạnh của một trợ lý AI cá nhân, lợi ích từ tính cách đồng cảm, hữu ích và tiêu chuẩn an toàn của nó.
Inflection-2.5
Inflection-2.5 hiện đã có sẵn cho tất cả người dùng của Pi, trợ lý AI cá nhân của Inflection AI, trên nhiều nền tảng, bao gồm web (pi.ai), iOS, Android và một ứng dụng máy tính để bàn mới. Việc tích hợp này đánh dấu một cột mốc quan trọng trong sứ mệnh của Inflection AI nhằm tạo ra một trợ lý AI cá nhân cho mọi người, kết hợp khả năng thô với tính cách đồng cảm và tiêu chuẩn an toàn đặc trưng của công ty.
Một bước nhảy vọt về hiệu suất Mô hình trước đó của Inflection AI, Inflection-1, sử dụng khoảng 4% phép toán dấu phẩy động (FLOPs) của GPT-4 và thể hiện hiệu suất trung bình khoảng 72% so với GPT-4 trên các nhiệm vụ định hướng IQ khác nhau. Với Inflection-2.5, Inflection AI đã đạt được một bước nhảy vọt đáng kể trong khả năng trí tuệ của Pi, tập trung vào mã hóa và toán học.
Hiệu suất của mô hình trên các điểm chuẩn ngành chính cho thấy khả năng của nó, thể hiện hơn 94% hiệu suất trung bình của GPT-4 trên các nhiệm vụ khác nhau, với trọng tâm đặc biệt là vượt trội trong các lĩnh vực STEM. Thành tựu đáng chú ý này là bằng chứng cho cam kết của Inflection AI trong việc thúc đẩy ranh giới công nghệ trong khi vẫn tập trung không ngừng vào trải nghiệm người dùng và an toàn.
Khả năng mã hóa và toán học Inflection-2.5 tỏa sáng trong mã hóa và toán học, thể hiện sự cải thiện hơn 10% so với Inflection-1 trên BIG-Bench-Hard, một tập hợp con các vấn đề đầy thách thức cho mô hình ngôn ngữ lớn. Hai điểm chuẩn mã hóa, MBPP+ và HumanEval+, tiết lộ sự cải thiện đáng kể so với Inflection-1, củng cố vị trí của Inflection-2.5 như một lực lượng đáng gờm trong lĩnh vực mã hóa.
Trên điểm chuẩn MBPP+, Inflection-2.5 vượt trội so với người tiền nhiệm của nó với một khoảng cách đáng kể, thể hiện mức hiệu suất tương đương với GPT-4, như được báo cáo bởi DeepSeek Coder. Tương tự, trên điểm chuẩn HumanEval+, Inflection-2.5 cho thấy sự tiến bộ đáng chú ý, vượt trội so với hiệu suất của Inflection-1 và tiếp cận mức của GPT-4, như được báo cáo trên bảng xếp hạng EvalPlus.
Sự thống trị điểm chuẩn ngành
Inflection-2.5 nổi bật trong các điểm chuẩn ngành, thể hiện sự cải thiện đáng kể so với Inflection-1 trên điểm chuẩn MMLU và điểm chuẩn GPQA Diamond, nổi tiếng với độ khó chuyên gia. Hiệu suất của mô hình trên các điểm chuẩn này nhấn mạnh khả năng của nó trong việc xử lý một loạt các nhiệm vụ, từ các vấn đề cấp trung học đến các thách thức cấp chuyên nghiệp.
Vượt trội trong các kỳ thi STEM Khả năng của mô hình này còn mở rộng đến các kỳ thi STEM, với hiệu suất nổi bật trong kỳ thi Toán học Hungary và Vật lý GRE. Trên kỳ thi Toán học Hungary, Inflection-2.5 thể hiện khả năng toán học của mình bằng cách tận dụng lời nhắc và định dạng vài lần bắn, cho phép dễ dàng tái tạo.
Trong kỳ thi Vật lý GRE, một kỳ thi đầu vào sau đại học về vật lý, Inflection-2.5 đạt đến mức 85% của những người tham gia kỳ thi của con người ở maj@8 (lời bình chọn đa số ở 8), củng cố vị trí của nó như một đối thủ đáng gờm trong lĩnh vực giải quyết vấn đề vật lý. Hơn nữa, mô hình này tiếp cận điểm số cao nhất trong maj@32, thể hiện khả năng của nó trong việc giải quyết các vấn đề vật lý phức tạp với độ chính xác đáng chú ý.
Cải thiện trải nghiệm người dùng Inflection-2.5 không chỉ duy trì tính cách và tiêu chuẩn an toàn đặc trưng của Pi mà còn nâng cao vị thế của nó như một trợ lý AI cá nhân đa năng và vô giá trên nhiều chủ đề khác nhau. Từ thảo luận về các sự kiện hiện tại đến tìm kiếm khuyến nghị địa phương, học tập cho các kỳ thi, mã hóa và thậm chí cả các cuộc trò chuyện thông thường, Pi được hỗ trợ bởi Inflection-2.5 hứa hẹn một trải nghiệm người dùng phong phú.
Với khả năng mạnh mẽ của Inflection-2.5, người dùng đang tương tác với Pi trên một loạt các chủ đề rộng lớn hơn bao giờ hết. Khả năng của mô hình trong việc xử lý các nhiệm vụ phức tạp, kết hợp với tính cách đồng cảm và khả năng tìm kiếm web thời gian thực, đảm bảo rằng người dùng nhận được thông tin và hướng dẫn chất lượng cao, cập nhật.
Sự tham gia và giữ chân người dùng Tác động của việc tích hợp Inflection-2.5 vào Pi đã rõ ràng trong các chỉ số về tình cảm, tham gia và giữ chân người dùng. Inflection AI đã chứng kiến sự tăng trưởng hữu cơ của người dùng đáng kể, với một triệu người dùng hoạt động hàng ngày và sáu triệu người dùng hoạt động hàng tháng trao đổi hơn bốn tỷ tin nhắn với Pi.
Trung bình, các cuộc trò chuyện với Pi kéo dài 33 phút, với một trong mười cuộc trò chuyện kéo dài hơn một giờ mỗi ngày. Hơn nữa, khoảng 60% người dùng tương tác với Pi trong một tuần nhất định sẽ quay lại vào tuần tiếp theo, thể hiện sự dính kết hàng tháng cao hơn so với các đối thủ hàng đầu trong lĩnh vực.
Chi tiết kỹ thuật và minh bạch điểm chuẩn
Theo cam kết của Inflection AI về tính minh bạch và khả năng tái tạo, công ty đã cung cấp kết quả kỹ thuật toàn diện và chi tiết về hiệu suất của Inflection-2.5 trên các điểm chuẩn ngành khác nhau.
Ví dụ, trên phiên bản sửa đổi của tập dữ liệu MT-Bench, giải quyết các vấn đề về giải pháp tham chiếu không chính xác và tiền đề lỗi trong tập dữ liệu ban đầu, Inflection-2.5 thể hiện hiệu suất phù hợp với kỳ vọng dựa trên các điểm chuẩn khác.
Inflection AI cũng đã đánh giá Inflection-2.5 trên HellaSwag và ARC-C, các điểm chuẩn về cảm giác thông thường và khoa học được báo cáo bởi một loạt các mô hình, và kết quả cho thấy hiệu suất mạnh mẽ trên các điểm chuẩn này.
Điều quan trọng cần lưu ý là trong khi các đánh giá được cung cấp đại diện cho mô hình cung cấp năng lượng cho Pi, trải nghiệm người dùng có thể khác slightly do các yếu tố như tác động của việc thu thập web (không được sử dụng trong các điểm chuẩn), cấu trúc của lời nhắc vài lần bắn và các khác biệt về phía sản xuất.
Kết luận
Inflection-2.5 đại diện cho một bước nhảy vọt đáng kể trong lĩnh vực mô hình ngôn ngữ lớn, cạnh tranh với khả năng của các nhà lãnh đạo trong ngành như GPT-4 và Gemini trong khi chỉ sử dụng một phần nhỏ tài nguyên tính toán. Với hiệu suất ấn tượng trên một loạt các điểm chuẩn, đặc biệt là trong các lĩnh vực STEM, mã hóa và toán học, Inflection-2.5 đã tự khẳng định mình như một đối thủ đáng gờm trong cảnh quan AI.
Việc tích hợp Inflection-2.5 vào Pi, trợ lý AI cá nhân của Inflection AI, hứa hẹn một trải nghiệm người dùng phong phú, kết hợp khả năng thô với tính cách đồng cảm và tiêu chuẩn an toàn. Khi Inflection AI tiếp tục đẩy ranh giới của những gì có thể với LLM, cộng đồng AI chờ đợi những đổi mới và đột phá tiếp theo từ công ty tiên phong này.














