AGI

Inflection-2.5: Потужний LLM, який конкурує з GPT-4 і Gemini

Published March 14, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Inflection AI створив хвилю в галузі великих мовних моделей (LLM) завдяки своєму недавньому представленню Inflection-2.5, моделі, яка конкурує з провідними LLM світу, включаючи GPT-4 від OpenAI та Gemini від Google.

Швидкий підйом Inflection AI ще більше посилився завдяки масивному фінансуванню у розмірі 1,3 мільярда доларів, який очолили промислові гіганти, такі як Microsoft, NVIDIA, та відомі інвестори, включаючи Ріда Гоффмана, Білла Гейтса та Еріка Шмідта. Цей значний інвестиційний внесок збільшує загальний фінансування компанії до 1,525 мільярда доларів.

У співпраці з партнерами CoreWeave та NVIDIA, Inflection AI будує найбільший кластер штучного інтелекту у світі, який складається з безпрецедентних 22 000 графічних процесорів NVIDIA H100 Tensor Core. Ця колосальна обчислювальна потужність підтримуватиме навчання та розгортання нового покоління великомасштабних моделей штучного інтелекту, що дозволить Inflection AI розширити межі того, що можливо в галузі персонального штучного інтелекту.

Проривна робота компанії вже дала видатні результати, оскільки кластер Inflection AI, який наразі складається з понад 3 500 графічних процесорів NVIDIA H100 Tensor Core, демонструє найвищу продуктивність на відкритому бенчмарку MLPerf. У спільній заявці з CoreWeave та NVIDIA кластер завершив завдання з посилання на навчання великих мовних моделей за всього 11 хвилин, закріпивши свою позицію як найшвидший кластер на цьому бенчмарку.

Це досягнення слідує за представленням Inflection-1, великої мовної моделі Inflection AI, яку було визнано найкращою моделлю у своєму класі обчислень. Перевершуючи промислових гігантів, таких як GPT-3.5, LLaMA, Chinchilla та PaLM-540B на широкому спектрі бенчмарків, які зазвичай використовуються для порівняння LLM, Inflection-1 дозволяє користувачам взаємодіяти з Pi, персональним штучним інтелектом Inflection AI, простим і природним способом, отримуючи швидку, актуальну та корисну інформацію та поради.

Зобов’язання Inflection AI щодо прозорості та репродуктивності очевидне у випуску технічної записки, яка деталізує оцінку та продуктивність Inflection-1 на різних бенчмарках. Записка розкриває, що Inflection-1 перевершує моделі у тому ж класі обчислень, визначеному як моделі, навчені за допомогою не більше операцій з рухомою комою (FLOPs) PaLM-540B.

Успіх Inflection-1 та швидке масштабування обчислювальної інфраструктури компанії, підтримуване суттєвим фінансуванням, підкреслюють непохитну відданість Inflection AI своїй місії створення персонального штучного інтелекту для кожного. З інтеграцією Inflection-1 у Pi користувачі тепер можуть досвідчувати силу персонального штучного інтелекту, користуючись його емпатичною особистістю, корисністю та стандартами безпеки.

Inflection-2.5

Inflection-2.5 тепер доступний усім користувачам Pi, персонального штучного інтелекту Inflection AI, на різних платформах, включаючи веб (pi.ai), iOS, Android та нову програму для робочого столу. Ця інтеграція позначає суттєвий рубіж у місії Inflection AI щодо створення персонального штучного інтелекту для кожного, поєднуючи сурову здатність із їхньою фірмовою емпатичною особистістю та стандартами безпеки.

Крок у продуктивності Попередня модель Inflection AI, Inflection-1, використовувала приблизно 4% операцій з рухомою комою (FLOPs) GPT-4 та демонструвала середню продуктивність близько 72% у порівнянні з GPT-4 на різних завданнях, орієнтованих на інтелект. З Inflection-2.5 Inflection AI досягла суттєвого підйому інтелектуальних можливостей Pi, з особливим акцентом на програмуванні та математиці.

Продуктивність моделі на ключових промислових бенчмарках демонструє її потужність, показуючи понад 94% середньої продуктивності GPT-4 на різних завданнях, з особливим акцентом на успіх у STEM-галузях. Це видатне досягнення є свідченням зобов’язання Inflection AI щодо розширення технологічного фронтиру, одночасно зберігаючи непохитну увагу на досвіді користувача та безпеці.

Програмування та математична потужність Inflection-2.5 сяє у програмуванні та математиці, демонструючи понад 10% покращення порівняно з Inflection-1 на BIG-Bench-Hard, підмножині складних завдань для великих мовних моделей. Два бенчмарки програмування, MBPP+ та HumanEval+, розкривають масові покращення порівняно з Inflection-1, закріплюючи позицію Inflection-2.5 як сили, з якою потрібно рахуватися у сфері програмування.

На бенчмарку MBPP+ Inflection-2.5 перевершує свого попередника суттєвим відступом, демонструючи рівень продуктивності, порівнянний з тим, що має GPT-4, згідно з заявою DeepSeek Coder. Аналогічно, на бенчмарку HumanEval+ Inflection-2.5 демонструє видатний прогрес, перевершуючи продуктивність Inflection-1 та наближаючись до рівня GPT-4, згідно з оцінками наEvalPlus-лидерборді.

Домінування у промислових бенчмарках

Inflection-2.5 виділяється на промислових бенчмарках, демонструючи суттєві покращення порівняно з Inflection-1 на бенчмарках MMLU та GPQA Diamond, відомих своєю експертною складністю. Продуктивність моделі на цих бенчмарках підкреслює її здатність обробляти широкий спектр завдань, від шкільних завдань до професійних завдань.

Видатна продуктивність у STEM-екзаменах Продуктивність моделі поширюється на STEM-екзамени, демонструючи видатну продуктивність на угорському математичному екзамені та фізичному GRE. На угорському математичному екзамені Inflection-2.5 демонструє свою математичну потужність, використовуючи надану vài-шот-пrompt та форматування, що дозволяє легко повторити результати.

У фізичному GRE, вступному екзамені з фізики, Inflection-2.5 досягає 85-го процентилу серед людей, які проходять тестування у maj@8 (більшість голосів у 8), закріплюючи свою позицію як суттєвого конкурента у сфері фізичних задач. Крім того, модель наближається до найвищого балу у maj@32, демонструючи свою здатність розв’язувати складні фізичні задачі з видатною точністю.

Покращення досвіду користувача Inflection-2.5 не тільки підтримує фірмову особистість та стандарти безпеки Pi, але й піднімає свій статус універсального та незамінного персонального штучного інтелекту у різних темах. Від обговорення поточних подій до пошуку місцевих рекомендацій, вивчення для екзаменів, програмування та навіть звичайних розмов, Pi, підтримуваний Inflection-2.5, обіцяє збагачений досвід користувача.

З потужними можливостями Inflection-2.5 користувачі взаємодіють з Pi на ширшому спектрі тем, ніж будь-коли раніше. Спроможність моделі обробляти складні завдання, поєднана з її емпатичною особистістю та можливістю пошуку у режимі реального часу, забезпечує користувачам отримання високоякісної, актуальної інформації та порад.

Прийняття користувачами та взаємодія Вплив інтеграції Inflection-2.5 у Pi вже очевидний у показниках настрою користувачів, взаємодії та утримання. Inflection AI стала свідком суттєвого прискорення органічного зростання користувачів, з одним мільйоном активних користувачів на добу та шістьма мільйонами активних користувачів на місяць, які обмінюються понад чотирма мільярдами повідомлень з Pi.

У середньому розмови з Pi тривають 33 хвилини, при цьому одна з десяти триває понад годину кожен день. Крім того, приблизно 60% людей, які взаємодіють з Pi протягом тижня, повертаються наступного тижня, демонструючи вищу щомісячну прив’язаність, ніж провідні конкуренти у галузі.

Технічні деталі та прозорість бенчмарків

У відповідності зі зобов’язанням Inflection AI щодо прозорості та репродуктивності, компанія надала повні технічні результати та деталі щодо продуктивності Inflection-2.5 на різних промислових бенчмарках.

Наприклад, на виправленій версії набору даних MT-Bench, який усуває проблеми з неправильними посиланнями та помилковими припущеннями у початковому наборі даних, Inflection-2.5 демонструє продуктивність, відповідну очікуванням на основі інших бенчмарків.

Inflection AI також оцінила Inflection-2.5 на HellaSwag та ARC-C, бенчмарках спільного розуму та науки, звіти про які надають широкий спектр моделей, та результати демонструють сильну продуктивність на цих насичених бенчмарках.

Важливо зазначити, що хоча оцінки, надані тут, представляють модель, яка підтримує Pi, досвід користувача може трохи відрізнятися через фактори, такі як вплив веб-пошуку (не використовується у бенчмарках), структура vài-шот-пrompt та інші відмінності на боці виробництва.

Висновок

Inflection-2.5 представляє суттєвий крок вперед у галузі великих мовних моделей, конкуруючи з можливостями промислових лідерів, таких як GPT-4 та Gemini, при використанні лише частини обчислювальних ресурсів. З її вражаючою продуктивністю на широкому спектрі бенчмарків, особливо у STEM-галузях, програмуванні та математиці, Inflection-2.5 зайняла позицію суттєвого конкурента у ландшафті штучного інтелекту.

Інтеграція Inflection-2.5 у Pi, персонального штучного інтелекту Inflection AI, обіцяє збагачений досвід користувача, поєднуючи сурову здатність із фірмовою емпатичною особистістю та стандартами безпеки. Коли Inflection AI продовжує розширювати межі того, що можливо з великими мовними моделями, спільнота штучного інтелекту з нетерпінням чекає наступної хвилі інновацій та проривів від цієї піонерської компанії.

Візіонерський підхід Inflection AI розширюється за межі простої розробки моделей, оскільки компанія визнає значення попереднього навчання та тонкого налаштування у створенні високоякісних, безпечних та корисних досвідів штучного інтелекту. Як вертикально інтегрована студія штучного інтелекту, Inflection AI обробляє весь процес самостійно, від інгестії даних та проектування моделей до високопродуктивної інфраструктури.

Related Topics:gemini GPT-4 Inflection AI Large Language Models PaLM personal AI assistant

Aayush Mittal

Я провів останні п'ять років, занурючись у захопливий світ машинного навчання та глибокого навчання. Моя пристрасть та експертиза привели мене до внеску у понад 50 різноманітних проектів програмної інженерії, з особливим акцентом на AI/ML. Моя триваюча цікавість також привела мене до обробки природної мови, галузі, яку я бажаю дослідити далі.

Unite.AI

Inflection-2.5: Потужний LLM, який конкурує з GPT-4 і Gemini

Inflection-2.5

Домінування у промислових бенчмарках

Технічні деталі та прозорість бенчмарків

Висновок

You may like