Штучний інтелект
Backboard встановлює новий глобальний стандарт у пам’яті ІІ — стрибок до真正ої агентної ІІ

Backboard перетнув важливий поріг для систем штучного інтелекту, продемонструвавши, що пам’ять можна розглядати як основну інфраструктуру, а не як крихкий додаток. Компанія оголосила, що тепер вона лідирує в обох основних бенчмарках пам’яті ІІ, LoCoMo і LongMemEval, ставши першою платформою, яка це робить під консистентними академічними та незалежними методами оцінки.
У незалежній оцінці, проведеній NewMathData, Backboard досяг 93,4 відсоткової точності на LongMemEval, найвищий публічно зареєстрований бал до цього часу при виконанні згідно з оригінальною специфікацією бенчмарка. Цей результат побудований на раніше опублікованому 90,1 відсотковому балі на LoCoMo, що ставить Backboard серед дуже малої групи систем, здатних підтримувати як короткочасну точність, так і довгочасну контекстну безперервність.
Відзначено, що рецензенти виявили кілька випадків, коли відповіді Backboard були позначені як неправильні, хоча вони були контекстуально точніші, ніж очікувані відповіді бенчмарка. У цих випадках система включила фактичну інформацію, вже присутню в взаємодії, а не дотримувалася вузької інтерпретації запиту. В результаті зареєстрований бал представляє консервативний базовий рівень, а не верхню межу продуктивності.
Чому пам’ять стала обмежувальним фактором у ІІ
Більшість сучасних систем ІІ все ще поводяться так, якби у них не було справжнього минулого. Хоча великі мовні моделі excelente генерують плавні відповіді, вони схильні забувати контекст, коли сесія закінчується або вікно запиту заповнюється. Це обмеження змушує розробників повторно будувати стан через хаки для отримання інформації, інженерію запиту або крихкі ланцюги інструментів, які часто ламаються, коли системи стають більш складними.
Пам’ять не тільки про відгуки. У практичних розгортаннях пам’ять визначає, чи може система ІІ залишатися цілісною з часом, координувати завдання та будувати довіру з користувачами. Без довгострокової пам’яті системи перезапускаються, галлюцинують або суперечать собі. Коли ІІ переходить від однокрокових взаємодій до довгострокових робочих процесів, пам’ять стала основним瓶頸ом.
Backboard підходить до цієї проблеми, розглядając пам’ять як першокласну інфраструктуру. Натомість болтаючи пам’ять на застосунок-шар, вона інтегрує постійність, вкладення, отримання та оркестрування в єдину платформу, доступну через єдиний API.
Системний підхід, а не налаштування бенчмарка
Backboard не проектував свою архітектуру для погоні за балами бенчмарка. Оцінки були або ініційовані незалежно, або використовувалися внутрішньо для розуміння того, як система порівнюється з академічними дослідженнями. Отримана продуктивність відображає системну поведінку в реалістичних умовах, а не оптимізацію для окремих завдань.
Ця відмінність має значення, оскільки більшість бенчмарків вимірюють поведінку моделі в ізоляції, тоді як реальні системи ІІ складаються з багатьох рухомих частин. Результати Backboard свідчать про те, що продуктивність пам’яті не є виключно функцією розміру моделі чи грубої обчислювальної потужності, а того, як пам’ять структурована, оновлюється та спільно використовується з часом.
Платформа поєднує постійну довгострокову пам’ять, вбудовані вкладення та векторизацію, генерування з підтримкою отримання, спільну пам’ять між агентами та доступ до понад 17 000 великих мовних моделей, включаючи підтримку bring-your-own-key. Об’єднавши ці елементи, Backboard усуває потребу для підприємств шити разом відкриті компоненти, які часто виходять з ладу під виробничими обмеженнями.
Розробка практичної агентної ІІ
Інтерес до агентної ІІ продовжує зростати, але більшість реалізації борються з переходом за межі демонстрацій. Причина проста. Агенти без спільної, постійної пам’яті не можуть координувати ефективно. Вони фрагментуються, втрачають контекст та поводяться непередбачувано, коли взаємодії розтягуються з часом.
Backboard дозволяє постійну, спільну пам’ять між агентами, навіть коли ці агенти покладаються на різні основні моделі. Коли пам’ять надійна, агентна поведінка виникає природно, а не через скрипти. Системи можуть пам’ятати попередні рішення, підтримувати безперервність через сесії та координувати дії без постійного повторного запиту.
Базова структура пам’яті платформи розроблена для збереження тимчасової узгодженості, а не для реконструкції стану через статичні графи чи повторне отримання. Це дозволяє системам ІІ залишатися послідовними та аудитованими, коли вони зростають у складності.
Розроблено для систем, яким не можна забувати
Архітектура Backboard корениться в досвіді її засновника та генерального директора, Rob Imbeault, який раніше допоміг побудувати Assent з ранньої стадії стартапу в глобальну корпоративну платформу, оцінену в понад 1,4 мільярда доларів. У Assent системи, над якими працював Imbeault, були глибоко вбудовані в операції клієнтів, підтримуючи нормативну відповідність та складні ланцюги поставок, де безперервність, правильність та довіра були непереговорними.
Цей досвід сформував чітку переконаність. Найбільш цінна інфраструктура рідко буває ефектною. Це інфраструктура, яка працює тихо, послідовно та протягом тривалого часу. У таких середовищах системи не можуть перезапускатися, коли контекст втрачається. Якщо стан зникає або довіра підірвана, система виходить з ладу операційно, а не лише технічно.
Imbeault побачив структуральну невідповідність, що виникає в сучасній ІІ. Хоча великі мовні моделі швидко просунулися вперед, вони залишилися фундаментально безстанними. Контекст зникає між сесіями, змушуючи розробників реконструювати пам’ять через крихкі ланцюги запиту та ад-хок шари отримання. Ці підходи можуть працювати в демонстраціях, але вони виходять з ладу, коли системи ІІ очікується працювати безперервно, координувати між агентами та розвиватися з часом.
Backboard був побудований для закриття цієї прогалини. Пам’ять розглядатися як тривка інфраструктура, а не як логіка застосунка, дозволяючи системам ІІ зберігати стан через взаємодії, моделі та агентів. Фокус на постійності, правильності та довгостроковій надійності відображає переконання, сформоване ще до існування Backboard: у виробничих середовищах невдачі пам’яті не є незначними дефектами. Вони є системними ризиками.
Це переконання підтримує філософію дизайну Backboard. Метою не є демонструвати інтелект у ізольованих моментах, а забезпечити системи ІІ, які поводяться як надійне програмне забезпечення, навіть коли складність зростає та часові горизонти розширюються.
Що це означає для майбутнього ІІ
Ширше значення результатів Backboard полягає в тому, що наступна фаза прогресу ІІ не буде керуватися виключно більшістю моделей чи довшими вікнами контексту. Вона буде керуватися системами, які можуть пам’ятати, розуміти та розвиватися з часом.
Когда підприємства розгортають ІІ по всьому світу для підтримки клієнтів, операцій, досліджень та відповідності, постійна пам’ять стає основою для довіри та масштабованості. Платформи, які розв’язують пам’ять на рівні інфраструктури, визначатимуть, як агентна ІІ переходить від експериментів до щоденного використання.
З архітектурою пам’яті, яка тепер підтверджена як академічними, так і незалежними бенчмарками, Backboard звертає свою увагу на допомогу командам краще зрозуміти та оцінити поведінку систем ІІ під реальними обмеженнями. Наступна можливість Switchboard компанії має на меті зробити складні конфігурації ІІ більш прозорими та передбачуваними.
Майбутнє ІІ буде формуватися менше хитрими трюками з запиту та більше системами, яким можна довіряти з часом. Пам’ять є основою цього зсуву, і останні результати Backboard свідчать про те, що ця основа нарешті починає формуватися.












