Свяжитесь с нами:

Маянк Кумар, основатель и инженер ИИ в DeepTempo – серия интервью

Интервью

Маянк Кумар, основатель и инженер ИИ в DeepTempo – серия интервью

mm

Маянк Кумар является инженером-основателем ИИ в DeepTempo, где он руководит проектированием и разработкой основополагающей модели языка логов (LogLM) компании. Имея большой академический и исследовательский опыт в области генеративного и мультимодального ИИ, он привносит специализированный опыт в создание предметно-ориентированных моделей, которые улучшают обнаружение угроз и реагирование в средах кибербезопасности.

DeepTempo — компания по кибербезопасности, созданная на основе LogLM, базовой модели AI, обученной на крупномасштабных данных журнала безопасности. Платформа отлично справляется с выявлением сложных, ранее невиданных угроз, при этом сводя к минимуму ложные срабатывания. Разработанная для бесшовной интеграции в существующие рабочие процессы безопасности, DeepTempo поддерживает развертывания в озерах данных, Kubernetes и Snowflake, обеспечивая более быструю экспертизу, снижение затрат на прием данных и масштабируемую автоматизированную защиту для современных предприятий.

Что побудило вас стать соучредителем DeepTempo и как ваш опыт в академических исследованиях и открытом ИИ-проектах повлиял на направление развития компании?

Я вырос в сплоченном сообществе, где отношения строились лицом к лицу, а не через экраны. Мой отец, учитель, привил мне важность отдачи. Хотя мы не были богаты в материальном плане, мы были богаты связями и целями. В такой среде вы быстро понимаете, что решение проблем — это не только индивидуальный талант, но и коллективная сила. Этот образ мышления остался со мной и в конечном итоге привел к моему интересу к социальному предпринимательству во время изучения инженерии в IIT Ropar.

Переломный момент наступил, когда браузер моего отца подвергся атаке вируса-вымогателя. Это был не просто технический сбой, он принес страх, смятение и уязвимость в наш дом. Этот опыт открыл мне глаза на то, насколько хрупок цифровой мир, не только для отдельных людей, но и для организаций, которые постоянно находятся под угрозой. Примерно в то же время я встретил Эвана, чье видение построения коллективной защиты в масштабах Интернета глубоко нашло во мне отклик. Эта общая миссия — и мое стремление применять технологии на службе людей — привлекли меня в DeepTempo.

В Вашингтонском университете мои исследования были сосредоточены на двух основных областях: мультимодальном репрезентативном обучении и ИИ, ориентированном на данные. Оба оказались критически важными, когда мы построили нашу вертикальную фундаментальную модель LogLM. В отличие от естественного языка, журналы кибербезопасности запутаны, структурированы и фрагментированы. Нашей первой задачей было построить новый «язык» для интерпретации этих данных, позволяющий LogLM изучать значимые репрезентации из этих последовательностей. Мы также вложили значительные средства в то, как мы оцениваем производительность, потому что в безопасности точность не является опциональной, а галлюцинации неприемлемы.

Но помимо технологий, нашей путеводной звездой всегда была коллективная оборона. Вот почему сотрудничество с открытым исходным кодом будет иметь решающее значение для того, чтобы эта миссия была успешной в масштабе.

Концепция «коллективной обороны» является центральной для DeepTempo. Что это означает на практике и чем она отличается от традиционных подходов к кибербезопасности?

На практике коллективная защита означает, что когда экземпляр LogLM одного клиента идентифицирует новое поведение атаки, скажем, пошаговую кампанию C2 и эксфильтрации, включающую поведение маяка, за которым следует аномальная исходящая передача данных, это понимание может быть преобразовано в обобщенную поведенческую сигнатуру и распространено по всей экосистеме. Важно, что это не подразумевает отправку необработанных журналов или данных клиентов. Вместо этого мы абстрагируем высоконадежные поведенческие шаблоны и включаем их в веса модели с помощью методов федеративного обучения.

Это резко контрастирует с устаревшими системами, которые полагаются либо на правила «один размер подходит всем», либо на статические каналы разведки угроз. Эти системы не развиваются, пока не затронуты несколько жертв. При коллективной защите система обнаружения развивается с каждым высококачественным сигналом, даже если угроза гиперспецифична для одной среды. Это позволяет нам отлавливать полиморфные угрозы и агентные атаки с LLM-дополнением до того, как они станут широко распространенными.

Какие конкретные пробелы в корпоративной безопасности побудили разработать LogLM и чем он принципиально отличается от старых систем обнаружения?

Команды по безопасности предприятий сталкиваются с тремя основными проблемами: высокие отношения шума к сигналу, нестабильные обнаружения, которые не передаются между средами, и медленная адаптация к возникающим угрозам. LogLM был создан для решения всех трех.

Большинство существующих систем полагаются на подходы на основе правил или узкого МО, которые требуют недель или месяцев настройки для понимания новой среды. Эти подходы терпят неудачу, когда злоумышленники слегка меняют тактику, как мы видели на примере таких групп, как Scattered Spider или Volt Typhoon. LogLM обучается на больших объемах телеметрии безопасности, рассматривая ее как своего рода структурированный язык. Это позволяет ему распознавать сложные последовательности, такие как всплеск исходящих DNS-запросов, за которыми следует необычная активность Okta, не как изолированные аномалии, а как часть повествования об угрозе.

В отличие от устаревших инструментов, которые выдают разрозненные оповещения, LogLM выдает интерпретируемые обнаружения на тактическом уровне. И поскольку он полностью создан с нуля, а не перепрофилирован или адаптирован, он разработан для обеспечения безопасности с нуля, обеспечивая быструю адаптацию всего за несколько дней немаркированных журналов. Это делает адаптацию быстрой, а обнаружение — гораздо более устойчивым.

Кто такие теневые агенты и какой риск они представляют для организаций, работающих без централизованного надзора?

Теневые агенты — это автономные инструменты ИИ, часто построенные поверх LLM, которые работают в рамках предприятия без явного разрешения или видимости со стороны команды безопасности. Недавним примером является CVE‑2025‑32711 MITRE («EchoLeak»), уязвимость нулевого щелчка в Microsoft 365 Copilot, которая активируется простой просьбой суммировать электронные письма. Уязвимость позволяет злоумышленникам извлекать внутренние данные через контекст RAG агента без необходимости взаимодействия с пользователем. Хотя эти агенты могут повысить производительность, они часто обходят проверку безопасности и подвергают конфиденциальные данные неконтролируемым уровням вывода.

Мы видели случаи, когда теневой агент, созданный с помощью публичного LLM, подвергался воздействию системных журналов и начинал выдавать трассировки стека, содержащие жестко закодированные учетные данные. Эти агенты обычно не оснащены средствами контроля DLP, не следуют политикам доступа и не проходят аудит. Хуже того, поскольку они могут принимать решения, например, пересылать вывод во внешние системы, они сами становятся поверхностями атаки. В контексте оперативного внедрения или состязательной цепочки один агент может быть принужден к запуску нисходящих действий с реальным воздействием.

Почему быстрое внедрение и манипулирование моделями становятся серьезными угрозами и почему большинство современных систем их не выявляют?

Внедрение Prompt опасно, поскольку оно использует основную функциональность модели: интерпретацию естественного языка. Большинство корпоративных систем рассматривают выходные данные модели как заслуживающие доверия, но если модель получает скрытые инструкции, встроенные в комментарий пользователя, вызов API или даже имя файла, ее можно обмануть и заставить выполнить непреднамеренные действия. Мы видели, как злоумышленники использовали это, чтобы извлечь учетные данные из истории чата, выдать себя за пользователей или обойти проверку ввода.

Более глубокая проблема заключается в том, что LLM оптимизированы для согласованности, а не безопасности. Как мы исследовали в нашем недавнем ответе на исследование Королевского общества, модели, как правило, отдают приоритет беглости и общности, а не осторожности и точности. Даже побуждение их «быть более точными» может иметь обратный эффект, приводя к более уверенным, но все еще неверным ответам. А состязательная манипуляция моделью является долгосрочной проблемой. Злоумышленники могут отравлять наборы данных или тонко формировать вывод, повторяя структурированные запросы с течением времени, постепенно подталкивая модель в более разрешительное поведенческое пространство. Для обнаружения здесь требуются полная цепочка протоколирования, непрерывная оценка и песочница на уровне модели — методы, которые большинство корпоративных систем еще не приняли.

Каким образом Tempo использует сопоставления MITRE ATT&CK для предоставления действенной разведывательной информации, а не просто необработанных оповещений?

Tempo сопоставляет свои обнаружения с тактиками и методами ATT&CK, используя как контролируемые классификаторы, так и неконтролируемую цепочку поведения. Когда система видит последовательность, например, подозрительное выполнение PowerShell, изменение ключа реестра и необычный исходящий трафик, она не просто оповещает о каждом шаге, она помечает последовательность как Выполнение > Уклонение от защиты > Эксфильтрация, сопоставляя известные идентификаторы ATT&CK.

Это позволяет защитникам немедленно понять цель противника и его место в цепочке убийств. Мы также предоставляем обогащение: затронутые сущности, связанные журналы и оценки уверенности. Этот структурированный подход снижает когнитивную нагрузку на аналитиков SOC и ускоряет рабочие процессы реагирования, команды знают, какая тактика была использована, что к ней привело и каков вероятный следующий шаг. Это большой скачок по сравнению с системами оповещения об усталости, которые срабатывают на каждую аномалию без повествовательного контекста.

Почему DeepTempo работает выше систем SIEM (управление информацией о безопасности и событиями) и как такое позиционирование улучшает обнаружение угроз и оптимизирует работу служб безопасности?

SIEM-системы, как правило, нормализуют и фильтруют журналы, чтобы снизить затраты на прием. Но при этом они часто теряют ценный контекст, такой как точные временные метки, пики задержки или эфемерное поведение сеанса. DeepTempo работает выше по течению, принимая сырую телеметрию перед этим преобразованием. Это позволяет нам моделировать более сложные поведенческие шаблоны, такие как повторное использование сервисных токенов с небольшими изменениями во времени или редкие последовательности вызовов API, которые никогда не преодолеют пороговые значения SIEM.

Работая вверх по течению, мы также можем уменьшить шум до того, как он попадет в SIEM. Вместо того, чтобы передавать петабайты строк журнала в день, мы передаем 50–100 высококонтекстных событий с полным обогащением ATT&CK и оценкой на основе моделей. Команды тратят меньше времени на сортировку и больше времени на расследование угроз, которые имеют значение. Это также снижает затраты на хранение и вычисления SIEM, которые могут быть значительными в больших средах.

Что позволяет Tempo так быстро настраивать модели под новые среды и как это соотносится с традиционными рабочими процессами машинного обучения?

Традиционные системы машинного обучения часто требуют недель маркированных данных и переобучения для адаптации к новой среде. Tempo использует принципиально иной подход. Вместо того чтобы начинать с нуля, он использует предварительно обученную модель, построенную на крупномасштабной реальной сетевой телеметрии, такой как данные потоков NetFlow и VPC. Это дает ему четкое понимание того, как потоки трафика и поведение обычно выглядят в различных средах.

Когда Tempo развертывается в новой среде, ему не нужны маркированные данные или длительные циклы обучения. Он использует всего несколько дней локальной сетевой активности, чтобы установить базовый уровень и настроить себя для обнаружения закономерностей, характерных для этой среды, таких как необычный доступ в нерабочее время, аномалии связи между службами или неожиданное перемещение данных. Это происходит за часы, а не недели.

Поскольку процесс является самоконтролируемым, нет необходимости для групп безопасности вручную отмечать или маркировать события. И чтобы оставаться в курсе изменений в среде, мы встроили механизмы моментальных снимков, которые позволяют модели «забывать» устаревшие поведения при изменении инфраструктуры или политик. Работа на сетевом уровне позволяет нам обнаруживать угрозы раньше и в более широком масштабе, что отличает Tempo от традиционных инструментов безопасности, ориентированных на конечные точки или журналы.

Каким образом DeepTempo обеспечивает высокую точность и при этом сводит к минимуму ложные срабатывания, особенно в динамических облачных средах?

Мы объединяем временное моделирование с контекстно-зависимым анализом поведения сети, построенным непосредственно на журналах потоков NetFlow и VPC. Наш благородный подход к генерации последовательностей в сочетании с масштабной предварительной подготовкой алгоритмов глубокого обучения на основе трансформатора помогает понять, как сетевые события разворачиваются с течением времени. Мы не отмечаем один неудачный вход, но мы отмечаем неудачный вход, за которым следует успешный вход с нового устройства, боковое перемещение и необычный доступ к данным. Этот многослойный временной контекст отфильтровывает шум и выделяет реальные и новые угрозы.

Во-вторых, мы профилируем поведение пользователей и служб в контексте. Узел Kubernetes, перезапускающийся 12 раз, является нормой во время обновлений, но подозрительным в 2 часа ночи, если за ним следует новое развертывание контейнера из неизвестного реестра. Tempo распознает это, поскольку он одновременно смотрит на последовательность, время и контекст. Кроме того, наш конвейер активного обучения активно отслеживает и собирает информацию о конкретных стилях обнаружения. Если конвейер обнаруживает дрейф производительности или данных, он будет использовать снимки и обратную связь от аналитиков для точной настройки небольшого количества параметров модели.

Мы строим нашу систему обнаружения на основе необработанных, высокоточных сетевых метаданных, объединяя временную аналитику с поведенческим анализом для предоставления высоконадежных оповещений — даже в облачных средах, которые меняются в мгновение ока.

Какова роль объяснимости в вашей системе и как вы обеспечиваете, чтобы оповещения предоставлялись с полезным и интерпретируемым контекстом?

Каждое обнаружение в Tempo включает в себя резюме, базовые доказательства журнала и предполагаемую тактику (например, доступ к учетным данным через Brute Force). Мы также предоставляем график связанных сущностей, пользователей, конечных точек, облачных ресурсов, чтобы команды SOC могли визуализировать инцидент. Цель состоит в том, чтобы устранить эффект «черного ящика», который преследует многие системы ИИ.

Мы заимствовали академические инструменты объяснимости, такие как LIME и SHAP, в ранних прототипах, но обнаружили, что они не были интуитивно понятны аналитикам. Поэтому вместо этого мы генерируем повествование на простом языке: что произошло, когда, почему это подозрительно и насколько мы уверены. Речь идет не только о ясности, речь идет о том, чтобы аналитики первого уровня могли действовать, не передавая каждое оповещение.

Каковы долгосрочные риски использования злоумышленниками ИИ и базовых моделей, и как DeepTempo планирует оставаться впереди?

Ландшафт угроз вступает в фазу, когда злоумышленники могут задействовать агентов ИИ, которые обучаются самостоятельно, мутируют полезные нагрузки на лету и имитируют законное поведение пользователя. Эти агенты могут работать 24/7, прощупывая слабые места, адаптируясь с каждой неудачной попыткой. Это фундаментальный сдвиг, речь уже не о нулевых днях, а о скорости, итерации и запутывании.

Мы готовимся, инвестируя в состязательное обучение, обнаружение вышестоящих инстанций и поведенческое моделирование, которое не полагается на известные индикаторы. Наша цель — определить структуру вредоносного поведения до его эскалации. Мы также изучаем способы отпечатков трафика атакующих, генерируемого ИИ, так же, как мы когда-то отпечатывали ботнеты, чтобы защитники могли отмечать активность, даже если полезная нагрузка постоянно меняется.

 Спасибо за отличное интервью, читатели, которые хотят узнать больше, должны посетить DeepTempo

Антуан — дальновидный лидер и партнер-основатель Unite.AI, движимый непоколебимой страстью к формированию и продвижению будущего ИИ и робототехники. Серийный предприниматель, он считает, что ИИ будет таким же разрушительным для общества, как электричество, и его часто ловят на том, что он восторженно отзывается о потенциале разрушительных технологий и AGI.

футурист, он посвятил себя изучению того, как эти инновации изменят наш мир. Кроме того, он является основателем Ценные бумаги.io, платформа, ориентированная на инвестиции в передовые технологии, которые меняют будущее и преобразуют целые секторы.