Интервью

Угур Тигли, технический директор MinIO – Интервью

mm

Угур Тигли является техническим директором MinIO, лидера в области высокопроизводительного объектного хранения для ИИ. Как технический директор, Угур помогает клиентам проектировать и развертывать API-ориентированную, облачную и масштабируемую инфраструктуру данных с использованием MinIO.

Можете ли вы описать свой путь к становлению техническим директором MinIO и то, как ваши опыт и знания повлияли на ваш подход к ИИ и инфраструктуре данных?

Я начал свою карьеру в области инфраструктурной инженерии в Merrill Lynch в качестве администратора резервного копирования и восстановления. Я продолжал брать на себя различные вызовы и технические позиции. Я присоединился к Bank of America через приобретение Merrill Lynch, где я был вице-президентом по инженерии хранения. Однако моя роль расширилась и включала в себя вычислительную и инженерную деятельность по центрам обработки данных.

В рамках своей работы я также сотрудничал с различными венчурными фирмами (VC) и их портфельными компаниями, чтобы внедрить последние и лучшие технологии. Во время одной из моих встреч с General Catalyst меня познакомили с идеей и людьми, стоящими за MinIO. Мне это понравилось, потому что они подходили к инфраструктуре данных по-другому, чем все остальные на рынке. Компания осознала важность объектного хранилища и стандартных API, с которыми начинались приложения. В те годы они могли предсказать будущее вычислений и ИИ до того, как это стало называться так, как сейчас. Я хотел быть частью реализации этой концепции и создания чего-то действительно уникального. MinIO теперь является наиболее широко используемым объектным хранилищем на планете.

Влияние моих предыдущих ролей и опыта на мой подход к новым технологиям, особенно ИИ и инфраструктуре данных, является просто накоплением многих проектов, в которых я участвовал на протяжении лет поддержки команд приложений в финансовых учреждениях с высокими требованиями.

От ограниченной сетевой полосы пропускания, которая привела к технологии Hadoop 15 лет назад, до различных технологий хранения данных, таких как жесткие диски (HDD) и твердотельные накопители (SSD), многие из этих изменений технологий сформировали мое текущее представление об экосистеме ИИ и инфраструктуре данных.

MinIO признан за свои высокопроизводительные возможности объектного хранения. Как MinIO конкретно удовлетворяет потребностям предприятий, движимых ИИ, сегодня?

Когда AB и Гарима концептуализировали MinIO, их первоочередной задачей было подумать о проблемном заявлении — они знали, что данные будут продолжать расти, а существующие технологии хранения несовместимы с этим ростом. Быстрое появление ИИ сделало их дальновидные взгляды на рынок реальностью. С тех пор объектное хранилище стало фундаментальным для инфраструктуры ИИ (все основные модели, такие как OpenAI и Anthropic, построены на объектных хранилищах), и современный центр обработки данных построен на основе объектного хранилища.

MinIO недавно запустил новую платформу объектного хранения с критически важными функциями класса предприятия для поддержки организаций в их инициативах по ИИ: МинИО Enterprise Object Store. Это предназначено для производительности и масштабных задач, введенных массивными рабочими нагрузками ИИ, и позволяет клиентам более легко решать проблемы, связанные с миллиардами объектов, а также с сотнями тысяч криптографических операций на узел в секунду. В нем есть шесть новых коммерческих функций, нацеленных на ключевые операционные и технические проблемы, с которыми сталкиваются рабочие нагрузки ИИ: Каталог (это решает проблему пространства имен объектного хранилища и поиска метаданных), Брандмауэр (специально разработанный для данных), Система управления ключами (решает проблему работы с миллиардами криптографических ключей), Кэш (работает как сервис кэширования), Наблюдаемость (позволяет администраторам просматривать все системные компоненты во всех экземплярах) и, наконец, Enterprise Console (служит единой панелью управления для всех экземпляров MinIO).

Обработка ИИ в масштабе становится все более важной. Можете ли вы подробнее рассказать о том, почему это так и как MinIO удовлетворяет эти требования для современных предприятий?

Почти все, что строят организации, теперь находится на объектном хранилище, что ускорится, поскольку те, кто работает с инфраструктурой на основе приборов, столкнутся с препятствием в эпоху современных озер данных и ИИ. Организации рассматривают новые инфраструктуры для управления всеми данными, поступающими в их систему, а затем строят данные-ориентированные приложения поверх этого — для этого требуется необыкновенная масштабируемость и гибкость, которую может поддержать только объектное хранилище. Вот где MinIO входит в игру и почему компания всегда стояла на голову выше конкурентов, потому что она разработана для того, что нужно ИИ — хранению огромных объемов структурированных и неструктурированных данных и обеспечению производительности в масштабе.

Аналогично потребностям машинного обучения (ML) в предыдущих поколениях ИИ, данные и современные озера данных были важны для успеха любого «предсказательного» ИИ. Однако с развитием «генеративного» ИИ этот ландшафт расширился и включает многие другие компоненты, такие как данные ИИ Ops, конвейеры документов, основные модели и векторные базы данных.

Все эти дополнительные компоненты используют объектное хранилище, и большинство из них напрямую интегрируются с MinIO. Например, Milvus, векторная база данных, использует MinIO, и многие современные движки запросов интегрируются с MinIO через API S3.

ИИ-технический долг является все более важной проблемой для многих организаций. Какие стратегии MinIO использует, чтобы помочь клиентам избежать этой проблемы, особенно в отношении более эффективного использования GPU?

Цепочка только так сильна, как ее слабейшее звено — и ваша инфраструктура ИИ/ML только так быстра, как ее самый медленный компонент. Если вы обучаете модели машинного обучения с помощью GPU, вашим слабым звеном может быть решение хранения. Результатом является то, что я называю «голодной проблемой GPU». Проблема голода GPU возникает, когда ваша сеть или решение хранения не могут обслуживать обучающие данные для вашей логической части обучения достаточно быстро, чтобы полностью использовать ваши GPU, оставляя ценные вычислительные ресурсы на столе. То, что организации могут сделать, чтобы полностью использовать свои GPU, — это сначала понять признаки плохой архитектуры данных и то, как это может напрямую привести к неиспользованию технологии ИИ. Чтобы избежать технического долга, компании должны изменить свой взгляд (и хранение) данных.

Организации могут настроить решение хранения, которое находится в том же центре обработки данных, что и их вычислительная инфраструктура. Идеально, это должно быть в том же кластере, что и ваша вычислительная мощность. Поскольку MinIO является программно-определенным решением хранения, оно способно обеспечить производительность, необходимую для кормления голодных GPU — недавний бенчмарк достиг 325 ГиБ/с на GET и 165 ГиБ/с на PUT с помощью только 32 узлов NVMe SSD.

У вас богатый опыт создания высокопроизводительных инфраструктур данных для глобальных финансовых учреждений. Как этот опыт информирует вашу работу в MinIO, особенно при проектировании решений для различных отраслевых потребностей?

Я помог построить первый частный облако для Bank of America, и эта инициатива сэкономила миллиарды долларов, предоставив функции и возможности, доступные в публичных облаках, внутри при более низкой стоимости. Не только эта крупная инициатива, но и многие другие различные требования к приложениям, над которыми я работал в BofA Merrill Lynch, сформировали мою работу в MinIO в отношении проектирования решений для наших клиентов сегодня.

Например, обучение «неправильным» или «трудным» способом работало с командой, которая построила кластеры Hadoop, которые использовали только компоненты хранения данных на сервере, сохраняя серверные ЦП подзагруженными или почти простаившими. Простые примеры или уроки, такие как этот, позволили мне использовать деагрегированные данные и вычислительные решения в современной инфраструктуре данных сегодня, помогая нашим клиентам и партнерам, что технически лучше и дешевле, используя современные технологии сетей с высокой пропускной способностью и высокопроизводительные объектные хранилища, такие как MinIO, и любой движок запросов или движок обработки.

Гибридное облако представляет собой уникальные проблемы и сложности. Можете ли вы подробно рассказать об этом и объяснить, как модель «всплеска» MinIO в облако помогает эффективно контролировать затраты на облако?

Переход на мультиоблачную среду не должен привести к увеличению ИТ-расходов и неспособности достичь вех — это должно помочь управлять затратами и ускорять дорожную карту организации. То, что следует учитывать, — это репатриация облака — реальность заключается в том, что перенос операций из облака в инфраструктуру на месте может привести к существенной экономии средств, в зависимости от случая, и всегда следует рассматривать облако как операционную модель, а не как пункт назначения. Например, организации запускают экземпляры GPU, но затем тратят время на предварительную обработку данных, чтобы они поместились в GPU. Это расточительно тратит драгоценное время и деньги — организации должны оптимизировать лучше, выбирая облачные родные и, что более важно, облачно-портативные технологии, которые могут разблокировать силу мультиоблака без значительных затрат. Использование принципов облачной модели и соблюдение этого框架а обеспечивает гибкость для адаптации к меняющимся операционным требованиям.

Решения, родные для Kubernetes, имеют решающее значение для современной инфраструктуры. Как интеграция MinIO с Kubernetes повышает его масштабируемость и гибкость для инфраструктуры данных ИИ?

MinIO является родным для Kubernetes по конструкции и совместимым с S3 с момента его создания. Разработчики могут быстро развернуть постоянное объектное хранилище для всех своих облачных приложений. Комбинация MinIO и Kubernetes обеспечивает мощную платформу, которая позволяет приложениям масштабироваться на любой многооблачной и гибридной облачной инфраструктуре и при этом быть централизованно управляемыми и защищенными, избегая блокировки публичного облака.

С Kubernetes в качестве своего движка MinIO может работать где угодно, где работает Kubernetes — что, в современном, облачном/ИИ-мире, по сути, везде.

Глядя вперед, какие будущие разработки или улучшения пользователи могут ожидать от MinIO в контексте инфраструктуры данных ИИ?

Наши недавние партнерства и запуски продуктов являются знаком рынку о том, что мы не замедляем темп. Например, мы недавно заключили партнерство с Carahsoft, чтобы сделать программное-определенное объектное хранилище MinIO доступным для государственных, оборонных, разведывательных и образовательных секторов. Это позволяет государственным организациям строить любую масштабную современную инфраструктуру данных, от широких современных озер данных до решений хранения данных для конкретных миссий на автономном крае. Вместе мы приносим эти передовые, уникальные решения государственным клиентам, наделяя их возможностью легко и эффективно решать проблемы инфраструктуры данных. Это партнерство происходит в то время, когда есть растущая тенденция к тому, чтобы государственный сектор был готов к ИИ, с недавними требованиями OMB, которые гласят, что все федеральные агентства должны иметь офицера ИИ (среди прочего). В целом, партнерство помогает укрепить позицию отрасли в области ИИ и предоставляет государственному сектору ценные инструменты, необходимые для успеха.

Кроме того, MinIO очень хорошо позиционирован для будущего. Инфраструктура данных ИИ еще в своем младенчестве. Многие области этого будут более очевидны в течение следующих нескольких лет. Например, большинство предприятий захотят использовать свои проприетарные данные и документы с основными моделями и генерацией на основе извлечения (RAG). Дальнейшая интеграция с этой моделью развертывания будет простой для MinIO, поскольку все эти архитектурные решения и модели развертывания имеют одну общую черту — все эти данные уже хранятся на MinIO.

Наконец, для технологических лидеров, стремящихся построить или улучшить свою инфраструктуру данных для ИИ, какой совет вы бы дали на основе своего опыта и знаний в MinIO?

Чтобы сделать любую инициативу ИИ успешной, есть три ключевых элемента, которых вы должны придерживаться: наличие правильных данных, правильной инфраструктуры и правильных приложений. Это действительно начинается с понимания того, что вам нужно — не покупайте дорогие GPU просто потому, что вы боитесь пропустить лодку ИИ. Я твердо убежден, что стратегии ИИ предприятий потерпят неудачу в 2024 году, если организации будут сосредоточены только на самих моделях и не на данных. Подход «модель вниз» вместо «данные вверх» — это критическая ошибка — вы должны начинать с данных. Постройте правильную инфраструктуру данных. Затем подумайте о своих моделях. Когда организации переходят к архитектуре, ориентированной на ИИ, важно, чтобы их инфраструктура данных позволяла их данным — а не ограничивала их.

Спасибо за отличное интервью, читателям, которые хотят узнать больше, следует посетить MinIO.

Антуан - видный лидер и сооснователь Unite.AI, движимый непоколебимой страстью к формированию и продвижению будущего ИИ и робототехники. Как серийный предприниматель, он считает, что ИИ будет столь же разрушительным для общества, как электричество, и часто увлеченно рассказывает о потенциале разрушительных технологий и ИИ.

Как футуролог, он посвящает себя изучению того, как эти инновации будут формировать наш мир. Кроме того, он является основателем Securities.io, платформы, ориентированной на инвестиции в передовые технологии, которые переопределяют будущее и меняют целые сектора.