Интервью

Джей Мишра, главный операционный директор Astera Software – серия интервью

опубликованный 22 сентября, 2023

обновлено 27 сентября, 2023

Антуан Тардиф, Генеральный директор и основатель Unite.AI

Джей Мишра — главный операционный директор (COO) в Astera Software, быстрорастущего поставщика готовых корпоративных решений для обработки данных. Они помогают бизнес-пользователям преодолеть разрыв между данными и аналитической информацией с помощью набора удобных, но высокопроизводительных решений для извлечения данных, обеспечения качества данных, интеграции данных, хранения данных и электронного обмена данными, которые используются как средними компаниями, так и компаниями из списка Fortune 500. в различных отраслях.

Что изначально привлекло вас в информатике?

Я всегда испытывал глубокую страсть к математике, и мой путь в компьютерные науки стал её естественным продолжением. Я получил бакалаврское образование по специальности «Математика и компьютерные науки», и именно логический переход от мира математики к сфере компьютерных наук меня увлекал. Особенно меня привлекли сложные механизмы алгоритмов и сложные алгоритмические процессы, что побудило меня выбрать специализацию в области алгоритмов во время обучения в магистратуре по компьютерным наукам. С тех пор моя связь с компьютерными науками остаётся крепкой, и я постоянно стремлюсь быть в курсе последних достижений в этой области.

В настоящее время вы являетесь главным операционным директором Astera. Не могли бы вы рассказать нам, в чем заключается ваша повседневная роль?

Моя роль в качестве главного операционного директора Astera многогранна и отражает динамичный характер нашей компании. Я работаю в Astera с момента её основания, и мои обязанности охватывают различные сферы деятельности организации. Это включает в себя всё: от активного участия в разработке и написании кода наших продуктов до обеспечения соответствия наших функций меняющимся потребностям клиентов. Я тесно сотрудничаю с нашими клиентами, работая вместе с ними над совершенствованием наших решений. Моя роль выходит за рамки разработки продуктов и охватывает продажи и маркетинг, где мы выводим наши предложения на рынок.

Поскольку мы находимся на этапе роста, я взял на себя дополнительные обязанности, включая контроль за достижением наших целей по выручке и стратегическое расширение нашего портфеля продуктов для выхода на новые рынки. По сути, я принимаю участие практически во всех аспектах нашей деятельности, обеспечивая не только создание исключительных продуктов, но и их успешный вывод на рынок, а также достижение наших бизнес-целей.

Что такое хранилище данных для читателей, незнакомых с этим термином?

Хранилище данных — это архитектурный шаблон, используемый для консолидации всех ваших корпоративных данных в централизованное хранилище, которое будет служить основой для создания различных типов аналитики, отчетов и информационных панелей, которые будут представлять истинную картину того, где находится ваш бизнес. есть, а также прогнозировать, как будет развиваться бизнес в будущем. Чтобы удовлетворить все эти потребности, вы определенным образом объединяете свои данные, и эта архитектура называется хранилищем данных.

Этот термин на самом деле заимствован из реального склада, где ваши товары хранятся на организованных полках. Но когда вы переходите в мир данных, вы получаете данные из разных источников. Вы получаете данные с производства, с вашего веб-сайта, от клиентов, с отделов продаж и маркетинга, с финансового отдела и с отдела кадров. Вы объединяете все данные, собираете их в одном месте, и это то, что мы называем хранилищем данных, спроектированным определённым образом, чтобы упростить составление отчётности, особенно по временной шкале. В этом и заключается основная цель хранилища данных.

Каковы некоторые из ключевых тенденций в хранении данных сегодня?

Хранилища данных значительно изменились за последние 20–25 лет. Примерно десять лет назад мы стали свидетелями появления автоматизированных хранилищ данных — смены парадигмы, которая ускорила процесс построения моделей данных и хранилищ данных. В последнее время автоматизация вышла на первый план. Он устраняет повторяющийся характер задач по хранению данных, оптимизируя процессы для экономии времени и ресурсов.

Наш продукт, Построитель хранилищ данных Astera, например, предлагает целостный подход к автоматизации хранилищ данных. Он охватывает все: от автоматизации конвейеров ETL (извлечение, преобразование, загрузка) и моделирования данных до автоматической загрузки данных в такие структуры, как звездообразные схемы или хранилища данных. Более того, он эффективно поддерживает эти структуры с помощью механизмов отслеживания измененных данных (CDC). Такая комплексная автоматизация стала ключевой тенденцией в сфере хранилищ данных.

Кроме того, самой последней тенденцией является слияние хранилищ данных и искусственного интеллекта (ИИ). В частности, генеративный искусственный интеллект поднял автоматизацию на новую высоту. Он не только автоматизирует задачи, но и помогает пользователям в принятии решений.

Конфигурация компонентов хранилища данных, конвейеров и точек принятия решений может осуществляться с помощью ИИ, что делает хранилища данных более мощными и эффективными, чем когда-либо прежде. По сути, это мощная автоматизация, преобразующая ландшафт хранилищ данных. Взаимодействие ИИ и хранилищ данных — это тенденция, которая открывает огромные перспективы в будущем.

Какие четыре фундаментальных принципа следует учитывать предприятиям при разработке хранилищ данных?

1. Определение четких целей

Крайне важно начать с точного понимания того, что вам нужно от хранилища данных. Избегайте распространённой ошибки сбора избыточных данных без чёткой цели. Вместо этого определите конкретные цели, которых вы хотите достичь с помощью своего хранилища данных. Какие отчёты и аналитика вам нужны? Сосредоточившись на своих целях, вы сможете гарантировать, что будете использовать только релевантные данные, а не беспорядочно накапливать огромные объёмы информации. Учитывая снижение стоимости хранения и вычислительных мощностей, крайне важно использовать эти ресурсы разумно и этично.

2. Выбор правильного архитектурного шаблона

Архитектурные шаблоны очень важны. Они определяют, будет ли ваше решение по хранению данных успешным. Существуют различные варианты, от хранилищ данных в стиле Инмона до схем «звезда» Ральфа Кимбалла, а также более новые шаблоны, такие как Data Vault и подход «одна большая таблица», рекомендуемый поставщиками баз данных типа «колонна». Не все шаблоны подойдут для любого сценария.

В большинстве случаев мы видим сочетание схемы «звезда» в верхней части хранилища данных. Поэтому сочетание Data Vault и схемы «звезда» по-прежнему остаётся наиболее распространённым шаблоном. Но, как я уже говорил, для каждого требования или сценария будет свой ответ. Поэтому обсудите это с экспертами, чтобы определить, какой архитектурный шаблон лучше всего подходит для вашего сценария.

3. Выбор правильных инструментов

Они очень важны и, опять же, существенно влияют на время и ресурсы, необходимые для разработки решения, а также на точность и качество вашего решения, которые определяются продуктами, которые вы будете использовать для создания и поддержки хранилища данных. Уделите особое внимание возможностям продуктов и обратите внимание на те, которые способны удовлетворить большинство требований в рамках одного пакета. Существуют такие области, как ETL (извлечение, преобразование, загрузка), качество данных, моделирование данных, загрузка данных и публикация данных, которые играют важную роль. Если вы попытаетесь использовать несколько продуктов для каждой из этих областей, это будет сложно. Поэтому обратите внимание на продукты, которые можно использовать для большинства, если не для всех, различных компонентов.

4. Ваша команда

И последнее, но не менее важное: команда людей, которую вы собираете для создания решения для хранилища данных, является наиболее важной частью. Мы рекомендуем привлечь кого-то с большим опытом работы с шаблонами архитектуры данных. С точки зрения состава команды, лучшим способом добиться этого являются межфункциональные команды, в которых есть как бизнес-пользователи, так и люди с некоторым опытом программирования или, по крайней мере, опытом работы с данными, а также тесное сотрудничество между вашими хранителями данных, людьми, которые отвечают за данные и, конечно же, за бизнес. Способствуя тесному сотрудничеству между этими различными аспектами вашей организации, вы можете создать сплоченную и эффективную команду, отвечающую за создание и поддержку вашего решения для хранения данных.

Успех в хранении данных зависит от достижения баланса между этими четырьмя принципами. В нашем опыте эти принципы, если их тщательно соблюдать, оказались залогом успеха.

Зачем компаниям нужен современный стек данных?

Это зависит от того, как мы определяем "современный" и это продолжает меняться, иногда год, месяц и даже день. Мы должны учитывать современные наборы инструментов, разработанные с учетом меняющегося ландшафта данных. За последние несколько лет произошли существенные изменения в характере и объеме данных. Рост больших данных изменил среду данных: данные поступают из таких источников, как веб-сайты электронной коммерции, производственные базы данных и различные части вашего бизнеса. Эти данные меняются не только по объему, но и по самой своей природе.

Раньше данные были в основном структурированными, но сейчас неструктурированные данные играют значительную роль. Кроме того, увеличилась скорость, с которой данные генерируются и становятся доступными для использования. Учитывая эти изменения в данных, мы должны постоянно оценивать и адаптировать наш набор инструментов для эффективного решения этих развивающихся проблем с данными.

Современный стек данных разработан с учётом всех изменений в структурах и скорости передачи данных и хорошо подготовлен к адаптации к новым архитектурным шаблонам, появившимся за последние несколько лет. Поэтому, если вы хотите максимально эффективно использовать свои данные, вам необходимо рассмотреть возможность их модернизации. Это единственный способ справиться с новыми вызовами в сфере обработки данных.

Мы видели, что компании продолжают использовать существующие решения, которые кажутся эффективными. Крайне важно понимать, что данные сами по себе динамичны. Они постоянно развиваются, создавая новые проблемы и возможности. Существующие решения могут быть не готовы к адаптации к этим изменениям. Поэтому, чтобы полностью раскрыть потенциал своих данных, компаниям необходимо принять концепцию модернизации своего стека данных. Речь не о том, чтобы ломать то, что работает, а о том, чтобы оставаться гибкими и реагировать на меняющуюся природу данных. Постоянно оценивая и интегрируя достижения в области технологий обработки данных, компании могут оставаться конкурентоспособными и принимать обоснованные решения в мире, где всё большее влияние оказывают данные.

Какие текущие проблемы управления данными наблюдаются в отрасли?

1. Скорость передачи данных и интеграция

Одна из больших проблем, с которыми мы сталкиваемся сегодня, — это огромный объем данных, поступающих из различных приложений. Если вы возьмете любую типичную ИТ-организацию, она постоянно сталкивается с новыми приложениями — десятками, а иногда даже сотнями каждый год, особенно в организациях среднего размера.

Теперь все эти приложения генерируют данные, и эти данные содержат ценную информацию. Основной задачей здесь является возможность быстрой интеграции этих новых источников данных в существующие конвейеры данных и консолидации их в единое представление. Скорость, с которой организации могут адаптироваться и использовать эти новые потоки данных, является самой большой проблемой, которую мы видим.

2. Различные форматы данных

Другая серьезная проблема связана с природой самих данных, в частности с растущей распространенностью неструктурированных данных. Конечно, в случае с неструктурированными данными существуют разные точки зрения на то, как с ними обращаться.

Организации должны решить, хранить ли эти данные непосредственно в озерах данных для последующего использования или извлечь и преобразовать их в более структурированный формат для немедленного использования. Проблема обработки неструктурированных данных остается, и мы видим, что она затрагивает даже компании среднего и малого бизнеса. Поэтому разработка эффективных стратегий обработки неструктурированных данных имеет важное значение.

3. Публикация и обмен данными

Хотя интеграция и консолидация данных имеют решающее значение, не менее важна возможность эффективного обмена данными. Организациям необходимы механизмы публикации и распространения данных среди внутренних отделов, сторонних поставщиков, партнеров и других заинтересованных сторон. Эта задача выходит за рамки простого обеспечения доступности данных; это предполагает обеспечение безопасности данных, конфиденциальности и соблюдение правил. Поскольку обмен данными становится необходимостью для предприятий любого размера, технологии и продукты в этой области быстро развиваются, чтобы удовлетворить спрос.

Какими способами Astera интегрировала искусственный интеллект в рабочий процесс клиентов?

Мы рассматриваем ИИ, пересекающийся с управлением данными, с двух разных точек зрения.

1. Повышение удобства использования с помощью генеративного искусственного интеллекта

Наша глубокая приверженность удобству использования — краеугольный камень нашей философии разработки продуктов. За последние 12–13 лет мы заслужили репутацию создателей продуктов с коротким сроком обучения, доступных даже нетехническим пользователям. Даже после небольшого обучения пользователи смогут эффективно использовать наши продукты для решения важных задач с данными.

С внедрением генеративного искусственного интеллекта Astera вывела удобство использования на новый уровень. Мы использовали генеративный искусственный интеллект для создания пользовательского интерфейса, который позволяет клиентам взаимодействовать с продуктом, используя команды на естественном языке. Этот интерфейс, управляемый искусственным интеллектом, упрощает задачи настройки, делая его более интуитивно понятным и эффективным для пользователей.

Более того, Astera интегрировала автоматизацию на базе искусственного интеллекта для решения задач, которые раньше требовали нескольких часов ручной работы, особенно при настройке продуктов управления данными. Самым большим фактором затрат при создании решения для управления данными была не просто покупка продукта, а время и усилия, затраченные на его настройку. Мы попытались решить эту проблему с помощью ИИ. Такой подход существенно сокращает время и ресурсы, традиционно затрачиваемые на настройку продукта.

Например, продукт компании Astera, ОтчетМайнер, упрощает извлечение данных из неструктурированных документов, позволяя пользователям создавать шаблоны извлечения на основе правил. Теперь ИИ может сгенерировать исходный шаблон за считанные секунды — задача, которая раньше занимала у обычного пользователя два-три часа. Первая версия шаблона, созданного искусственным интеллектом, возможно, не идеальна, но она справляется примерно с 90% рабочей нагрузки, позволяя пользователям быстро вносить изменения и выполнять задачу за считанные минуты, а не часы. Этот подход — лишь один пример того, как Astera использует ИИ для повышения удобства использования своих продуктов.

Мы делаем аналогичные вещи во всем нашем стеке данных, где мы значительно повышаем удобство использования благодаря искусственному интеллекту.

2. Функциональность ИИ как набор инструментов

Astera предлагает унифицированный стек данных, охватывающий различные аспекты управления данными, включая прием, преобразование, качество данных, хранение данных, API и публикацию данных. Компания осознает важность предоставления пользователям функциональности ИИ как универсального инструментария. С помощью этого инструментария клиенты Astera могут получить доступ к ИИ в различных областях науки о данных: от создания и развертывания моделей машинного обучения до выполнения операций машинного обучения (ML Ops). Astera также поддерживает использование моделей с открытым исходным кодом, включая большие языковые модели (LLM), и упрощает тонкую настройку для конкретных сценариев использования.

Расширенные функциональные возможности ИИ позволяют пользователям Astera использовать ИИ для различных задач, связанных с данными, включая развертывание моделей машинного обучения, реализацию операций машинного обучения и тонкую настройку моделей с открытым исходным кодом. Кроме того, Astera постоянно работает над расширением поддержки ИИ, охватывая такие области, как векторные базы данных, поиск по сходству, встраивание и многое другое.

Каковы лучшие практики использования моделей искусственного интеллекта и машинного обучения в управлении данными для крупных компаний?

1. Оставайтесь в авангарде разработок в области искусственного интеллекта и машинного обучения

Сфера больших языковых моделей стремительно развивается. Чтобы добиться конкурентного преимущества, крупным компаниям следует быть в курсе последних достижений. Например, компания Astera была одним из первых, кто внедрил генеративный ИИ, используя такие модели, как OpenAI и LAMA. Постоянный мониторинг новых технологий гарантирует, что вы будете готовы к их эффективному использованию.

2. Экспериментируйте с несколькими моделями и конфигурациями.

Используя тонкую настройку LLMS, мы смогли развернуть модели небольших размеров, например, с 8–13 миллиардами параметров, и развернуть их локально. Это то, что нам очень хорошо помогло, и мы рекомендуем вместо того, чтобы просто использовать одно или другое, опробовать разные базовые модели и разные конфигурации и посмотреть, какая из них подойдет вам.

Большие языковые модели бывают разных видов, каждая из которых имеет свои уникальные возможности. Создайте конфигурацию, которая позволит вам выбирать из широкого спектра вариантов, отражая то, что делают разработчики и специалисты по обработке данных в своих исследованиях данных.

Чтобы расширить возможности пользователей, мы создали систему конфигурации, предлагающую широкий набор опций, аналогичных тем, с которыми сталкиваются разработчики и специалисты по анализу данных при работе с библиотеками с открытым исходным кодом в своих проектах, ориентированных на данные. Наша цель состояла в том, чтобы легко интегрировать эти опции в наш продукт, обеспечив динамичный и адаптивный интерфейс для пользователей.

3. Отдавайте приоритет локальному развертыванию над API

При работе с продуктами, ориентированными на данные, сокращение задержек имеет первостепенное значение. Использование исключительно API для доступа к моделям искусственного интеллекта и машинного обучения может привести к неприемлемым задержкам, особенно при обработке больших объемов данных. Целесообразно отдать приоритет локальному развертыванию точно настроенных моделей, предназначенных для вашего конкретного сценария. Этот подход может значительно улучшить время отклика и общую производительность.

Почему Astera превосходит конкурирующие платформы?

Решения Astera имеют интуитивно понятный визуальный интерфейс без кода, а также повышенное удобство использования на базе искусственного интеллекта, что позволяет легко выполнять сложные процессы обработки данных для всех пользователей, независимо от их технических способностей.
Функции автоматизации нашего стека данных сокращают повторяемые ручные задачи и экономят время и ресурсы для разработки.
Наша унифицированная платформа может помочь пользователям выполнять комплексные процессы обработки данных без переключения решений. Это исключает затраты на обучение и управление несколькими разрозненными системами.

Спасибо за отличное интервью, читатели, которые хотят узнать больше, должны посетить Astera Software.

Похожие темы:астера хранилище данных Интервью

Антуан Тардиф, генеральный директор и основатель Unite.AI

Антуан — дальновидный лидер и партнер-основатель Unite.AI, движимый непоколебимой страстью к формированию и продвижению будущего ИИ и робототехники. Серийный предприниматель, он считает, что ИИ будет таким же разрушительным для общества, как электричество, и его часто ловят на том, что он восторженно отзывается о потенциале разрушительных технологий и AGI.

футурист, он посвятил себя изучению того, как эти инновации изменят наш мир. Кроме того, он является основателем Ценные бумаги.io, платформа, ориентированная на инвестиции в передовые технологии, которые меняют будущее и преобразуют целые секторы.

Unite.ИИ

Джей Мишра, главный операционный директор Astera Software – серия интервью

Вам может понравиться