заглушки Джей Мишра, главный операционный директор Astera Software – Серия интервью – Unite.AI
Свяжитесь с нами:

Интервью

Джей Мишра, главный операционный директор Astera Software – серия интервью

mm
обновленный on

Джей Мишра — главный операционный директор (COO) в Astera Software, быстрорастущего поставщика готовых корпоративных решений для обработки данных. Они помогают бизнес-пользователям преодолеть разрыв между данными и аналитической информацией с помощью набора удобных, но высокопроизводительных решений для извлечения данных, обеспечения качества данных, интеграции данных, хранения данных и электронного обмена данными, которые используются как средними компаниями, так и компаниями из списка Fortune 500. в различных отраслях.

Что изначально привлекло вас в информатике?

У меня всегда была глубокая страсть к математике, и мой путь в информатику стал естественным продолжением этой страсти. Мое высшее образование было по математике и информатике, и меня очаровал логический переход от мира математики к сфере информатики. Что особенно привлекло мое внимание, так это сложная работа алгоритмов и передовые алгоритмические процессы, которые побудили меня специализироваться на алгоритмах во время учебы на степень магистра в области компьютерных наук. С тех пор моя связь с информатикой остается прочной, и я постоянно стремлюсь быть в курсе последних событий в этой области.

В настоящее время вы являетесь главным операционным директором Astera. Не могли бы вы рассказать нам, в чем заключается ваша повседневная роль?

Моя роль как главного операционного директора Astera многогранна и отражает динамичный характер нашей компании. Я работаю в Astera с момента ее основания, и мои обязанности охватывали различные области организации. Это включает в себя все: от активного участия в разработке и кодировании наших продуктов до обеспечения соответствия наших функций меняющимся потребностям наших клиентов. Я тесно сотрудничаю с нашими клиентами, работая вместе с ними над совершенствованием наших решений. Моя роль выходит за рамки простой разработки продуктов и охватывает продажи и маркетинг, благодаря которым мы выводим наши предложения на рынок.

Поскольку мы находимся в фазе роста, я взял на себя дополнительные обязанности, в том числе контроль за нашими целями по доходам и стратегическое расширение нашего портфеля продуктов для выхода на новые рынки. По сути, я принимаю участие практически во всех аспектах нашей деятельности, гарантируя, что мы не только создаем исключительные продукты, но и успешно выводим их на рынок и достигаем наших бизнес-целей.

Что такое хранилище данных для читателей, незнакомых с этим термином?

Хранилище данных — это архитектурный шаблон, используемый для консолидации всех ваших корпоративных данных в централизованное хранилище, которое будет служить основой для создания различных типов аналитики, отчетов и информационных панелей, которые будут представлять истинную картину того, где находится ваш бизнес. есть, а также прогнозировать, как будет развиваться бизнес в будущем. Чтобы удовлетворить все эти потребности, вы определенным образом объединяете свои данные, и эта архитектура называется хранилищем данных.

На самом деле этот термин взят из реального склада, где ваша продукция хранится на организованных полках. Но когда вы приходите в мир данных, вы получаете данные из разных источников. Вы приносите свои данные из производства, своего веб-сайта, своих клиентов, продаж и маркетинга, финансов и отдела кадров. Вы объединяете все данные, помещаете их в одно место, и это будет называться хранилищем данных, и оно спроектировано определенным образом, чтобы отчетность, особенно на основе временной шкалы, была простой. Это основная цель хранилища данных.

Каковы некоторые из ключевых тенденций в хранении данных сегодня?

Хранилища данных значительно изменились за последние 20–25 лет. Примерно десять лет назад мы стали свидетелями появления автоматизированных хранилищ данных — смены парадигмы, которая ускорила процесс построения моделей данных и хранилищ данных. В последнее время автоматизация вышла на первый план. Он устраняет повторяющийся характер задач по хранению данных, оптимизируя процессы для экономии времени и ресурсов.

Наш продукт, Построитель хранилищ данных Astera, например, предлагает целостный подход к автоматизации хранилищ данных. Он охватывает все: от автоматизации конвейеров ETL (извлечение, преобразование, загрузка) и моделирования данных до автоматической загрузки данных в такие структуры, как звездообразные схемы или хранилища данных. Более того, он эффективно поддерживает эти структуры с помощью механизмов отслеживания измененных данных (CDC). Такая комплексная автоматизация стала ключевой тенденцией в сфере хранилищ данных.

Кроме того, самой последней тенденцией является слияние хранилищ данных и искусственного интеллекта (ИИ). В частности, генеративный искусственный интеллект поднял автоматизацию на новую высоту. Он не только автоматизирует задачи, но и помогает пользователям в принятии решений.

Конфигурация компонентов хранилища данных, конвейеров и точек принятия решений может управляться искусственным интеллектом, что делает хранилище данных более мощным и эффективным, чем когда-либо прежде. По сути, это автоматизация на стероидах, которая меняет ландшафт хранилищ данных. Пересечение искусственного интеллекта и хранилищ данных — это тенденция, которая имеет огромные перспективы на будущее.

Какие четыре фундаментальных принципа следует учитывать предприятиям при разработке хранилищ данных?

1. Определение четких целей

Очень важно начать с точного понимания того, что вам нужно от вашего хранилища данных. Избегайте распространенной ошибки сбора избыточного количества данных без четкой цели. Вместо этого определите конкретные цели, которых вы хотите достичь с помощью своего хранилища данных. Какие отчеты и идеи вам нужны? Сосредоточив внимание на своих целях, вы можете быть уверены, что вводите только те данные, которые имеют отношение к делу, а не накапливаете без разбора огромные объемы информации. Учитывая снижение затрат на хранение и вычислительную мощность, крайне важно использовать эти ресурсы разумно и этично.

2. Выбор правильного архитектурного шаблона

Архитектурные модели очень важны. Они решают, будет ли ваше решение по хранению данных успешным или нет. Существуют различные варианты: от хранилища данных в стиле Inmon до звездообразных схем Ральфа Кимбалла, а также более новые шаблоны, такие как Data Vault и подход одной большой таблицы, пропагандируемый поставщиками баз данных Columna. Не все шаблоны подойдут для каждого сценария.

В основном мы видим комбинацию звездообразной схемы, расположенной наверху хранилища данных. Таким образом, комбинация Data Vault и звездообразной схемы по-прежнему остается наиболее широко используемым шаблоном. Но, как я уже сказал, для каждого требования или каждого сценария будет свой ответ. Так что проконсультируйтесь с экспертами и посмотрите, какой архитектурный шаблон лучше всего подходит для вашего сценария.

3. Выбор правильных инструментов

Они очень важны и снова имеют огромное значение для времени и источников, необходимых для создания решения, а также для точности и качества вашего решения, которое определяется продуктами, которые вы собираетесь использовать для создания своего решения. хранилище данных и поддерживать его. Уделите много внимания возможностям продуктов и обратите внимание на продукты, которые способны удовлетворить большинство требований под одной крышей. Существуют определенные области, такие как ETL (извлечение, преобразование, загрузка), качество данных, моделирование данных, загрузка и публикация данных, которые играют важную роль. Если вы попытаетесь использовать несколько продуктов для каждой из этих областей, это будет сложно. Итак, посмотрите на продукты, которые можно использовать для приготовления большинства, если не всех, различных компонентов.

4. Ваша команда

И последнее, но не менее важное: команда людей, которую вы собираете для создания решения для хранилища данных, является наиболее важной частью. Мы рекомендуем привлечь кого-то с большим опытом работы с шаблонами архитектуры данных. С точки зрения состава команды, лучшим способом добиться этого являются межфункциональные команды, в которых есть как бизнес-пользователи, так и люди с некоторым опытом программирования или, по крайней мере, опытом работы с данными, а также тесное сотрудничество между вашими хранителями данных, людьми, которые отвечают за данные и, конечно же, за бизнес. Способствуя тесному сотрудничеству между этими различными аспектами вашей организации, вы можете создать сплоченную и эффективную команду, отвечающую за создание и поддержку вашего решения для хранения данных.

Успех в хранении данных зависит от достижения баланса между этими четырьмя принципами. В нашем опыте эти принципы, если их тщательно соблюдать, оказались залогом успеха.

Зачем компаниям нужен современный стек данных?

Это зависит от того, как мы определяем "современный" и это продолжает меняться, иногда год, месяц и даже день. Мы должны учитывать современные наборы инструментов, разработанные с учетом меняющегося ландшафта данных. За последние несколько лет произошли существенные изменения в характере и объеме данных. Рост больших данных изменил среду данных: данные поступают из таких источников, как веб-сайты электронной коммерции, производственные базы данных и различные части вашего бизнеса. Эти данные меняются не только по объему, но и по самой своей природе.

Раньше данные были в основном структурированными, но сейчас неструктурированные данные играют значительную роль. Кроме того, увеличилась скорость, с которой данные генерируются и становятся доступными для использования. Учитывая эти изменения в данных, мы должны постоянно оценивать и адаптировать наш набор инструментов для эффективного решения этих развивающихся проблем с данными.

Современный стек данных предназначен для обработки всех изменений в структурах и скорости передачи данных, и он хорошо приспособлен для адаптации к новым архитектурным шаблонам, которые развились за последние несколько лет. Поэтому, если вы хотите максимально эффективно использовать свои данные, вам следует подумать о модернизации своего стека данных. Это единственный способ справиться с новыми проблемами, связанными с данными.

Мы видели, что компании придерживаются существующих решений, которые кажутся работающими. Крайне важно признать, что данные сами по себе динамичны. Оно постоянно развивается, предлагая новые задачи и возможности. Существующие решения могут оказаться неспособными адаптироваться к этим изменениям. Поэтому, чтобы использовать весь потенциал своих данных, компании должны принять концепцию модернизации своего стека данных. Речь идет не о том, чтобы сломать то, что работает; речь идет о том, чтобы оставаться гибкими и оперативно реагировать на меняющуюся природу данных. Постоянно оценивая и интегрируя достижения в области информационных технологий, компании могут оставаться конкурентоспособными и принимать обоснованные решения в мире, который все больше ориентируется на данные.

Какие текущие проблемы управления данными наблюдаются в отрасли?

1. Скорость передачи данных и интеграция

Одна из больших проблем, с которыми мы сталкиваемся сегодня, — это огромный объем данных, поступающих из различных приложений. Если вы возьмете любую типичную ИТ-организацию, она постоянно сталкивается с новыми приложениями — десятками, а иногда даже сотнями каждый год, особенно в организациях среднего размера.

Теперь все эти приложения генерируют данные, и эти данные содержат ценную информацию. Основной задачей здесь является возможность быстрой интеграции этих новых источников данных в существующие конвейеры данных и консолидации их в единое представление. Скорость, с которой организации могут адаптироваться и использовать эти новые потоки данных, является самой большой проблемой, которую мы видим.

2. Различные форматы данных

Другая серьезная проблема связана с природой самих данных, в частности с растущей распространенностью неструктурированных данных. Конечно, в случае с неструктурированными данными существуют разные точки зрения на то, как с ними обращаться.

Организации должны решить, хранить ли эти данные непосредственно в озерах данных для последующего использования или извлечь и преобразовать их в более структурированный формат для немедленного использования. Проблема обработки неструктурированных данных остается, и мы видим, что она затрагивает даже компании среднего и малого бизнеса. Поэтому разработка эффективных стратегий обработки неструктурированных данных имеет важное значение.

3. Публикация и обмен данными

Хотя интеграция и консолидация данных имеют решающее значение, не менее важна возможность эффективного обмена данными. Организациям необходимы механизмы публикации и распространения данных среди внутренних отделов, сторонних поставщиков, партнеров и других заинтересованных сторон. Эта задача выходит за рамки простого обеспечения доступности данных; это предполагает обеспечение безопасности данных, конфиденциальности и соблюдение правил. Поскольку обмен данными становится необходимостью для предприятий любого размера, технологии и продукты в этой области быстро развиваются, чтобы удовлетворить спрос.

Какими способами Astera интегрировала искусственный интеллект в рабочий процесс клиентов?

Мы рассматриваем ИИ, пересекающийся с управлением данными, с двух разных точек зрения.

1. Повышение удобства использования с помощью генеративного искусственного интеллекта

Наша глубокая приверженность удобству использования является краеугольным камнем нашей философии разработки продуктов. За последние 12–13 лет мы завоевали прочную репутацию в области разработки продуктов, требующих короткого обучения, что делает их доступными даже для нетехнических пользователей. Пройдя лишь небольшое обучение, люди смогут эффективно использовать наши продукты для выполнения значимых задач со своими данными.

С внедрением генеративного искусственного интеллекта Astera вывела удобство использования на новый уровень. Мы использовали генеративный искусственный интеллект для создания пользовательского интерфейса, который позволяет клиентам взаимодействовать с продуктом, используя команды на естественном языке. Этот интерфейс, управляемый искусственным интеллектом, упрощает задачи настройки, делая его более интуитивно понятным и эффективным для пользователей.

Более того, Astera интегрировала автоматизацию на базе искусственного интеллекта для решения задач, которые раньше требовали нескольких часов ручной работы, особенно при настройке продуктов управления данными. Самым большим фактором затрат при создании решения для управления данными была не просто покупка продукта, а время и усилия, затраченные на его настройку. Мы попытались решить эту проблему с помощью ИИ. Такой подход существенно сокращает время и ресурсы, традиционно затрачиваемые на настройку продукта.

Например, продукт Astera. ОтчетМайнер, упрощает извлечение данных из неструктурированных документов, позволяя пользователям создавать шаблоны извлечения на основе правил. Теперь ИИ может сгенерировать исходный шаблон за считанные секунды — задача, которая раньше занимала у обычного пользователя два-три часа. Первая версия шаблона, созданного искусственным интеллектом, возможно, не идеальна, но она справляется примерно с 90% рабочей нагрузки, позволяя пользователям быстро вносить изменения и выполнять задачу за считанные минуты, а не часы. Этот подход — лишь один пример того, как Astera использует ИИ для повышения удобства использования своих продуктов.

Мы делаем аналогичные вещи во всем нашем стеке данных, где мы значительно повышаем удобство использования благодаря искусственному интеллекту.

2. Функциональность ИИ как набор инструментов

Astera предлагает унифицированный стек данных, который охватывает различные аспекты управления данными, включая прием, преобразование, качество данных, хранение данных, API и публикацию данных. Компания осознает важность предоставления функций искусственного интеллекта в качестве универсального набора инструментов для своих пользователей. С помощью этого набора инструментов клиенты Astera могут получить доступ к искусственному интеллекту по всему спектру обработки данных: от создания и развертывания моделей машинного обучения до управления операциями машинного обучения (операций машинного обучения). Astera также поддерживает использование моделей с открытым исходным кодом, включая модели больших языков (LLM), и облегчает тонкую настройку для конкретных случаев использования.

Эта более широкая функциональность искусственного интеллекта позволяет пользователям Astera использовать искусственный интеллект для различных задач, связанных с данными, включая развертывание моделей машинного обучения, реализацию операций машинного обучения и тонкую настройку моделей с открытым исходным кодом. Кроме того, Astera постоянно работает над расширением поддержки искусственного интеллекта, охватывая такие области, как векторные базы данных, поиск по сходству, встраивание и многое другое.

Каковы лучшие практики использования моделей искусственного интеллекта и машинного обучения в управлении данными для крупных компаний?

1. Оставайтесь в авангарде разработок в области искусственного интеллекта и машинного обучения

Область больших языковых моделей быстро развивается. Чтобы получить конкурентное преимущество, крупные компании должны быть в курсе последних достижений. Astera, например, была одной из первых, кто внедрил генеративный искусственный интеллект, используя такие модели, как OpenAI и LAMA. Постоянный мониторинг новых технологий гарантирует, что вы хорошо подготовлены к их эффективному использованию.

2. Экспериментируйте с несколькими моделями и конфигурациями.

Используя тонкую настройку LLMS, мы смогли развернуть модели небольших размеров, например, с 8–13 миллиардами параметров, и развернуть их локально. Это то, что нам очень хорошо помогло, и мы рекомендуем вместо того, чтобы просто использовать одно или другое, опробовать разные базовые модели и разные конфигурации и посмотреть, какая из них подойдет вам.

Большие языковые модели бывают разных видов, каждая из которых имеет свои уникальные возможности. Создайте конфигурацию, которая позволит вам выбирать из широкого спектра вариантов, отражая то, что делают разработчики и специалисты по обработке данных в своих исследованиях данных.

Чтобы расширить возможности пользователей, мы создали систему конфигурации, которая предлагает обширный набор опций, похожих на то, с чем сталкиваются разработчики и специалисты по обработке данных при работе с библиотеками с открытым исходным кодом в своих проектах, основанных на данных. Нашей целью было плавно интегрировать эти опции в наш продукт, обеспечивая пользователям динамичный и адаптируемый опыт.

3. Отдавайте приоритет локальному развертыванию над API

При работе с продуктами, ориентированными на данные, сокращение задержек имеет первостепенное значение. Использование исключительно API для доступа к моделям искусственного интеллекта и машинного обучения может привести к неприемлемым задержкам, особенно при обработке больших объемов данных. Целесообразно отдать приоритет локальному развертыванию точно настроенных моделей, предназначенных для вашего конкретного сценария. Этот подход может значительно улучшить время отклика и общую производительность.

Почему Astera превосходит конкурирующие платформы?

  • Решения Astera имеют интуитивно понятный визуальный интерфейс без кода, а также повышенное удобство использования на базе искусственного интеллекта, что позволяет легко выполнять сложные процессы обработки данных для всех пользователей, независимо от их технических способностей.
  • Функции автоматизации нашего стека данных сокращают повторяемые ручные задачи и экономят время и ресурсы для разработки.
  • Наша унифицированная платформа может помочь пользователям выполнять комплексные процессы обработки данных без переключения решений. Это исключает затраты на обучение и управление несколькими разрозненными системами.

Спасибо за отличное интервью, читатели, которые хотят узнать больше, должны посетить Astera Software.

Партнер-основатель unite.AI и член Технологический совет Форбс, Антуан - это футурист который увлечен будущим искусственного интеллекта и робототехники.

Он также является основателем Ценные бумаги.io, веб-сайт, посвященный инвестициям в прорывные технологии.