Connect with us

Команды данных умерли, да здравствуют команды данных

Лидеры мнений

Команды данных умерли, да здравствуют команды данных

mm

Да, заголовок кликбейтный и провокационный, но как технический директор с многолетним опытом в области данных, я стал свидетелем трансформации, которая оправдывает драму. Традиционная «команда данных» – бэк-офисная команда, занимающаяся отчетами и панелями управления – фактически умерла. На ее месте появляется новый вид команды данных: команда, ориентированная на ИИ, с прямым влиянием на доход. Они больше не являются центром затрат, а генерируют прибыль.

Путешествие от бизнес-интеллекта к машинному обучению

Не так давно команды данных были синонимом бизнес-интеллекта (BI). Мы были историками компании данных, живущими в SQL и электронных таблицах, задачей которых было ответить на вопрос «Что произошло в прошлом квартале?» Когда появились технологии больших данных, такие как Hadoop, и термин «ученый-дата» стал новой модной работой, команды данных эволюционировали. К середине 2010-х годов мы делали больше, чем просто отчеты; мы занимались визуализацией данных и интерактивными аналитиками, производя динамические панели управления для каждого отдела. Работа заключалась в обработке данных, смешивании наборов данных из разных источников и форм, и попытках понять знания домена.

Затем в конце 2010-х годов наступила эра машинного обучения. Команды данных начали нанимать ученых-дата для построения прогностических моделей и открытия знаний в огромных наборах данных. Мы перешли от описания прошлого к предсказанию будущего: модели оттока, системы рекомендаций, прогнозы спроса – назовите, что угодно. Но даже тогда наши результаты были слайд-шоу и знаниями, а не живыми продуктами. Мы функционировали как внутренний сервисный бюро, консультируя бизнес через анализ. Другими словами, мы были центрами затрат – ценными, да, но на шаг удаленные от основного продукта и дохода.

В лучших случаях команды машинного обучения были распределены в отдельные подразделения или встроены в группы продукта, чтобы их модели и выводы могли быть полностью интегрированы в платформы. Великий разрыв привел к многочисленным провальным проектам, потоптанным инвестициям и потерянным возможностям.

GenAI: От функции поддержки к центру прибыли

Затем появился GenAI, и все изменилось. Выпуск мощных крупномасштабных языковых моделей, таких как семейство GPT и открытые варианты, такие как Llama, перевернул ландшафт практически за одну ночь. Внезапно команды данных не только анализировали бизнес, но и стали неотъемлемой частью строительства продуктов и опыта ИИ. Когда вы успешно интегрируете LLM в приложение, обращенное к клиенту, или во внутренний рабочий процесс, вы больше не просто информируете бизнес; вы управляете им. Хорошо реализованная система GenAI может автоматизировать поддержку клиентов, генерировать маркетинговый контент, персонализировать пользовательский опыт или даже предоставлять данные, необходимые для информирования и обучения возникающих агентских систем ИИ. Эти возможности напрямую влияют на потоки доходов. По сути, продукт команды данных сместился от слайд-шоу PowerPoint к живым приложениям, работающим на ИИ.

Команды GenAI начались с групп инноваций, доставляющих доказательства концепции, которые генерировали «фактор удивления». И вскоре каждый стал инженером ИИ, распространяя тень ИТ по всей организации.

Команды данных вскоре обнаружили себя перед новым вопросом: «Когда вы станете центром прибыли?» Когда инженеры ИИ начали создавать удивительные инструменты, стало ясно, что время было готово слить две команды: те, кто контролировал данные, и те, кто строил приложения.

Рассмотрим розничную компанию, которая развертывает чат-бот GenAI для обработки запросов продаж, или банк, который запускает персонализированного инвестиционного советника, работающего на ИИ. Это не традиционные проекты ИТ – это цифровые продукты, создающие ценность для клиентов и генерирующие доход. Однако, чтобы создать эти системы в масштабе, команды инженерии ИИ должны иметь возможность получить доступ и операционализировать данные, которые традиционные команды подготовили.

Руководители заметили. Ожидания от команд данных теперь заоблачны, с советами и генеральными директорами, смотрящими на нас, чтобы мы доставили следующий вектор роста, движимый ИИ. Мы перешли от того, что были аналитиками, работающими за кулисами, к инноваторам первого плана. Это захватывающее положение, но оно сопровождается интенсивным давлением, чтобы доставить результаты в масштабе.

От исследования к продукту – односторонняя дверь

Сдвиг от исследовательского анализа к ориентированному на продукт ИИ глубокий и необратимый. Почему необратимый? Потому что влияние GenAI на бизнес оказывается слишком великим, чтобы вернуть его обратно в качестве игрушки Р&D. Согласно недавнему глобальному опросу, 96% лидеров ИТ теперь интегрировали ИИ в свои основные процессы – по сравнению с 88% всего год назад. Другими словами, почти каждое предприятие перешло от экспериментов с ИИ к его внедрению в критически важные рабочие процессы. Как только вы пересекаете этот порог, где ИИ доставляет ценность в производстве, нет возврата.

Этот новый фокус ИИ меняет темп и настроение команд данных. В прошлом у нас была роскошь долгих проектов открытия и открытого анализа. Сегодня, если мы строим функцию ИИ, она должна быть готова к производству, соответствовать требованиям и быть надежной – как любой продукт, обращенный к клиенту. Мы вошли в то, что некоторые называют «Автономной эпохой» науки о данных. Вопрос, руководящий нашей работой, больше не «какие знания мы можем открыть?», а «какую интеллектуальную систему мы можем построить, которая действует на основе знаний в реальном времени?»

Системы GenAI не просто отвечают на вопросы; они начинают принимать решения. Это односторонняя дверь: после того, как вы испытаете этот вид автономии и влияния, компании не согласятся на статические отчеты и ручное принятие решений. Более чем когда-либо, команды данных должны быть ориентированы на заинтересованные стороны и продукт.

Твердая правда: Почему большинство инициатив GenAI терпят неудачу

Среди всего волнения есть трезвая реальность: большинство инициатив GenAI терпят неудачу. Оказывается, что успешное развертывание GenAI чрезвычайно сложно. Недавнее исследование MIT показало, что 95% пилотных проектов GenAI в предприятиях никогда не доставляют измеримой отдачи от инвестиций. Только около 5% пилотных проектов ИИ на самом деле достигают быстрых доходов или значимого бизнес-влияния. Это не из-за отсутствия потенциала – это из-за сложности правильного выполнения ИИ.

Раскопав причины неудач, исследование MIT рисует четкую картину. Многие проекты спотыкаются, потому что «гипер над работой» – команды преследуют эффектные демонстрационные случаи использования вместо того, чтобы инвестировать в скучные основы интеграции, проверки и мониторинга. Другие терпят неудачу из-за классического синдрома «мусор на входе, мусор на выходе» – плохое качество данных и изолированные конвейеры данных обрекают проект на провал еще до того, как ИИ сможет сделать свою работу. Часто это не модель ИИ, которая ошибочна, это окружающая среда. Как исследователи выразили это, GenAI не терпит неудачу в лаборатории; она терпит неудачу в предприятии, когда сталкивается с неясными целями, плохими данными и организационной инерцией. На практике большинство пилотных проектов ИИ застревают на стадии концепции и никогда не переходят к полной производственной реализации.

Эта реальность является ценным уроком. Она говорит нам, что, хотя команды данных теперь находятся в центре внимания, большинство из них борются, чтобы оправдать возросшие ожидания. Чтобы GenAI преуспел в масштабе, мы должны преодолеть значительно более высокую планку, чем мы делали в старые дни BI.

За пределами умных запросов: Данные, управление и инфраструктура имеют значение

Что отличает 5% проектов ИИ, которые процветают, от 95%, которые терпят неудачу? В моем опыте (и как подтверждает исследование), победители фокусируются на основных возможностях – данные, управление и инфраструктура. GenAI не является магией; это построено на данных. Без высококачественных, хорошо управляемых конвейеров данных, питающих ваши модели, даже лучший ИИ будет производить непредсказуемые результаты. Summit Partners выразили это хорошо в недавнем анализе: «успех любой системы или процесса, использующего ИИ, зависит от качества, структуры и доступности данных, которые его питают».

В практическом смысле это означает, что организации должны удвоить усилия по архитектуре данных и управлению, когда они принимают GenAI. У вас есть унифицированные, доступные хранилища данных, из которых ваш ИИ может черпать (и я имею в виду все хранилища данных, включая центры данных, гипермасштабные системы, системы SaaS третьих сторон и т. д.)? Эти данные очищены, отобраны и соответствуют требованиям регулирования? Есть ли четкая генеалогия данных и аудиторская проверка (чтобы вы могли доверять выводам ИИ и знать, как они были получены)? Эти вопросы теперь находятся на переднем плане.

GenAI заставляет компании наконец-то привести свой дом данных в порядок.

Управление также приобрело новое значение. Когда модель ИИ может потенциально сгенерировать неправильный ответ (или оскорбительный), надежное управление не является необязательным – оно обязательно. Контроли, такие как версионирование, проверка предвзятости, обзор человека в цикле и строгие меры безопасности вокруг конфиденциальных входных данных, являются необходимыми. Без надлежащего управления, обучения и четко определенных целей даже сильный инструмент ИИ будет бороться за то, чтобы получить признание в бизнесе.

И не забудем про инфраструктуру. Развертывание GenAI в масштабе требует значительной вычислительной мощности и тщательной инженерии. Модели необходимо обслуживать в реальном времени, возможно, через миллионы запросов с низкой задержкой. Они часто требуют GPU или специализированного оборудования, а также постоянного мониторинга, хранения и управления жизненным циклом. Короче говоря, вам нужна индустриальная инфраструктура ИИ, которая является безопасной, масштабируемой и устойчивой. Это то место, где появляется концепция Private AI как框, объединяющий инфраструктуру с данными и управлением. Private AI относится к разработке ИИ в контролируемой и безопасной среде, гарантирующей безопасность данных и соответствие требованиям.

Дно линии заключается в том, что успех GenAI зависит от гармонии трех столпов: данные, управление и инфраструктура. Без одного вы рискуете присоединиться к 95% проектов, которые никогда не перейдут за пределы демонстрационной стадии.

Почему инженеры ИИ не могут сделать это в одиночку

Учитывая эти требования, rõчно, что просто нанять几个 талантливых инженеров ИИ не является серебряной пулей. Мы выучили этот урок за последние несколько лет в отрасли данных. В ранние дни бума науки о данных компании пытались найти «единорогов»-ученых-дата, которые могли бы сделать все – построить модели, написать код, обработать данные и развернуть. Этот миф с тех пор был развеян. Как один ветеран-ученый-дата пошутил, «модель, сидящая в блокноте, на самом деле ничего не делает для бизнеса». Вам нужно встроить эту модель в приложение или процесс, чтобы она создала ценность. И сделать это требует командных усилий, охватывающих несколько навыков.

В конце 2010-х годов мы наблюдали, как команды данных диверсифицировались в различные роли: инженеры-дата начали строить прочные конвейеры, инженеры машинного обучения фокусировались на производстве моделей, инженеры-аналитики управляли аналитическим слоем и т. д.

Сегодня GenAI повышает планку еще выше. Да, вам нужны специалисты ИИ (инженеры запросов, тонкие настройщики LLM и т. д.), но эти специалисты столкнутся с препятствием, если у них нет зрелых конвейеров данных, рамок управления и безопасных платформ для работы. Инженер ИИ может прототипировать отличную языковую модель в песочнице, но превращение ее в продукт, используемый тысячами или миллионами, требует сотрудничества с командами безопасности, офицерами соответствия, архитекторами данных, инженерами надежности сайта и многими другими.

ИИ – это командный спорт. Это заманчиво думать, что вы можете вставить модель государственного уровня в свой бизнес и внезапно иметь предприятие, движимое ИИ. Компании, которые преуспевают в ИИ, – это те, которые построили межфункциональные команды или «фабрики ИИ», которые объединяют все эти части вместе. Их команды данных фактически эволюционировали в команды полного стека ИИ-продукта, сочетая данные, моделирование, инженерию и эксплуатацию. Они строят и развертывают свои инструменты в данных, продукт-ориентированном виде, с генерацией ценности, встроенной в каждый KPI.

Следующее поколение команд данных

Итак, что ждет будущее для новой «команды данных»? Вот взгляд на то, что ждет этих команд в ближайшие годы:

  • Меньше ручного ETL/ELT: Скучная обработка данных уменьшится. С более автоматизированными конвейерами данных и поддержкой ИИ команды не будут тратить половину своего времени на очистку и перемещение данных. Грубая работа по подготовке данных будет все больше обрабатываться интеллектуальными системами, позволяя людям сосредоточиться на более высоком уровне проектирования и контроля качества.
  • Меньше панелей управления: Эра бесконечной настройки фильтров панелей управления увядает. ИИ будет способствовать более естественному языковому запросу и динамической доставке знаний. Вместо предварительно построенных панелей управления для каждого вопроса пользователи будут получать разговорные ответы от ИИ (с прикрепленными исходными данными). Команды данных будут тратить меньше времени на разработку статических отчетов и больше времени на обучение ИИ, чтобы генерировать знания на лету.
  • Больше разработки ИИ-родных продуктов: Команды данных будут в центре инноваций продукта. Будь то разработка нового функционала ИИ, обращенного к клиенту, или внутреннего инструмента ИИ, оптимизирующего операции, эти команды будут действовать как команды продукта. Они будут использовать практики разработки программного обеспечения, быстрое прототипирование, тестирование A/B и проектирование пользовательского опыта – не только анализ данных. Каждая команда данных фактически станет командой ИИ-продукта, доставляющей прямую бизнес-ценность.
  • Автономные агенты на подъеме: В не слишком отдаленном будущем команды данных будут развертывать автономные агенты ИИ, чтобы обработать рутинные решения и задачи. Вместо того, чтобы просто предсказывать результаты, эти агенты будут уполномочены принимать определенные действия (с надзором). Представьте себе агента ИИ-операций, который может обнаружить аномалию и автоматически открыть билет на устранение неполадок, или агента ИИ-продаж, который настраивает цены электронной коммерции в реальном времени. Команды данных будут отвечать за строительство и управление этими агентами, продвигая границы того, что может достичь автоматизация.

В свете этих изменений можно сказать, что «команды данных, как мы знали их, умерли». Гуру электронных таблиц и сантехники панелей управления уступили место чему-то новому: командам, ориентированным на ИИ, которые свободно говорят на языках данных, кода и бизнес-стратегии. Но далеко от того, чтобы быть некрологом, это празднование. Новое поколение команд данных только начинается, и они более ценны, чем когда-либо

Итак, помните, инженер данных умер, да здравствует инженер данных! Команды данных, как мы знали их, ушли, но да здравствуют новые команды данных – пусть они царствуют в этом мире, движимом ИИ, с проницательностью, ответственностью и дерзостью.

Sergio Gago является техническим директором Cloudera, имея более 20 лет опыта в области ИИ/МЛ, квантовых вычислений и архитектур, основанных на данных. Ранее он занимал должность управляющего директора по ИИ/МЛ и квантовым вычислениям в Moody’s Analytics, а также занимал должности технического директора в Rakuten, Qapacity и Zinio. Sergio является сильным сторонником доверенной инфраструктуры данных, считая, что ИИ к 2030 году эволюционирует в операционную систему предприятия.