Искусственный интеллект

Повышайте эффективность ваших усилий по ML и AI с помощью преобразования данных – лидеры мнений

Published May 27, 2020

Updated April 5, 2026

David Langton

Чем больше разнообразие, скорость и объем данных, которые у нас есть, тем более осуществимым становится использование прогностической аналитики и моделирования для прогнозирования роста и определения областей возможностей и улучшения. Однако, чтобы получить максимальную пользу от средств отчетности, машинного обучения (ML) и искусственного интеллекта (AI), организация должна иметь доступ к данным из многих источников и обеспечить, чтобы данные были высокого качества и заслуживали доверия. Это часто является самым большим препятствием для преобразования больших данных в бизнес-стратегию.

Специалисты по данным тратят так много времени на сбор и проверку данных, чтобы подготовить их к использованию, что у них остается мало времени, чтобы сосредоточиться на своей основной цели: анализе данных и получении бизнес-ценности из них. Неудивительно, что 76 процентов специалистов по данным говорят, что подготовка данных является наименее приятной частью их работы. Кроме того, текущие усилия по подготовке данных, такие как заворачивание данных и традиционный ETL, требуют ручного труда от специалистов IT и не достаточно, чтобы справиться с масштабом и сложностью больших данных.

Компании, которые хотят использовать силу AI, должны отказаться от этих скучных и в основном ручных процессов, которые увеличивают риск получения результатов “мусор на входе, мусор на выходе”. Вместо этого им нужны процессы преобразования данных, которые извлекают сырые данные из нескольких источников и форматов, объединяют и нормализуют их, и добавляют ценность с помощью бизнес-логики и метрик, чтобы сделать их готовыми для аналитики. С помощью сложного преобразования данных они могут быть уверены, что модели AI/ML основаны на чистых, точных данных, которые обеспечивают достоверные результаты.

Использование силы облака с ELT

Лучшее место для подготовки и преобразования данных сегодня – это облачный склад данных (CDW), такой как Amazon Redshift, Google BigQuery, Microsoft Azure Synapse или Snowflake. Хотя традиционные подходы к хранилищу данных требуют, чтобы данные были извлечены и преобразованы до того, как они могут быть загружены, CDW использует масштабируемость и производительность облака для более быстрого поглощения и преобразования данных и делает возможным извлечение и загрузку данных из многих различных источников данных до их преобразования внутри CDW.

Идеально, модель ELT изначально перемещает данные в раздел CDW, зарезервированный для сырых данных. Оттуда CDW может использовать свои почти неограниченные вычислительные ресурсы, доступные для задач интеграции и преобразования данных, которые очищают, агрегируют, фильтруют и объединяют этапированные данные. Данные могут затем быть преобразованы в другую схему – хранилище данных или схему Star, например, оптимизируя данные для отчетности и аналитики

Подход ELT также позволяет вам реплицировать сырые данные внутри CDW для последующей подготовки и преобразования, когда и по мере необходимости. Это позволяет вам использовать средства бизнес-интеллекта, которые определяют схему при чтении и производят конкретные преобразования по требованию, эффективно позволяя вам преобразовать одни и те же данные несколькими способами, когда вы обнаруживаете новые способы их использования.

Ускорение моделей машинного обучения

Эти реальные примеры показывают, как две компании из разных отраслей используют преобразование данных в CDW для стимулирования инициатив AI.

Бутик-агентство по маркетингу и рекламе создало проприетарную платформу управления клиентами, чтобы помочь своим клиентам лучше определить, понять и мотивировать своих клиентов. Преобразуя данные внутри CDW, платформа быстро и легко интегрирует данные клиентов в режиме реального времени из различных каналов в 360-градусный вид клиента, который информирует модели AI/ML платформы для того, чтобы сделать взаимодействия с клиентами более последовательными, своевременными и персонализированными.

Глобальная логистическая компания, осуществляющая 100 миллионов доставок 37 миллионам уникальных клиентов в 72 странах, нуждается в огромных объемах данных, чтобы обеспечить свою повседневную деятельность. Принятие преобразования данных внутри CDW позволило компании развернуть 200 моделей машинного обучения за один год. Эти модели делают 500 000 прогнозов каждый день, что значительно улучшает эффективность и обеспечивает лучший сервис, который снизил входящие звонки в контакт-центр на 40 процентов.

Лучшие практики для начала

Компании, которые хотят поддержать свои инициативы AI/ML с помощью силы преобразования данных в облаке, должны понять свои конкретные случаи использования и потребности. Начиная с того, что вы хотите сделать с вашими данными – снизить расходы на топливо, оптимизировав маршруты доставки, повысить продажи, доставляя лучшие предложения агентам службы поддержки клиентов в режиме реального времени и т. д. – позволяет вам обратить вспять ваши процессы, чтобы вы могли определить, какие данные дадут соответствующие результаты.

Как только вы определите, какие данные вашему проекту AI/ML нужно для построения своих моделей, вам понадобится облачное решение ELT, которое сделает ваши данные пригодными для использования. Ищите решение, которое:

Является независимым от поставщика и может работать с вашим текущим технологическим стеком
Достаточно гибкое, чтобы масштабироваться вверх и вниз и адаптироваться, когда меняется ваш технологический стек
Может обрабатывать сложные преобразования данных из нескольких источников данных
Предлагает модель ценообразования “платите за то, что используете”, в которой вы платите только за то, что используете
Создано специально для вашего предпочитаемого CDW, чтобы вы могли полностью использовать функции CDW для запуска заданий быстрее и преобразования данных бесшовно.

Облачное решение для преобразования данных, которое удовлетворяет общим знаменателям всех CDW, может обеспечить последовательный опыт, но только то, которое позволяет использовать мощные дифференцирующие функции вашего выбранного CDW, может обеспечить высокую производительность, которая ускоряет время получения информации. Правильное решение позволит вам обеспечить ваши проекты AI/ML более чистыми, заслуживающими доверия данными из более источников за меньшее время – и генерировать более быстрые, надежные результаты, которые стимулируют ранее неосознанную бизнес-ценность и инновации.

David Langton

Дэвид Лэнгтон - опытный профессионал в области программного обеспечения с более чем 20-летним опытом создания награжденных технологий и продуктов. Дэвид в настоящее время занимает должность вице-президента по продукту в Matillion, поставщике решений для трансформации данных. До своей роли в Matillion он работал в качестве менеджера хранилища данных и подрядчика в финансовой отрасли.

Unite.AI

Повышайте эффективность ваших усилий по ML и AI с помощью преобразования данных – лидеры мнений

You may like