AI 101

Что такое ЭТЛ? (Извлечение, преобразование, загрузка) Методология и варианты использования

обновленный on 14 января 2023

ETL означает «извлечение, преобразование, загрузка». Это процесс, который объединяет данные из разных источников в единый репозиторий, чтобы их можно было обрабатывать, а затем анализировать, чтобы из них можно было извлечь полезную информацию. Эта полезная информация помогает компаниям принимать решения на основе данных и развиваться.

«Данные - это новая нефть».

Клайв Хамби, математик

Создание глобальных данных увеличилось в геометрической прогрессии, настолько, что, по данным Forbes, при нынешних темпах люди удваивают создание данных каждые два года. В результате современный стек данных эволюционировал. Витрины данных были преобразованы в хранилища данных, а когда этого оказалось недостаточно, были созданы озера данных. Хотя во всех этих различных инфраструктурах один процесс оставался одним и тем же — процесс ETL.

В этой статье мы рассмотрим методологию ETL, варианты ее использования, ее преимущества и то, как этот процесс помог сформировать современный ландшафт данных.

Методология ETL

ETL позволяет интегрировать данные из разных источников в одном месте, чтобы их можно было обрабатывать, анализировать и затем передавать заинтересованным сторонам бизнеса. Он обеспечивает целостность данных, которые будут использоваться для отчетности, анализа и прогнозирования с помощью моделей машинного обучения. Это трехэтапный процесс, который извлекает данные из нескольких источников, преобразует их, а затем загружает в инструменты бизнес-аналитики. Эти инструменты бизнес-аналитики затем используются предприятиями для принятия решений на основе данных.

Фаза извлечения

На этом этапе данные извлекаются из нескольких источников с использованием запросов SQL, кодов Python, СУБД (систем управления базами данных) или инструментов ETL. Наиболее распространенными источниками являются:

Программное обеспечение CRM (управление взаимоотношениями с клиентами)
Инструмент аналитики
Хранилище данных
База данных
Платформы облачного хранения
Инструменты продаж и маркетинга
мобильные приложения

Эти источники либо структурированы, либо неструктурированы, поэтому формат данных на данном этапе не является единым.

Фаза преобразования

На этапе преобразования извлеченные необработанные данные преобразуются и компилируются в формат, подходящий для целевой системы. Для этого необработанные данные подвергаются нескольким подпроцессам преобразования, таким как:

Очистка — устраняются несогласованные и отсутствующие данные.
Стандартизация — везде применяется единообразное форматирование.
Удаление дубликатов — удаляются избыточные данные.
Выявление выбросов — выбросы выявляются и нормализуются.
Сортировка — данные организованы таким образом, чтобы повысить эффективность.

Помимо переформатирования данных, существуют и другие причины необходимости преобразования данных. Нулевые значения, если они присутствуют в данных, должны быть удалены; кроме того, в данных часто присутствуют выбросы, которые негативно сказываются на анализе; их следует решать на этапе трансформации. Часто мы сталкиваемся с избыточными данными, которые не представляют ценности для бизнеса; такие данные удаляются на этапе преобразования, чтобы сэкономить место для хранения в системе. Это проблемы, которые решаются на этапе трансформации.

Фаза загрузки

После того, как необработанные данные извлечены и адаптированы с помощью процессов преобразования, они загружаются в целевую систему, которая обычно является либо хранилищем данных, либо озером данных. Есть два разных способа выполнить фазу загрузки.

Полная загрузка: все данные загружаются сразу в первый раз в целевой системе. Технически это менее сложно, но занимает больше времени. Это идеально в случае, когда размер данных не слишком велик.
Добавочная загрузка: Добавочная загрузка, как следует из названия, выполняется поэтапно. Он имеет две подкатегории.

Потоковая добавочная загрузка: данные загружаются с интервалами, обычно ежедневно. Этот вид загрузки лучше всего подходит для небольших объемов данных.
Пакетная добавочная загрузка: при пакетном типе добавочной загрузки данные загружаются пакетами с интервалом между двумя пакетами. Это идеально, когда данных слишком много. Это быстро, но технически сложнее.

Типы инструментов ETL

ETL выполняется двумя способами: ETL вручную или ETL без кода. В ручном ETL автоматизация практически отсутствует. Все кодируется командой, в которую входят специалист по данным, аналитик данных и инженер данных. Все конвейеры извлечения, преобразования и загрузки разработаны для всех наборов данных вручную. Все это приводит к огромной потере производительности и ресурсов.

Альтернативой является ETL без кода; эти инструменты обычно имеют функции перетаскивания. Эти инструменты полностью устраняют необходимость кодирования, что позволяет выполнять ETL даже нетехническим работникам. Благодаря интерактивному дизайну и инклюзивному подходу большинство компаний используют Informatica, Integrate.io, IBM Storage, Hadoop, Azure, Google Cloud Dataflow и Oracle Data Integrator для своих операций ETL.

В индустрии данных существует четыре типа инструментов ETL без кода.

Коммерческие инструменты ETL
Инструменты ETL с открытым исходным кодом
Пользовательские инструменты ETL
Облачные инструменты ETL

Лучшие практики для ETL

Существуют некоторые методы и протоколы, которым следует следовать, чтобы обеспечить оптимизированный конвейер ETL. Лучшие практики обсуждаются ниже:

Понимание контекста данных: следует правильно понимать, как собираются данные и что означают показатели. Это помогло бы определить, какие атрибуты являются избыточными и должны быть удалены.
Контрольные точки восстановления: в случае нарушения конвейера и утечки данных необходимо иметь протоколы для восстановления утечек данных.
Журнал ETL: Должен вестись журнал ETL, в котором регистрируются все без исключения процессы, выполняемые с данными до, во время и после цикла ETL.
Аудит: проверка данных после определенного интервала, чтобы убедиться, что данные находятся в том состоянии, в котором вы хотели, чтобы они были.
Небольшой размер данных. Размер баз данных и их таблиц должен быть небольшим, чтобы данные распределялись больше по горизонтали, чем по вертикали. Эта практика обеспечивает повышение скорости обработки и, как следствие, ускоряет процесс ETL.
Создание уровня кэша: Уровень кэша — это уровень высокоскоростного хранилища данных, который хранит недавно использованные данные на диске, где к ним можно быстро получить доступ. Эта практика помогает сэкономить время, когда кэшированные данные запрашиваются системой.
Параллельная обработка: рассмотрение ETL как последовательного процесса отнимает у бизнеса большую часть времени и ресурсов, что делает весь процесс крайне неэффективным. Решение состоит в том, чтобы выполнять параллельную обработку и несколько интеграций ETL одновременно.

Варианты использования ETL

ETL делает операции более плавными и эффективными для бизнеса несколькими способами, но мы обсудим здесь три наиболее популярных варианта использования.

Загрузка в облако:

Локальное хранение данных — это дорогостоящий вариант, из-за которого предприятия тратят ресурсы на покупку, содержание, запуск и обслуживание серверов. Чтобы избежать всех этих хлопот, предприятия могут напрямую загружать данные в облако. Это экономит ценные ресурсы и время, которые затем можно инвестировать в улучшение других аспектов процесса ETL.

Объединение данных из разных источников:

Данные часто разбросаны по разным системам в организации. Объединение данных из разных источников в одном месте, чтобы их можно было обработать, а затем проанализировать и передать заинтересованным сторонам позже, осуществляется с помощью процесса ETL. ETL гарантирует, что данные из разных источников форматируются одинаково, в то время как целостность данных остается неизменной.

Прогнозное моделирование:

Принятие решений на основе данных является краеугольным камнем успешной бизнес-стратегии. ETL помогает компаниям извлекать данные, преобразовывать их, а затем загружать в базы данных, связанные с моделями машинного обучения. Эти модели машинного обучения анализируют данные после того, как они прошли процесс ETL, а затем делают прогнозы на основе этих данных.

Будущее ETL в ландшафте данных

ETL, безусловно, играет роль основы для архитектуры данных; останется ли он таким или нет, еще предстоит увидеть, потому что с введением Zero ETL в технологической отрасли неизбежны большие изменения. С Zero ETL отпадет необходимость в традиционных процессах извлечения, преобразования и загрузки, но данные будут напрямую передаваться в целевую систему практически в режиме реального времени.

В экосистеме данных наблюдается множество новых тенденций. Проверить объединить.ай чтобы расширить свои знания о технологических тенденциях.