- Терминология (от А до D)
- Управление возможностями ИИ
- AIOps
- Альбументации
- Производительность активов
- автоассоциатор
- обратное распространение
- Теорема Байеса
- Big Data
- Чат-бот: руководство для начинающих
- Вычислительное мышление
- Компьютерное зрение
- Матрица путаницы
- Сверточные нейронные сети
- Информационная безопасность
- Фабрика данных
- Рассказ данных
- Наука данных
- Хранилище данных
- Древо решений
- Deepfakes
- Глубокое обучение
- Глубокое обучение
- Девопс
- DevSecOps
- Диффузионные модели
- Цифровой Твин
- Уменьшение размерности
- Терминология (от E до K)
- Edge AI
- Эмоция AI
- Обучение ансамблю
- Этические Хакинг
- ETL
- Объясняемый ИИ
- Федеративное обучение
- ФинОпс
- Генеративный ИИ
- Генеративная Состязательная Сеть
- Генеративное против дискриминационного
- Повышение градиента
- Градиентный спуск
- Небольшое обучение
- Классификация изображений
- ИТ-операции (ITOps)
- Автоматизация инцидентов
- Инжиниринг влияния
- Кластеризация K-сред
- K-Ближайшие соседи
- Терминология (от L до Q)
- Терминология (от R до Z)
- Усиление обучения
- Ответственный AI
- РЛХФ
- Роботизированная автоматизация процессов
- Структурированный против неструктурированного
- Анализ настроений
- Контролируемый против неконтролируемого
- Поддержка векторных машин
- Синтетические данные
- Синтетические носители
- Классификация текста
- КрошечныйML
- Передача обучения
- Трансформаторные нейронные сети
- Тест Тьюринга
- Поиск сходства векторов
AI 101
Что такое ЭТЛ? (Извлечение, преобразование, загрузка) Методология и варианты использования
Оглавление
ETL означает «извлечение, преобразование, загрузка». Это процесс, который объединяет данные из разных источников в единый репозиторий, чтобы их можно было обрабатывать, а затем анализировать, чтобы из них можно было извлечь полезную информацию. Эта полезная информация помогает компаниям принимать решения на основе данных и развиваться.
«Данные - это новая нефть».
Клайв Хамби, математик
Создание глобальных данных увеличилось в геометрической прогрессии, настолько, что, по данным Forbes, при нынешних темпах люди удваивают создание данных каждые два года. В результате современный стек данных эволюционировал. Витрины данных были преобразованы в хранилища данных, а когда этого оказалось недостаточно, были созданы озера данных. Хотя во всех этих различных инфраструктурах один процесс оставался одним и тем же — процесс ETL.
В этой статье мы рассмотрим методологию ETL, варианты ее использования, ее преимущества и то, как этот процесс помог сформировать современный ландшафт данных.
Методология ETL
ETL позволяет интегрировать данные из разных источников в одном месте, чтобы их можно было обрабатывать, анализировать и затем передавать заинтересованным сторонам бизнеса. Он обеспечивает целостность данных, которые будут использоваться для отчетности, анализа и прогнозирования с помощью моделей машинного обучения. Это трехэтапный процесс, который извлекает данные из нескольких источников, преобразует их, а затем загружает в инструменты бизнес-аналитики. Эти инструменты бизнес-аналитики затем используются предприятиями для принятия решений на основе данных.
Фаза извлечения
На этом этапе данные извлекаются из нескольких источников с использованием запросов SQL, кодов Python, СУБД (систем управления базами данных) или инструментов ETL. Наиболее распространенными источниками являются:
- Программное обеспечение CRM (управление взаимоотношениями с клиентами)
- Инструмент аналитики
- Хранилище данных
- База данных
- Платформы облачного хранения
- Инструменты продаж и маркетинга
- мобильные приложения
Эти источники либо структурированы, либо неструктурированы, поэтому формат данных на данном этапе не является единым.
Фаза преобразования
На этапе преобразования извлеченные необработанные данные преобразуются и компилируются в формат, подходящий для целевой системы. Для этого необработанные данные подвергаются нескольким подпроцессам преобразования, таким как:
- Очистка — устраняются несогласованные и отсутствующие данные.
- Стандартизация — везде применяется единообразное форматирование.
- Удаление дубликатов — удаляются избыточные данные.
- Выявление выбросов — выбросы выявляются и нормализуются.
- Сортировка — данные организованы таким образом, чтобы повысить эффективность.
Помимо переформатирования данных, существуют и другие причины необходимости преобразования данных. Нулевые значения, если они присутствуют в данных, должны быть удалены; кроме того, в данных часто присутствуют выбросы, которые негативно сказываются на анализе; их следует решать на этапе трансформации. Часто мы сталкиваемся с избыточными данными, которые не представляют ценности для бизнеса; такие данные удаляются на этапе преобразования, чтобы сэкономить место для хранения в системе. Это проблемы, которые решаются на этапе трансформации.
Фаза загрузки
После того, как необработанные данные извлечены и адаптированы с помощью процессов преобразования, они загружаются в целевую систему, которая обычно является либо хранилищем данных, либо озером данных. Есть два разных способа выполнить фазу загрузки.
- Полная загрузка: все данные загружаются сразу в первый раз в целевой системе. Технически это менее сложно, но занимает больше времени. Это идеально в случае, когда размер данных не слишком велик.
- Добавочная загрузка: Добавочная загрузка, как следует из названия, выполняется поэтапно. Он имеет две подкатегории.
- Потоковая добавочная загрузка: данные загружаются с интервалами, обычно ежедневно. Этот вид загрузки лучше всего подходит для небольших объемов данных.
- Пакетная добавочная загрузка: при пакетном типе добавочной загрузки данные загружаются пакетами с интервалом между двумя пакетами. Это идеально, когда данных слишком много. Это быстро, но технически сложнее.
Типы инструментов ETL
ETL выполняется двумя способами: ETL вручную или ETL без кода. В ручном ETL автоматизация практически отсутствует. Все кодируется командой, в которую входят специалист по данным, аналитик данных и инженер данных. Все конвейеры извлечения, преобразования и загрузки разработаны для всех наборов данных вручную. Все это приводит к огромной потере производительности и ресурсов.
Альтернативой является ETL без кода; эти инструменты обычно имеют функции перетаскивания. Эти инструменты полностью устраняют необходимость кодирования, что позволяет выполнять ETL даже нетехническим работникам. Благодаря интерактивному дизайну и инклюзивному подходу большинство компаний используют Informatica, Integrate.io, IBM Storage, Hadoop, Azure, Google Cloud Dataflow и Oracle Data Integrator для своих операций ETL.
В индустрии данных существует четыре типа инструментов ETL без кода.
- Коммерческие инструменты ETL
- Инструменты ETL с открытым исходным кодом
- Пользовательские инструменты ETL
- Облачные инструменты ETL
Лучшие практики для ETL
Существуют некоторые методы и протоколы, которым следует следовать, чтобы обеспечить оптимизированный конвейер ETL. Лучшие практики обсуждаются ниже:
- Понимание контекста данных: следует правильно понимать, как собираются данные и что означают показатели. Это помогло бы определить, какие атрибуты являются избыточными и должны быть удалены.
- Контрольные точки восстановления: в случае нарушения конвейера и утечки данных необходимо иметь протоколы для восстановления утечек данных.
- Журнал ETL: Должен вестись журнал ETL, в котором регистрируются все без исключения процессы, выполняемые с данными до, во время и после цикла ETL.
- Аудит: проверка данных после определенного интервала, чтобы убедиться, что данные находятся в том состоянии, в котором вы хотели, чтобы они были.
- Небольшой размер данных. Размер баз данных и их таблиц должен быть небольшим, чтобы данные распределялись больше по горизонтали, чем по вертикали. Эта практика обеспечивает повышение скорости обработки и, как следствие, ускоряет процесс ETL.
- Создание уровня кэша: Уровень кэша — это уровень высокоскоростного хранилища данных, который хранит недавно использованные данные на диске, где к ним можно быстро получить доступ. Эта практика помогает сэкономить время, когда кэшированные данные запрашиваются системой.
- Параллельная обработка: рассмотрение ETL как последовательного процесса отнимает у бизнеса большую часть времени и ресурсов, что делает весь процесс крайне неэффективным. Решение состоит в том, чтобы выполнять параллельную обработку и несколько интеграций ETL одновременно.
Варианты использования ETL
ETL делает операции более плавными и эффективными для бизнеса несколькими способами, но мы обсудим здесь три наиболее популярных варианта использования.
Загрузка в облако:
Локальное хранение данных — это дорогостоящий вариант, из-за которого предприятия тратят ресурсы на покупку, содержание, запуск и обслуживание серверов. Чтобы избежать всех этих хлопот, предприятия могут напрямую загружать данные в облако. Это экономит ценные ресурсы и время, которые затем можно инвестировать в улучшение других аспектов процесса ETL.
Объединение данных из разных источников:
Данные часто разбросаны по разным системам в организации. Объединение данных из разных источников в одном месте, чтобы их можно было обработать, а затем проанализировать и передать заинтересованным сторонам позже, осуществляется с помощью процесса ETL. ETL гарантирует, что данные из разных источников форматируются одинаково, в то время как целостность данных остается неизменной.
Прогнозное моделирование:
Принятие решений на основе данных является краеугольным камнем успешной бизнес-стратегии. ETL помогает компаниям извлекать данные, преобразовывать их, а затем загружать в базы данных, связанные с моделями машинного обучения. Эти модели машинного обучения анализируют данные после того, как они прошли процесс ETL, а затем делают прогнозы на основе этих данных.
Будущее ETL в ландшафте данных
ETL, безусловно, играет роль основы для архитектуры данных; останется ли он таким или нет, еще предстоит увидеть, потому что с введением Zero ETL в технологической отрасли неизбежны большие изменения. С Zero ETL отпадет необходимость в традиционных процессах извлечения, преобразования и загрузки, но данные будут напрямую передаваться в целевую систему практически в режиме реального времени.
В экосистеме данных наблюдается множество новых тенденций. Проверить объединить.ай чтобы расширить свои знания о технологических тенденциях.
Хазика — Data Scientist с большим опытом написания технического контента для компаний, занимающихся искусственным интеллектом и SaaS.
Вам может понравиться
AniPortrait: аудиосинтез фотореалистичной портретной анимации
Внутренний диалог ИИ: как саморефлексия улучшает чат-ботов и виртуальных помощников
Instant-Style: сохранение стиля при преобразовании текста в изображение
LoReFT: точная настройка представления языковых моделей
За пределами поисковых систем: рост агентов веб-браузера на основе LLM
Повышение прозрачности и доверия к ИИ с помощью составного ИИ