Как меняется рынок решений для интеграции данных
Данные превратились в ключевой актив бизнеса, а скорость их интеграции — в конкурентное преимущество. Это стимулирует развитие отечественного рынка решений для сбора, очистки и загрузки данных. О вызовах в сегменте ETL в России — в статье Дмитрия Лемеша, менеджера продукта в Nexign.
По прогнозам, ежегодно вплоть до 2029 года объем данных будет расти в среднем на 20%: за 2024 год было сгенерировано 149 зеттабайт, а в 2028 году этот показатель достигнет 400 зеттабайт. Одновременно меняется структура интернет-трафика: количество систем, взаимодействующих через вызовы API, выросло до 71%. Это говорит о фундаментальном сдвиге в способах интеграции систем.
Данные обладают значительным потенциалом для трансформации бизнеса. Однако без эффективных инструментов интеграции они остаются неиспользуемым ресурсом и не имеют практической ценности. Для автоматизации процесса сбора, обработки и подготовки данных к анализу используются интеграционные решения, в частности, продукты класса ETL.
ETL (Extract, Transform, Load — "Извлечь, Преобразовать, Загрузить") — это процесс, при котором данные сначала извлекаются из разных источников, затем очищаются и приводятся к нужному формату, и только потом загружаются в целевое хранилище (например, в Data Warehouse). Такой метод подходит для формирования финансовых отчетов, загрузки данных из CRM в систему лояльности, интеграции с государственными системами и других похожих бизнес-задач.
Таким образом, ETL — это "мост" между хаотичным миром сырых данных, которые генерирует бизнес, и миром красивых отчетов, точной аналитики и умных алгоритмов, которые помогают компании зарабатывать больше и работать эффективнее. Без этого моста данные остаются просто "цифровым шумом", а их анализ — медленным, дорогим и ненадежным.
Вызовы российского рынка — "пятилетка за 3 года"
В отличие от глобального рынка, где доминируют зрелые решения (Informatica, Talend, IBM DataStage), в России сегмент ETL относительно молодой и развивающийся. Крупные заказчики долгие годы предпочитали работать на зарубежных продуктах, в которые уже была "вшита" функциональность интеграционных решений — или же вкладывались в кастомное ПО для решения собственных задач.
Для большинства поставщиков инвестиции в разработку ETL-продуктов до 2022 года считались неперспективными — не было гарантированного спроса. Создавались лишь узкоспециализированные платформы под отдельных отраслевых заказчиков с потребностью в независимом интеграционном ПО — например, из финансов или госсектора. Такие решения умеют работать со специализированными форматами данных и отраслевыми системами, требующими уникальных адаптеров, а также соответствуют определенному уровню требований к информационной безопасности. Но для применения в других отраслях им требуется серьезная адаптация.
После 2022 года российские компании столкнулись с необходимостью быстрой замены западных систем: более 50% ИТ-бюджетов было направлено на импортозамещение. Потребность в независимых ETL тоже выросла. Но на рынке образовался вакуум. Российским поставщикам нужно было оперативно закрыть потребности клиентов. Они были вынуждены создавать "лоскутные" решения из open-source инструментов или разрабатывать собственные фреймворки в ограниченные сроки.
Это определило особенности отечественных интеграционных продуктов. Прежде всего, для них характерны ограниченная в сравнении с зарубежными решениями функциональность и узкий набор предустановленных коннекторов. Как правило, поддерживаются интеграции с Postgres, Greenplum, ClickHouse, а подключение к legacy-системам, ERP- и CRM-платформам требует дополнительной разработки. Отечественные поставщики сосредоточены на бизнес-критичных функциях — без избыточности, характерной для универсальных западных систем.
С другой стороны, российские решения адаптированы к локальной ИТ-экосистеме, включая поддержку российских СУБД и операционных систем, а также готовые адаптеры для популярных платформ типа 1С и Битрикс. Помимо этого, разработка с нуля позволяет проектировать архитектуру, изначально рассчитанную на высокие нагрузки и строгие требования безопасности, а также внедрять low-code и no-code интерфейсы для самостоятельной работы бизнес-пользователей. Например, в нашей ETL-платформе Nexign Data Integrator мы предлагаем встроенный SDK для ускорения интеграции внешних решений и расширения функциональности без необходимости привлечения разработчиков. Такой подход позволяет дорабатывать продукт под специфические задачи бизнеса в кратчайшие сроки.
Сейчас российский рынок интеграционных решений насчитывает около 20 игроков в сегменте ETL. Однако заказчики в большинстве своем пока не доверяют коммерческим отечественным продуктам, предпочитая строить инфраструктуру на зарубежных решениях с открытым исходным кодом (таких как Apache Airflow или Pentaho). Это тормозит развитие отечественных вендоров, лишая их возможности "обкатать" свои разработки на практике.
Для самих заказчиков это тоже риски: использование open source приводит к высоким затратам на поддержку и доработку. Кроме того, по оценкам экспертов, до 30% компаний, внедряющих "самописные" ETL/ELT системы, не достигают запланированных SLA по производительности из-за сложности интеграции legacy-систем.
Фокус на искусственный интеллект
Тем не менее, сегмент ETL развивается — хоть и медленнее, чем международный. Отечественные разработчики, которые движутся по пути глобальных поставщиков, начинают осваивать современные технологии — в частности, автоматизацию с помощью искусственного интеллекта и машинного обучения.
Есть несколько основных сценариев применения современных технологий в ETL. Прежде всего, это моделирование сценариев интеграции различных систем, например, ERP и CRM, с помощью ИИ. ИИ-ассистенты способны не только находить оптимальные способы взаимодействия ИТ-решений, но и проверять существующие процессы на предмет "узких мест" и неэффективных интеграций.
Кроме того, искусственный интеллект используют для ускорения процессов, связанных с обработкой данных: синхронизации и донасыщения справочников, нормализации и классификации данных. ИИ-агенту можно "скормить" датасет любого объема и дать задачу, например, убрать дубли, стандартизировать формат написания телефонных номеров или суммировать информацию о клиентах. Причем работать он может со всеми типами данных, в том числе неструктурированными.
В перспективе ИИ может применяться на всех этапах работы с данными. В процессе их извлечения — подключаться к таким источникам, как PDF или веб-формы, и структурировать информацию. На этапе преобразования — сопоставлять, исправлять ошибки или обогащать данные, а на этапе загрузки — предлагать сценарии для оптимизации их хранения. Такие примеры уже появляются на глобальном рынке, и весьма вероятно, что вскоре тренд придет в Россию.
Что предстоит сделать дальше
На рынке интеграционных решений нужны фундаментальные изменения. Во-первых, важно составлять дорожную карту развития продуктов с учетом технологических трендов на рынке. Первый — ставка на low-code. Клиентам нужны простые конструкторы, поэтому в России набирают популярность решения, которые поддерживают визуальное проектирование конвейеров данных с интеграцией CI/CD и настраиваемых блоков обработки, а также объединяют в одном продукте no-code, low-code и pro-code подходы, что редкость даже для глобального рынка. Но здесь остается проблема: заказчики ожидают, что эти простые конструкторы будут решать сложные бизнес-задачи — получается парадокс разработки.
Второй тренд — нишевые решения. На глобальном рынке уже развиваются специализированные решения, такие как Renta Marketing ETL, ориентированное на маркетинговые данные с коннекторами к Facebook Ads и Google Ads. Или K2View, которое использует entity-based подход ("eETL"), работая с бизнес-сущностями (клиенты, заказы и другие) вместо сырых данных. В Россию это только приходит, но подобные продукты начинают появляться в качестве модулей крупных платформ. Например, для задач банковской отрасли, промышленности и медицины. И здесь отечественные поставщики, которые изначально были заточены под потребности и особенности отраслевых игроков, могут дать фору глобальным корпорациям и на равных конкурировать с ними.
Во-вторых, необходимо повышать доверие к отечественным поставщикам и их решениям. Для этого российским игрокам рынка ETL необходимо направлять больше ресурсов в маркетинг и коммуникации. Заметна неосведомленность о наличии продуктов и их возможностях — по той простой причине, что отечественные разработчики не привыкли заявлять о себе так, как это обычно делают зарубежные корпорации. Этот подход требует пересмотра.
Более того, у многих заказчиков, которые раньше не обращали внимание на технические продукты "под капотом" глобальных экосистем, еще просто не сформировалась потребность в ETL-решениях. Важно формировать рынок, вести открытый диалог с текущим и потенциальным клиентом. Отечественным поставщикам предстоит сделать технические ETL-продукты более понятными и доступными для заказчика — особенно с точки зрения их бизнес-пользы.
Будущее ETL инструментов
Рынок ETL-инструментов переживает глубокую трансформацию. С одной стороны, отечественным компаниям приходится адаптироваться к глобальным трендам, в том числе внедрению low-code-платформ и ИИ. С другой — решать уникальные задачи, связанные с импортозамещением, интеграцией legacy-систем в условиях новой технологической реальности и повышением осведомленности заказчиков о доступных технологиях.
Занять значимую долю на рынке современных технологий интеграции данных смогут лишь те игроки, которые быстро адаптируются к изменениям. Остальные же будут консолидированы более масштабными предприятиями, способными инвестировать в развитие решений под своим зонтичным брендом. Тем более, крупные игроки осознают потенциал качественных данных, которые напрямую влияют на выручку компании за счет оптимизации процессов и точности аналитики, и готовы вкладываться в это направление. В результате на рынке останется от 3 до 5 решений, которые смогут полноценно заменить ушедшие из России зарубежные аналоги.
Ссылка на материал