Дата-инженерия для селлеров на маркетплейсах

Я Даниил, дата-инженер. Моя студия помогает компаниям объединить все данные в одном месте. На основе этих данных мы строим аналитику, прогнозирование и подключаем искусственный интеллект — от генерации PDF-отчётов и Excel-таблиц до сложных задач с прогнозированием спроса. Всё это возможно только при наличии правильно спроектированной базы данных. Без неё любая аналитика превращается в ручной сбор выгрузок из десяти разных кабинетов.

Зачем это селлерам

Вы продаёте на маркетплейсах — и у вас уже сейчас гигабайты данных, о которых вы можете не знать. За год работы на Ozon и Wildberries накапливаются сотни гигабайтов данных: продажи, возвраты, выкупы, рекламные расходы, логистика, хранение, комиссии, отзывы, цены на каждый товар в каждый момент. Тысячи различных видов данных. Каждая транзакция, которая происходит внутри маркетплейса, записывается: сколько ушло на логистику, на склад, на хранение.

Если у вас больше 50 SKU — контролировать всё вручную невозможно. Каждый товар продаётся не на одном маркетплейсе, а на нескольких: Ozon, Wildberries, Яндекс Маркет, возможно, офлайн-магазины. Информация разбросана по личным кабинетам маркетплейсов, 1С, MPStats, рекламным кабинетам и Excel-файлам разных отделов. Каждый день нужно понимать, что идёт хорошо, а что нет — по каждому SKU, на каждой площадке. Делать это руками при таком объёме — значит терять время и деньги.

Эти данные можно использовать, чтобы зарабатывать больше. Например, понять, какие продукты производить в следующем году. Или на каких товарах вы больше всего теряете. Или как перераспределить остатки между складами, чтобы снизить логистику. Всё это становится видно, когда данные собраны в одном месте, очищены и связаны между собой. Без единой базы аналитик неделями собирает информацию из разных отделов — и получает устаревшие цифры.

Что даёт единая база данных

Вы экономите время — потому что данные приходят сами. Не нужно делать выгрузки из разных сайтов и дашбордов. Не нужно просить другой отдел передать файлы. Не нужно каждый раз повторять этот процесс. Данные загружаются автоматически — каждый день, каждый час или каждые пять минут, в зависимости от того, что позволяет API маркетплейса. Задержка — максимум день, обычно час.

Ваши данные будут самыми чистыми и самыми свежими. Когда данные собираются напрямую из API, а не копируются вручную из отчётов, исключаются ошибки копирования, устаревшие версии файлов и человеческий фактор. Аналитик работает с тем, что есть прямо сейчас, — а не с тем, что кто-то выгрузил на прошлой неделе. Это принципиально другой уровень принятия решений.

Аналитики смогут придумать и узнать столько, сколько раньше было невозможно. Когда все данные в одном месте, можно пересекать продажи с рекламой, возвраты с отзывами, логистику с маржинальностью. Можно строить отчёты, которые раньше требовали бы недель работы. Можно задавать вопросы, на которые раньше не было ответа.

Как мы собираем данные

Мы фокусируемся на e-commerce в России — в первую очередь на маркетплейсах. У Ozon, Wildberries, Яндекс Маркета есть понятные API, через которые компания предоставляет данные. Также подключаем 1С, MPStats для сбора данных о конкурентах и рынке, рекламные кабинеты и любые другие источники с API. Данные выгружаются автоматически каждый день по расписанию.

Данные разные: продажи, реклама, выкупы, возвраты, отзывы, цены, логистика, хранение, комиссии. Всего более тысячи различных видов данных с каждого маркетплейса. Каждая транзакция, о которой вы могли даже не знать, — всё записывается и сохраняется. Это основа для любой аналитики: без полных данных выводы будут неполными.

Для сбора используется Apache Airflow — стандартный инструмент оркестрации данных. Airflow управляет тем, какие данные собираются, в какой час, с какими настройками. Если маркетплейс упал — система дождётся восстановления и заберёт данные автоматически. Airflow используется в X5, Avito, Яндексе и тысячах других компаний — это проверенное решение.

Где хранятся данные

Сырые данные попадают в S3 — это файловое хранилище, страховка и аудит-трейл. S3 (MinIO) — место, где лежат JSON-файлы в первозданном виде. Если что-то пойдёт не так при обработке, исходники всегда на месте. Здесь же хранятся Excel-файлы, изображения и всё, что не помещается в таблицы.

Из S3 данные обрабатываются и загружаются в ClickHouse — аналитическую базу данных. ClickHouse похож на обычную базу данных вроде PostgreSQL, но с одной особенностью. PostgreSQL — транзакционная база: она хранит данные построчно, и каждая строка — это отдельная запись. ClickHouse — колоночная база: данные хранятся по столбцам. Разница принципиальная.

Для аналитиков важен не каждый ряд, а определённые столбцы — и здесь ClickHouse выигрывает в разы. Когда аналитик строит отчёт, он выбирает 5–10 столбцов из таблицы, где их может быть 50. ClickHouse читает только нужные столбцы и пропускает остальные. Это даёт ускорение до 10 раз по сравнению с обычными базами данных. Когда данных много — миллионы и миллиарды строк — эта разница ощущается очень сильно.

Когда нужно соединить несколько таблиц — ClickHouse делает это быстро. В обычных базах JOIN двух больших таблиц может занять 10, 20, 30 минут и задействовать огромные ресурсы. ClickHouse спроектирован так, чтобы такие операции выполнялись за секунды. Аналитики могут строить сложные отчёты и получать ответы быстро — а не ждать полчаса после каждого запроса.

Безопасность и разделение доступа

Не каждый сотрудник должен видеть все данные — и это нормально. Бухгалтерия не должна видеть юнит-экономику по каждому SKU. Обычные сотрудники не должны иметь доступ к финансовым отчётам. Менеджеры по рекламе не должны видеть зарплаты. Разделение доступа — это не паранойя, а стандарт работы с данными в любой компании.

Разделение также защищает от случайных ошибок. Если кто-то решит выгрузить слишком много данных или запустит слишком тяжёлый запрос — сервер может замедлиться или упасть. Чтобы этого не случилось, мы разделяем базу данных на части — делаем реплики и витрины (data marts). Каждый отдел работает со своей витриной: категорийщики видят остатки и оборачиваемость, маркетологи — рекламу и ROMI, финансисты — P&L и выплаты. Каждый видит своё, не ломая чужое.

Стандартные инструменты — проверенные временем

Мы используем только те решения, которые используются в крупнейших компаниях: X5, Avito, Яндекс, Сбер. ClickHouse, Apache Airflow, PostgreSQL, MinIO, Kubernetes — всё это open-source-инструменты. Они бесплатные, часто обновляются, безопасны и проверены годами эксплуатации на петабайтах данных. Любой дата-инженер или аналитик с ними знаком — поэтому в будущем вам будет проще найти специалиста для поддержки.

Вы владеете всем: кодом, базой данных, инфраструктурой. S3-хранилище для файлов, ClickHouse для аналитических таблиц, PostgreSQL для справочников и транзакций, Airflow для оркестрации — всё это разворачивается на вашем сервере или в облаке. Никакой привязки к нашему сервису. Если вы решите работать с другой командой — всё останется у вас.

Что вы получаете в итоге

Единую базу данных, в которой собраны все данные вашего бизнеса. Продажи, возвраты, логистика, реклама, отзывы, цены — всё в одном месте, обновляется автоматически. Аналитики строят отчёты за минуты, а не за дни.

Дашборды и визуализацию в удобном для вас инструменте. DataLens, Power BI, Grafana или наша платформа. Если команде удобнее Excel — делаем автоматические выгрузки через Telegram-бота.

Прогнозирование и искусственный интеллект. Динамическое ценообразование, прогноз спроса, анализ отзывов, оптимизация рекламы. ИИ-агенты, которые генерируют отчёты, находят аномалии и предупреждают о проблемах.

Обучение команды работе с данными и ИИ. Мастер-классы по Cursor AI, работа с дашбордами, основы аналитики. Даниил проводил обучение для Альпины Паблишер и Сбера.

Начните сейчас

Дата-инженерия — это основа data-driven бизнеса. Обычно построение хранилища данных для маркетплейсов занимает от полугода до года. Мы прошли этот путь заранее: написали платформу, сборщики данных, коннекторы к Ozon, Wildberries, MPStats. Это сокращает сроки и стоимость.

Стоимость зависит от объёма данных и задач. Простой проект может обойтись в 400 000 ₽. Если это крупная компания с большим количеством SKU, маркетплейсов и отделов — счёт может идти на миллионы. Не потому что мы так хотим, а потому что объём работы действительно большой: интеграции с API, обработка исключений, сбоев, ретраев, проектирование таблиц, витрин, дашбордов, настройка безопасности. Подробный прайс-лист — на главной странице сайта.

Мы подробно расписали, что делаем и за что берутся деньги. Дата-инженерия — непрозрачная сфера. Мы хотим, чтобы вы понимали каждый этап: от сбора сырых данных до готовой витрины с дашбордом. В этом документе расписали стоимость каждой услуги – подключения облака, установки хранилища ключей, строительства каждого пайплайна. Многие задачи имеют фиксированную цену, другие – почасовую. В целом, простое хранилище с 2 маркетплейсами и 1С выгрузкой с несколькими страницами дашбордов обойдется в 1 миллион рублей. С машинным обучением, ИИ аналитикой, данными MPStats обойдется в 1.5-2 миллиона рублей.

Хотите обсудить проект? Напишите нам →