Зачем маркетплейс-селлеру своё хранилище данных

Маркетплейсы стали главным каналом продаж для тысяч компаний. На Wildberries, Ozon и Яндекс Маркете ежедневно появляются сотни новых продавцов. Одни выдерживают конкуренцию и растут, другие — тонут в хаосе отчётов, возвратов, логистики и рекламных расходов. На самом деле разница не в удаче. Разница в том, насколько владелец бизнеса понимает свои цифры и может ли он опираться на данные, а не на догадки.
В начале пути это кажется простым. Селлер загружает товары, настраивает цены, включает рекламу и наблюдает за первыми продажами. Всё понятно и прозрачно. Но когда ассортимент растёт, когда заказов становится сотни в день, когда появляются складские остатки, ротации, поставки, бандлы, маркетинговые акции и десятки P&L-показателей, заметить закономерности становится трудно. Если добавить к этому то, что маркетплейсы показывают разные цифры о продажах, себестоимости и возвратах, — ситуация превращается в настоящую головоломку.
В какой-то момент бизнес сталкивается с простой, но болезненной истиной: данных слишком много, они живут в разных местах, плохо сходятся и требуют слишком много ручной работы. И тогда возникает главный вопрос: можно ли всё это собрать в одно место, очистить, упорядочить и превратить в ясную картину? Ответ — да. Для этого и существует корпоративное хранилище данных, или DWH (Data Warehouse).
Почему обычного Excel уже недостаточно
Большинство селлеров ведут учёт в Excel и скачивают отчёты вручную. На старте это кажется достаточным: можно раз в неделю выгрузить продажи, выписать расходы, посчитать прибыль и принять какие-то решения. Но чем крупнее становится бизнес, тем чаще Excel превращается в проблему, а не в инструмент.
Главная трудность — объём данных. Файлы начинают весить гигабайты, формулы ломаются, сводные таблицы перестают реагировать. Любая ошибка или случайный перенос ячейки превращает отчёт в хаос, а менеджерам приходится тратить часы, чтобы понять, где произошло искажение. Excel не предназначен для постоянной работы с сотнями тысяч строк, транзакциями логистики, детальными отчётами FBO и FBS, историей цен конкурентов и рекламными метриками. Селлер пытается склеить картину бизнеса вручную и получает лишь фрагменты.
цифры маркетплейсов никогда не совпадают между собой. Разные провайдеры данных предоставляют разные данные. Даже Ozon отображает 3 абсолютно разных значения (отчет транзакций/продаж/и продаж подневно не совпадают). Без единого хранилища невозможно понять реальную прибыль, реальный Cash Flow, реальные расходы и настоящую динамику бизнеса.
Почему данные маркетплейсов «не сходятся»
Если попросить владельца магазина назвать прибыль за месяц, часто он называет цифру, которую показывает маркетплейс в личном кабинете. Эта цифра — не прибыль. Это оборот минус поверхностные комиссии. Там нет логистики, нет складских расходов, нет списаний, нет затрат на обработку возвратов, нет закупочной стоимости и нет реальных расходов на продвижение. Даже внутри одного маркетплейса продажа одного и того же SKU может появляться в отчётах в разном виде: в продажах, в транзакциях, в возвратах, в логистике, в FBS-вывозах и в комиссии за хранение.
Маркетплейс показывает данные так, как удобно ему. Для бизнеса эти данные слишком сырые. Они не объясняют, что происходит на самом деле. Поэтому продавцу приходится самому собирать разрозненные куски: взять продажи за день из API, затем вручную скачать логистический отчёт, потом выгрузить остатки, загрузить транзакции, сверить со своей себестоимостью и попытаться посчитать прибыль. Это много ручной работы, много ошибок и много неопределённости.
Что такое хранилище данных и как оно решает проблему
Хранилище данных — это система, которая собирает все данные из разных источников в одном месте, приводит их в порядок, объединяет и делает доступными для анализа. По сути, DWH — это единая база, где лежат все продажи, остатки, цены, заказы, транзакции, конкуренты, реклама, расходы и любые другие цифры бизнеса.
В отличие от Excel или выгрузок, хранилище автоматически обновляется каждый день (или даже в режиме реального времени, в зависимости! от ограничений маркетплейса). Оно не зависит от человеческого фактора: если человек не вышел на работу, данные всё равно придут, отчёты всё равно обновятся. Хранилище собирает данные напрямую из API маркетплейсов, из CSV и Excel, из бухгалтерии, из внутренних систем компании и даже из сканов и PDF-файлов, если нужно.
хранилище превращает хаос в структуру. Хранилище разделяет данные на несколько уровней: сырые данные, очищенные данные и готовые аналитические витрины. В итоге не приходится вручную «склеивать» продажи с логистикой или связывать остатки с транзакциями — система делает это автоматически.
Как данные попадают в хранилище
Простым языком. представьте, что каждый маркетплейс — это склад с коробками. В каждой коробке — часть данных: в одной продажи, в другой остатки, в третьей логистика, в четвёртой реклама. Коробки все разные: какие-то аккуратные, какие-то мятые, какие-то недоупакованные. Если просто перевезти их к себе в офис, от этого порядок не появится — всё равно придётся разбирать вручную.
Data Warehouse (DWH) работает иначе:
- Сначала собирает коробки — скачивает данные из API, веб-клиента или файлов.
- Затем распаковывает — извлекает данные в исходном виде.
- Проверяет, что внутри — исправляет ошибки, приводит значения к одному формату, удаляет дубли.
- Складывает аккуратно — создаёт структурированные таблицы: заказы, транзакции, остатки.
- Связывает между собой — например, связывает заказ с себестоимостью, логистикой и комиссией.
- Создаёт витрины — готовые таблицы для отчётов.
Все эти шаги выполняются автоматически, без участия человека.
Почему в центре всей системы стоит Airflow
Airflow — это инструмент, который управляет всем процессом. Его часто сравнивают с диспетчером аэропорта: он знает, когда должен взлететь каждый самолёт, какие условия для него нужны и куда он должен прилететь.
В контексте маркетплейс-бизнеса Airflow:
- запускает скрипты, которые обращаются к API маркетплейсов;
- скачивает данные каждый день в одно и то же время;
- перекладывает данные в хранилище;
- преобразует и объединяет таблицы;
- обновляет отчёты для руководства.
Каждая задача в Airflow — это маленькая программа, которая выполняет конкретное действие. Например: «скачать продажи за вчера», «обновить остатки», «посчитать прибыль», «очистить старые данные». Airflow запускает эти программы по расписанию, следит за ошибками и отправляет уведомления, если что-то пошло не так.
Airflow хорош тем, что делает работу предсказуемой. Данные приходят вовремя. Скрипты запускаются без участия человека. Никаких забытых отчётов, пропущенных выгрузок и человеческих ошибок: Airflow сам поднимает и связывает весь процесс.
Как программы получают данные
Все данные маркетплейса находятся внутри его API — специального механизма, который позволяет другим программам запрашивать информацию. Это похоже на окно выдачи в ресторане: вы передаёте запрос, на кухне что-то готовят, и вам возвращают готовый набор данных.
Наши программы на Python обращаются к API маркетплейсов по защищённым ключам. Мы запрашиваем, например:
- продажи за сутки;
- изменения остатков;
- транзакции логистики;
- историю цен;
- расходы на рекламу;
- возвраты;
- списания;
- карточки товаров и их характеристики.
API возвращает данные в виде JSON — большого структурированного текста. Скрипты читают этот JSON, преобразуют его в таблицы и отправляют в хранилище. Важно то, что скрипт делает это одинаково каждый день, без ошибок, без пропусков, без усталости.
Для данных, которых нет в API, система использует другие методы: например, RPA-скрейпинг — программу, которая открывает нужные страницы, снимает информацию и сохраняет так же, как человек, только без ошибок и гораздо быстрее.
Почему результаты DWH точнее, чем то, что показывает маркетплейс
Хранилище данных соединяет цифры из разных источников. Например, маркетплейс показывает выручку, но не знает себестоимость товара. Бухгалтерия знает себестоимость, но ничего не знает об отменах и возвратах. Логистика знает количество отправлений, но не знает вашу маржу.
DWH объединяет всё:
- продажу из API;
- себестоимость из вашего Excel или бухгалтерии;
- логистическое списание из транзакций;
- комиссии маркетплейса;
- рекламные расходы;
- остатки складов;
- рейтинги и отзывы;
- динамику конкурентов.
Итог — реальная прибыль, а не картинка из кабинета Ozon или WB.
Как выглядит готовое хранилище изнутри
Хранилище данных состоит из нескольких уровней. На первом уровне находятся сырые данные, которые мы получили из API и файлов. Они сохраняются «как есть», без изменений. Это важно, чтобы всегда можно было проверить правильность обработки.
На втором уровне данные очищаются, нормализуются и связываются между собой. Например, названия SKU приводятся к одному виду, даты преобразуются в единый формат, дубли удаляются, статусы заказов упорядочиваются.
На третьем уровне создаются витрины — готовые таблицы для анализа: продажи по дням, прибыль по SKU, эффективность рекламы, оборачиваемость складов, динамика остатков, показатели unit-экономики. Эти таблицы используются BI-системами: DataLens, PowerBI, Grafana.
Снаружи всё выглядит просто: руководитель открывает дашборд и видит аккуратные цифры. Но внутри работает целая автоматизированная экосистема.
Что получает бизнес после внедрения DWH
После внедрения хранилища у владельца бизнеса появляется то, чего не было раньше: спокойствие. Больше не нужно угадывать, где ошибка, почему «не сходится» и куда делась прибыль за неделю. Цифры становятся понятными, логичными и однозначными.
Бизнес начинает видеть, какие товары тянут прибыль вниз, какие категории нужно расширять, какие цены работают лучше всего. Становится видно, на чём маркетплейсы зарабатывают больше всего, и где именно компания теряет деньги.
Но главное — появляется система, которая работает каждый день без участия человека. Она собирает данные, очищает, объединяет и показывает ответы. Она позволяет руководителю принимать решения быстрее, увереннее и точнее.
И если вы хотите увидеть, как это выглядит вживую, мы можем показать работу Airflow, структуру таблиц, SQL-модели и готовые дашборды.




