Обработка данных

Исходные данные здесь и далее могут называться: исходные, грязные, записи из источников и т.п.

Обработанные данные: итоговые, эталонные, очищенные.

Данные из исходных отчетов, загруженных в систему, разделяются на:

  • справочные записи – например, торговые точки, продукты, юридические лица и т.п.

  • записи фактов – например, строка из отчета о продажах, где есть информация о продукте, точке продаж, кол-ве, дате и т.д.

В ходе обработки мы берем на себя трудоемкий процесс по подготовке эталонной базы справочников (торговых точек, продуктов и юридических лиц) в России и в других странах. Затем мы связываем записи фактов с соответствующими записями справочников – как грязными, так и эталонными.

  • На входе: разноформатные отчеты, дубли торговых точек, некорректные или отсутствующие адреса, ошибки в ИНН.

  • На выходе: чистые обработанные данные, без дублей и ошибок.В ходе обработки мы стандартизируем

Реализуем эту задачу с помощью алгоритмов и команды операторов.

Этапы обработки

Загруженные в систему исходные данные проходят несколько этапов обработки:

Очистка, проверка и стандартизация

  • Очищаем адрес от лишних символов.

  • Стандартизируем адрес по базе ГАР (ФИАС) для РФ и OSM (Open Street Maps) для других стран, проверяем соответствие с картографическими сервисами.

  • Валидируем ИНН.

Дедубликация записей

Объединяем дубликаты товаров, торговых точек, аптек, складов и юридических лиц, загруженных из разных источников.

Формируем эталонную запись и ее связь со всеми «дублями» – грязными записями источников.

Обогащение

Добавляем справочным записям новые свойства и атрибуты, которых не было в исходных данных. Проставляем связи между справочниками и фактами.

  • Для торговых точек (клиентов):

    • Определяем тип точки

    • Определяем компанию, юридическое лицо и ИНН

    • Определяем активность точки по наличию товародвижений

    • Для адресов:

      • определяем страну

      • формируем географическую иерархию (брики) с возможностью разбивки до любого уровня: от страны и субъекта федерации до конкретной улицы.

      • Определяем муниципальные и администритивные деления внутри городов.

      • Определяем координаты и отображаем точку на карте.

  • Для юридических лиц

    • Добавляем инфо из открытых источников о юр лице

    • Проверяем наличие лицензий (Росздравнадзор)

    • Проверяем статус юр лица

  • Для продуктов – определяем атрибуты продуктовой иерархии