Обработка данных
Исходные данные здесь и далее могут называться: исходные, грязные, записи из источников и т.п.
Обработанные данные: итоговые, эталонные, очищенные.
Данные из исходных отчетов, загруженных в систему, разделяются на:
справочные записи– например, торговые точки, продукты, юридические лица и т.п.записи фактов– например, строка из отчета о продажах, где есть информация о продукте, точке продаж, кол-ве, дате и т.д.
В ходе обработки мы берем на себя трудоемкий процесс по подготовке эталонной базы справочников (торговых точек, продуктов и юридических лиц) в России и в других странах. Затем мы связываем записи фактов с соответствующими записями справочников – как грязными, так и эталонными.
На входе: разноформатные отчеты, дубли торговых точек, некорректные или отсутствующие адреса, ошибки в ИНН.
На выходе: чистые обработанные данные, без дублей и ошибок.В ходе обработки мы стандартизируем
Реализуем эту задачу с помощью алгоритмов и команды операторов.
Этапы обработки
Загруженные в систему исходные данные проходят несколько этапов обработки:
Очистка, проверка и стандартизация
Очищаем адрес от лишних символов.
Стандартизируем адрес по базе ГАР (ФИАС) для РФ и OSM (Open Street Maps) для других стран, проверяем соответствие с картографическими сервисами.
Валидируем ИНН.
Дедубликация записей
Объединяем дубликаты товаров, торговых точек, аптек, складов и юридических лиц, загруженных из разных источников.
Формируем эталонную запись и ее связь со всеми «дублями» – грязными записями источников.
Обогащение
Добавляем справочным записям новые свойства и атрибуты, которых не было в исходных данных. Проставляем связи между справочниками и фактами.
Для торговых точек (клиентов):
Определяем тип точки
Определяем компанию, юридическое лицо и ИНН
Определяем активность точки по наличию товародвижений
Для адресов:
определяем страну
формируем географическую иерархию (брики) с возможностью разбивки до любого уровня: от страны и субъекта федерации до конкретной улицы.
Определяем муниципальные и администритивные деления внутри городов.
Определяем координаты и отображаем точку на карте.
Для юридических лиц
Добавляем инфо из открытых источников о юр лице
Проверяем наличие лицензий (Росздравнадзор)
Проверяем статус юр лица
Для продуктов – определяем атрибуты продуктовой иерархии