Составление адресных программ что это

Подробное описание рекламируемого товара или услуги

Для медиапланирования вполне достаточно знать назначение товара или услуги, уровень цен на аналогичные товары или услуги, позиции, занимаемые конкурентами. К сожалению, не всякий рекламодатель способен предоставить эти сведения в распоряжение своего агентства. В этом случае, как правило, агентство использует сторонние источники – приобретает информацию у исследовательских фирм, владеющих обширными базами данных по товарным группам, маркам внутри них. Иногда решается наиболее бюджетная (дорогая) задачка, и проводится специальное маркетинговое исследование.

Описание целевой аудитории

Аудиторию можно обозначить по социально-демографическим признакам (возраст, пол, социальное и материальное положение), по потребительским предпочтениям (например, те, кто покупает только кофе в зернах), по стилю жизни (те, кто проводит отпуск только в августе-сентябре, в отелях не ниже определённой категории), по мотивации (почему покупают именно этот товар). Если для воздействия описаны несколько непересекающихся групп, то разумнее работать с несколькими целевыми сегментами или группами. Весьма полезно выделить из группы типичного её представителя и в деталях представить себе его портрет, описывающий все сколь-нибудь существенные характеристики.

Формирование адресной программы распространения рекламы

Территория кампании

Как правило, ответ на этот вопрос не вызывает затруднений у рекламодателя: он ведь планирует продажи на определенной территории. Кампания может быть региональной (Хабаровск и край), национальной (Россия), международной (СНГ, другие страны), может охватывать один или несколько регионов. Обратите внимание на один нюанс: при планировании кампании в нескольких регионах часто бывает выгоднее размещаться не в региональных, а в центральных, общероссийских средствах распространения. Этот подход позволяет убить двух зайцев: облегчает контроль со стороны агентства и рекламодателя за прохождением информации и в некоторых случаях экономит средства.

Сроки проведения кампании

Рекламную кампанию имеет смысл координировать с сезонными колебаниями спроса на рекламируемый товар. Как правило, заказчик имеет представление об этих процессах. Единственное, о чём следует его предупредить, – так это о том, что первая кампания (так называемый запуск) не даёт результата немедленно. Необходимо набраться терпения и не делать скоропалительных выводов, касающихся эффективности предпринятых усилий.

Бюджет медиакампании

Очень часто рекламодатель исходит из реальных материальных возможностей в текущий период. То есть многие тратят на рекламу столько, сколько не жалко, или сколько могут потратить. Более точное, или научное, определение бюджета может быть связано с оценкой рекламных затрат ближайших конкурентов. Эти сведения также можно получить в исследовательских структурах или исходя из предыдущего опыта рекламодателя, соизмерив предыдущие рекламные затраты с их результатами (объёмами повышения спроса или увеличением прибыли). Для подобных подходов к определению бюджета существуют свои показатели и методики.

Обзор на программу «Корм Оптима Эксперт» #Оптимизация рецептов для С/Х #Комбикорм #Расчёт кормов

Таким образом,медиапланирование–это выбор конкретных СМИ,времени, места выхода рекламных объявлений, их размеров и длительности, количества и составление календарных планов-графиков выхода рекламных объявлений на основе анализа размера и структуры аудиторий СМИ.

Календарные планы-графики выхода рекламы (медиапланы)

К медиапланированию также относится выбор размеров и составление адресных программ размещения наружной рекламы на сетевых рекламоносителях.

Календарный план-график (КПГ) выхода рекламных объявлений –прямоугольная таблица, где по столбцам расположены даты выхода рекламы, а по строкам средства размещения рекламы. На пересечении строки и столбца отмечается выход рекламы. Также часто называется медиапланом.

Различают следующие виды КПГ:

1. КПГ размещения рекламы в прессе: газетах и журналах. По столбцу обычно откладывается неделя рекламной кампании, по строке – название используемого СМИ (таблица 10). На пересечении строки и столбца могут отмечать просто выход рекламы штриховкой или другим знаком, размер рекламного объявления, как в таблице 10 или затраты на размещение рекламного объявления. В зависимости от решаемой задачи данные в клетке таблицы могут быть и другими.

Таблица 10 – Календарный план-график размещения рекламы в газетах

Газета Неделя 1 Неделя 2 Неделя 3 Неделя 4 Неделя 5 Неделя 6
Газета 12/45 12/45 12/45
Газета 2 10/45 10/45 10/45 10/45 10/45 10/45
Газета 3 12/45 12/45 12/45

2. КПГ выхода рекламы на радио. Составляется на месяц. По столбцам отмечаются дни недели, по строкам – время выхода рекламных блоков. На пересечении строки и столбца обычно единицей показывается выход рекламного ролика стандартной длины в 30 секунд или в секундах указывается длительность ролика.

3. КПГ выхода рекламы на телевидении. По столбцам отмечены дни недели, по строкам – название и время выхода телепередачи и время выхода рекламного блока. На пересечении строки и столбца показана длительность ролика.

4. Адресные программы размещения объектов наружной рекламы. Столбцы – это месяцы, по строкам показаны адреса расположения рекламоносителей.

5. Стратегические (годовые) календарные планы-графики выхода рекламы. В них отражено общее соотношение использования различных средств рекламы в течение длительного периода времени, минимум 1 год с разбивкой на 52 недели.

На пересечении строки и столбца в медиапланах может стоять просто отметка о выходе рекламного объявления, а также обозначены его технические характеристики (площадь, стоимость и пр.), затраты на размещение или полные затраты на подготовку, изготовление и размещение рекламы. Как мы видим из примеров в качестве отдельных моментов времени можно использовать дни, недели, месяцы (столбцы таблиц). В качестве средств рекламы (строки) могут использоваться время выхода рекламного блока на радио, телепередача, газета или журнал, адрес объекта наружной рекламы, место проведения промо-акции, сайт в Интернете и т.д.

Основные множества в медиапланировании

Все коммуникационные показатели медиапланирования рассчитываются на основе использования четырёх множеств людей (рисунок 21).

Рисунок 21 – Базовые множества медиапланирования

Рассмотрим обозначения, сделанные на рисунке 21.

НР – население региона, тыс. чел. Люди, которые проживают на определённой территории, могут контактировать с рассматриваемыми СМИ (попасть в аудиторию СМИ).

ЦА – целевая аудитория рекламного воздействия, тыс. чел. Это те люди, для кого предназначена, сделана и размещена реклама. Это часть населения региона, отвечающая определённым требованиям, о которых мы поговорим ниже. Она может быть выражена в процентах от населения региона.

А – аудитория конкретного СМИ (или А СМИ), тыс. чел. Это все люди, которые читают, смотрят, слушают определённое СМИ. Методы измерения аудиторий различны в разных фирмах и для различных СМИ.

ЦГ – целевая группа конкретного СМИ (или ЦГ СМИ), в тыс. человек. Это часть целевой аудитории, которая является частью аудитории СМИ, тыс. человек. ЦГ – это пересечение ЦА и А. ЦГ может быть выражена в процентах от целевой аудитории или в процентах от целевого рынка. Это отдельные показатели, о которых мы поговорим ниже.

Читайте также:
Windows sdk что это за программа и нужна ли она

В медиапланировании, множества имеют следующие характеристики:

ГЕНЕРАЛЬНАЯ СОВОКУПНОСТЬ – численность всего населения на определённой территории, как правило, старше 10 лет (реже 12 – 15 лет).

Например, генеральная совокупность населения города Хабаровск, старше 12 лет, примерно 545 тысяч человек.

АУДИТОРИЯ – число людей, которые побывали в контакте (видели, слышали, читали, щупали, нюхали) с рекламой:

· с одним выпуском СМИ,

· с несколькими выпусками СМИ,

· с одним выпуском рекламного сообщения,

· с несколькими выпусками рекламного сообщения.

КОЛИЧЕСТВО КОНТАКТОВ АУДИТОРИИ:

· с одним выпуском средства массовой информации,

· с несколькими выпусками СМИ,

· с одним выпуском рекламного сообщения,

· с несколькими выпусками рекламного сообщения.

Количество контактов аудитории всегда больше либо равно аудитории.

ЧАСТОТА КОНТАКТОВ – количество контактов одного представителя аудитории:

· с одним выпуском средства массовой информации.

· с несколькими выпусками СМИ,

· с одним выпуском рекламного сообщения,

· с несколькими выпусками рекламного сообщения.

ЦЕЛЕВАЯ ГРУППА – количество людей, выделенных по одному или нескольким признакам (сегмент) и на которых ориентирована рекламная кампания или часть рекламной кампании.

ЦЕЛЕВАЯ АУДИТОРИЯ – число представителей выбранной целевой группы среди аудитории.

КОЛИЧЕСТВО ЦЕЛЕВЫХ КОНТАКТОВ АУДИТОРИИ – количество контактов одного представителя целевой аудитории:

· с одним выпуском средства массовой информации,

· с несколькими выпусками СМИ,

· с одним выпуском рекламного сообщения,

· с несколькими выпусками рекламного сообщения.

Количество контактов целевой аудитории всегда больше либо равно целевой аудитории.

ЧАСТОТА ЦЕЛЕВЫХ КОНТАКТОВ – количество контактов одного представителя целевой аудитории:

· с одним выпуском средства массовой информации,

· с несколькими выпусками СМИ,

· с одним выпуском рекламного сообщения,

· с несколькими выпусками рекламного сообщения.

Аффинити индекс и рейтинг в медиапланировании

Медиапланирование оперирует в основном описанием целевой аудитории в социально-демографических терминах, хотя в основе фиксации целевой аудитории должно лежать потребление товара. Так происходит не всегда.

Чаще встречается ситуация, когда мы изучаем потребление какого-либо продукта, получаем социально-демографические характеристики, а потом используем их в программах медиапланирования. В идеале целевой сегмент должен быть равен целевой аудитории. Наиболее активно потребляющая социально-демографические группа людей из группы всех потребителей или активных потребителей определяется на основе аффинити индекса (Affinity Index). В литературе у него встречаются ещё следующие названия:

2. Индекс соответствия.

3. Индекс структуры.

4. Индекс избирательности.

Affinity Index в сегментации при выборе целевого рынкапоказывает, во сколько раз значение признака в социально-демографической группе отличается от значения признака среди населения в целом.

Например, рассмотрим активных потребителей орешков. В социально-демографической группе в возрасте 16 – 19 лет их 20% от всех 16 – 19-летних. Количество активных потребителей орешков среди всего населения — 10%. Аффинити индекс — это 20% делить на 10% и умножить на 100.

AffinityIndex=

В нашем примере мы получим 200, это значит, что 16 – 19-летние в два раза активнее потребляют орешки, чем все население в целом.

На рисунке 22 показаны индексы соответствия одномерных социально-демографических групп потребителей шоколадных конфет.

Рисунок 22 – Аффинити индексы различных социально-демографических групп

Аффинити индекс в медиапланировании показывает, во сколько раз представители целевой аудитории лучше читают, смотрят, слушают СМИ, чем всё население в целом. Рассчитывается как отношение рейтингов или отношение структур.

Rating– рейтинг СМИ, измеряется в процентах. Показывает, насколько хорошо люди читают, смотрят, слушают СМИ. Различают два вида рейтинга – по целевой аудитории и по населению. Отношение ЦГ к ЦА, выраженное в процентах – рейтинг по ЦА, отношение А СМИ к НР, выраженное в процентах – рейтинг по НР. Аффинити индекс – это отношение рейтинга по ЦА к рейтингу по НР, умноженное на 100.

Отношение рейтингов показывает, насколько целевой рынок лучше контактирует со СМИ, чем все население.

Структура – это отношение ЦГ к А или ЦА к НР, выраженные в процентах. В первом случае мы получаем структуру аудитории. Т.е. сколько процентов занимает целевая группа определенного СМИ во всей аудитории СМИ. Рассмотрим структуры на примере аудиторий радиостанций.

Аффинити индекс можно вычислить как отношение структур, где в числителе стоит структура аудитории, а знаменателе – структура населения региона.

Математически, аффинити индексы, вычисленные через рейтинги и через структуры, дают одинаковый результат.

Например, если население региона 3200 тыс. человек, из них газету Х читает 1600 тыс. человек. Целевая аудитория, которая зафиксирована как «люди в возрасте 16 – 19 лет», составляет 600 тыс. человек, целевая группа газеты Х составляет 180 тыс. человек. Аффинити индекс составит:

5.3. Показатели медиапланирования

Охват, количество рекламных контактов и частотность

В медиапланировании используются три основных показателя – охват, количество рекламных контактов и частотность (частота).

Охват(reach, reach 1+) – количество людей из целевой аудитории рекламного воздействия, которые увидели рекламное объявление хотя бы один раз в момент времени или за период рекламной кампании, измеряется в тыс. чел. или в процентах как доля от целевой аудитории. Охват необходимо максимизировать– это одна из задач медиапланирования.

Одномоментный охват (reach, reach 1+) – «точечный охват» в один момент времени (час, день, неделю). Максимальная длительность «точки» – неделя.

Охват за период – охват за промежуток времени, в течение которого может выйти несколько объявлений подряд в одном СМИ (несколько дней, недель, максимум – месяц). За период больше месяца охват не считают. Если в момент времени мы использовали для рекламы одно СМИ, то одномоментный охват совпадет с рейтингом этого СМИ.

При измерении охвата целевой аудитории, в процессе выбора СМИ для размещения рекламы, возникает проблема дублирования (рисунок 23). Представитель целевой аудитории (ЦА выделена на рисунке серым цветом) контактирует не с одним СМИ, а одновременно с несколькими (читает две, три газеты, смотрит несколько телепередач и т.п.). Человек видит одно и то же объявление в разных СМИ примерно в один и тот же момент времени (день) или за какой-либо период. В данном случае мы можем говорить о нарастании охвата рекламой целевой аудитории.

Рисунок 23 – Пересечение целевых групп и охват целевой аудитории

Источник: poisk-ru.ru

Секреты адресной программы

– Важнейшее условие эффективности наружной рекламы – грамотно составленная адресная программа. Конечно, на выбор поверхностей влияют несколько факторов, и в первую очередь коммуникационные цели, которые ставит перед собой рекламодатель, бюджет, выделенный на проведение кампании, и возможности оператора, с которым осуществляется сотрудничество.

Читайте также:
Юмор что это за программа

В качестве еще одного определяющего фактора может выступать экспертное знание о городе. К примеру, в Санкт-Петербурге сити-форматы сконцентрированы в центре города, в то время как щиты 3 на 6 метров – в спальных районах. Исходя из этого очевидно, что информацию, направленную на пешеходов, необходимо размещать в центре, а если речь идет об автомобилистах, то на въездах и выездах из города, а также вдоль крупных магистралей. Влияние может оказывать расположение станций метро, бизнес-центров, культурных объектов. С этой точки зрения у каждого рекламодателя – свой город.

Все указанные факторы определяют тип программы размещения. Это может быть охватная программа, направленная на то, чтобы о рекламируемой компании или продукте узнало максимальное число потребителей; целевая, в рамках которой главное – найти выход на определенную аудиторию; навигационная, призванная с помощью рекламных поверхностей указать местоположение какого-нибудь объекта. В первом случае стоит брать разные носители, рассредоточенные по городу, во втором, напротив, – локализовать поверхности вокруг определенных точек на карте города (например, тех же бизнес-центров), в третьем – взять два-три щита в непосредственной близости от объекта.

Понимание особенностей рекламной кампании помогает составить четкий бриф, который существенно облегчает работу оператора и дает возможность составить оптимальную с точки зрения соотношения «цена – качество» программу размещения. Хороший бриф – половина успеха. Он экономит силы, время и средства, что, безусловно, должны взять на заметку все рекламодатели.

Источник: expert.ru

Составление адресных программ что это

Описание направления деятельности

Современный этап развития нефтяной промышленности характеризуется постоянным увеличением доли трудноизвлекаемых запасов нефти и снижением эффективности разработки продуктивных пластов. Принимая это во внимание, а также важность повышения конечной нефтеотдачи пластов, АО «ВНИИнефть» проводит составление адресных программ ГТМ как технологий обработки скважин, так и методов ПНП применительно к конкретным геолого-физическим условиям продуктивных пластов. Адресный подход к составлению программ ГТМ позволяет не только улучшить технологические показатели разработки нефтяных месторождений, но и снизить материальные и трудовые затраты, что является весьма актуальным в существующих экономических условиях.

Наибольшая часть разрабатываемых месторождений находятся на завершающей стадии разработки или приближаются к ней. Как показывает многолетний опыт, наиболее перспективными методами воздействия на этом этапе разработки являются физико-химические и особенно гидродинамические методы увеличения нефтеотдачи. Применение эффективных технологий, направленных на выравнивание профиля приемистости, перераспределение фильтрационных потоков и снижение обводненности добываемой продукции скважин, является одним из направлений повышения технико-экономических показателей разработки, особенно при разработке месторождений на поздней стадии, характеризующейся отбором большого количества попутной воды.

На разрабатываемых и вновь вводимых в разработку нефтяных месторождениях АО «ВНИИнефть» предлагает в широких масштабах применять системную технологию воздействия на пласт. Один из основных принципов системной технологии заключается в том, что промысловые работы проводятся по адресным программам работ на отдельном участке месторождения или на отдельном пласте в целом. Во всех добывающих и нагнетательных скважинах практически одновременно проводят воздействие на ПЗП тем или иным методом, позволяющим получить проектируемый технологический эффект. Кроме того, системная технология включает в себя следующие принципы:

— массовость и периодичность обработок;

— многоэтапность ОПЗ пласта в скважинах, вскрывших неоднородные коллекторы;

— системное изменение направления фильтрационных потоков в пласте;

— выбор технологий ОПЗ пласта под конкретные геолого-физические условия призабойных зон коллектора и месторождения в целом.

Опыт работы по направлению:

Талинская площадь Красноленинского месторождения; месторождения Мегионского и Ноябрьского регионов Западной Сибири; Северо-Хоседаюское месторождение; месторождение Белый Тигр (Вьетнам).

Разработана и апробирована методика критериального выбора объектов разработки для реализации нестационарного заводнения. Составление адресных программ основано на положениях патента РФ №2513787 «Способ разработки нефтяной залежи на основе системно-адресного воздействия».

Например, дополнительная добыча нефти от реализации адресных программ по повышению эффективности разработки месторождений ОАО «Славнефть-Мегионнефтегаз» за 2005-2014 гг. составляет более 1,35 млн. т (нестационарное заводнение — 374,4 тыс. т; адресные обработки скважин — 983,3 тыс. т, при сокращении попутно добываемой воды более 3,6 млн. т).

Алгоритм реализации адресных программ

Комплексная технология воздействия на пласт

Системный анализ текущих показателей разработки в целях повышения эффективности процесса заводнения

Прогноз извлекаемых запасов

Источник: www.vniineft.ru

Как выбрать алгоритм для адресного фильтра

Довольно часто на Хабре появляются статьи с новыми алгоритмами автоматического разбора адресов, записанных одной строкой. Кроме этого, услуги по обработке адресов предоставляют различные it-компании. В статье мы расскажем как использовать свою адресную базу для выбора алгоритма автоматического разбора адресов, и на что стоит обратить внимание при тестировании и разработке алгоритмов адресных фильтров.

  1. убедиться, что адрес существует, чтобы не отправить посылку или письмо в никуда;
  2. разбить адрес на компоненты, чтобы понять, где идут лучше продажи;
  3. дополнить адрес недостающей информацией, чтобы оптимизировать план работы курьеров;
  4. стандартизовать адреса, чтобы найти дублирующие записи одного и того же клиента;
  5. актуализировать и привести адреса к формату справочника, чтобы пройти проверки регуляторов.

Что мы знаем об адресах

Для начала представимся. Мы занимаемся задачей автоматизированного разбора адресов более 9 лет. За это время мы работали как с крупными компаниями, так и с небольшими фирмами. Мы накопили большую выборку адресов, описывающую формат данных заказчиков, чтобы хорошо понимать, как наши идеи влияют на качество обработки адресов в реальных системах.

В течение последнего года мы разрабатывали новую версию алгоритма (мы его называем адресным фильтром) с целью поставить точку в алгоритме разбора адресов.

Определяем задачу

  1. получить хороший адрес от клиента сразу (например, при помощи подсказок по адресам);
  2. нанять операторов для ручного разбора адресов;
  3. автоматически разобрать данные.
  1. разобрать адреса автоматически с указанием показателя качества разбора адреса;
  2. адреса с хорошим показателем качества — отправить в бизнес-процессы, а с плохим — отдать на разбор операторам.

Если вы решите использовать этот вариант или же разбирать адреса только автоматически, то необходимо будет правильно выбрать алгоритм для автоматического разбора данных. Как это сделать, мы расскажем дальше.

Готовим адреса

Для выбора алгоритма надо проанализировать результаты обработки некоторого объёма адресов разными алгоритмами. Кажется логичным взять часть адресов из реальных данных и дополнить их адресами с косметическими исправлениями, чтобы проверить, какой процент адресов с ошибками и опечатками будет распознан правильно.

Заблуждение первое: автоматически исправлять любые опечатки — хорошо

Большинство наших заказчиков, кто впервые сталкивался с задачей автоматического разбора адресов, да и мы сами на первых порах думали, что исправление опечаток — это основное, что должен уметь любой уважающий себя алгоритм.

Читайте также:
Imagenomic portraiture что это за программа

Впоследствии мы поняли, что исправление опечаток выглядит красиво лишь на этапе демонстраций, когда вместо проверки алгоритма на своих адресах заказчики выдумывают небывалые случаи, восторгаясь преобразованиями вида «ихонравова,, Масква, Юбилейной, М.К.» в «Московская обл, г Юбилейный, ул Тихонравова». В боевых условиях этот функционал не только не используется, но и вредит работе с основной базой адресов.

Наши исследования показывают, что в исходных адресах корпоративных систем редко встречается более 2% адресов с опечатками — среди всех наших клиентов процент таких систем меньше 5%. При этом большинство опечаток (около 95% от всех опечаток) носят системный характер, то есть это либо часто встречающаяся опечатка, например, Масква, либо исправление вида ул. 3ая Мытищинская >>> ул.

3-я Мытищинская или ул. Толстой >>> ул. Толстого. Эти опечатки можно описать конечным набором правил, который позволит их исправить.

Чем плохо исправление опечаток в общем случае? Производя исправление всех опечаток по n-граммам, расстоянию Левенштейна и т.п., алгоритм пытается притянуть адрес к справочнику с большим шансом получить совсем не то, что подразумевалось в исходном адресе. Кроме того, в исходном адресе может содержаться дополнительная информация, отсутствующая в адресном справочнике: название компании, бизнес-центра, как пройти от метро и т.д. В алгоритме с исправлением опечаток эти дополнения с большой долей вероятности будут восприняты как нормальный компонент адреса.

За 9 лет работы мы пришли к выводу, что необходимо делать исправление опечаток только по правилам, которые гарантируют, что данная опечатка может быть приведена только к корректным проанализированным вариантам.

Таким образом, мы советуем проверять алгоритмы только на реальных данных без искусственных искажений. Например, если у вас в базе есть адрес Москва Пушкина 13, то и используйте его, а не Маск Пушикино 13.

К алгоритмам с исправлением опечаток нужно относиться осторожно. Худшее, к чему может привести использование алгоритма с логикой исправления опечаток, описанной выше, — это получение неправильно разобранных адресов с хорошим кодом качества.

Заблуждение второе: процент хорошо разобранных адресов — основной критерий выбора фильтра (кроме стоимости, конечно)

Любой алгоритм автоматического разбора адресов на вход принимает адрес, а на выходе — выдаёт его же в стандартизированном виде. Обычно он умеет возвращать признак, показывающий, уверен алгоритм в разборе адреса или нет. Такой признак обычно называют кодом качества.

Адреса наших заказчиков с хорошим кодом качества разбора автоматически уходят в бизнес-процессы, а с плохим кодом качества — отправляются на ручной разбор. Чем больше процент адресов с хорошим кодом качества, тем больше заказчик экономит на процессе ручной обработки адресов.

Таким образом, основным критерием выбора алгоритма становится процент адресов с хорошим кодом качества.

Часто забывают один важный момент: гораздо дешевле привести адрес с плохим кодом качества к хорошему вручную, чем исправлять последствия в системе, которые повлекут неправильно распознанные адреса с хорошим кодом качества.

Например, сейчас мы разрабатываем систему оценки стоимости недвижимости, где для каждого дома известна стоимость квадратного метра, которая используется для оценки платежеспособности клиента при выдаче кредита. Система автоматически анализирует новые объявления о продаже квартир в сети, стандартизирует адрес и корректирует среднюю стоимость в справочнике. В случае, если среди стандартизированных адресов будет много адресов с неправильным разбором и хорошим кодом качества, у нас будет много ошибок в справочнике, где вместо реальной средней стоимости квартиры она будет в несколько раз выше или ниже. Такие адреса сложно найти, при этом они оказывают сильное негативное влияние на бизнес-процессы.

Именно этим и плохо автоматическое исправление всех опечаток: алгоритм пытается притянуть заведомо плохой адрес к справочнику с хорошим кодом качества, чем увеличивает процент обратной ошибки, то есть процент адресов с хорошим кодом качества, но неправильно стандартизированных.

На какие адреса обратить внимание

  • Адреса с опечатками или неправильным указанием компонента адреса (например, 3ая Мытищинская вместо 3-я Мытищинская).
  • Неоднозначные адреса, для которых только по исходным данным нельзя однозначно определить, о чём идёт речь, в том числе при анализе оператором. Например, пропущенные или некорректно указанные компоненты адреса: Москва, Тверская может подразумевать как Тверскую площадь, так и улицу.
  • Ошибку в указании типа адресного компонента. По нашим данным, около 5% адресов заказчиков содержат те или иные ошибки указания типа компонента адреса: вместо «посёлок городского типа» пишут «деревня», вместо «тупик» пишут «переулок» и так далее.
  • Ошибку в указании самого компонента. Чаще всего неправильно указывают:
  • Район, в котором находится населённый пункт, если он находится на границе двух районов. Например, в адресе Московская область, Дмитровский район, пгт Запрудня некорректно указан район, правильно — Талдомский.
  • Регион, в котором находится объект. Особенно часто это встречается с адресами Москвы и Санкт-Петербурга, например:
  • Ленинградская область, Санкт-Петербург, Фонтанка
  • Московская область, Москва, ул. Расторгуева
  • Московская область, Зеленоград, к 3113

Сравниваем алгоритмы

  1. Процент разбора хороших адресов (то есть адреса без мусора, неоднозначностей и опечаток). Алгоритм должен уметь правильно разбирать хорошие адреса с хорошим кодом качества.
  2. Процент разбора плохих адресов. Алгоритм должен уметь максимально хорошо разбирать плохие адреса, то есть, если адрес плохой, но может быть хорошо разобран с хорошим кодом качества, то алгоритм должен уметь это делать.
  3. Процент адресов с обратной ошибкой. Алгоритм должен содержать минимальную обратную ошибку, то есть не проставлять адресам с некорректным разбором хороший код качества. Нам кажется это самым важным пунктом из всех.
  4. Наличие дополнительных свойств стандартизированного адреса. Алгоритм должен предоставлять удобные рычаги для анализа и работы с адресами с плохими кодами качества. При этом работа с инструментами должна быть простой и понятной.

Выводы

Задача автоматического разбора адресов не такая простая, как кажется на первый взгляд. Если вы решили выбрать алгоритм для разбора адресов или же написать свой, то нужно подойти к этому процессу правильно: проанализировать существующие адреса, сделать репрезентативную выборку для тестов. Надеемся, что эта статья поможет вам в этой работе и все ваши адреса будут разбираться автоматически и правильно.

P.S.: В течение месяца мы установим новую версию адресного фильтра, про которую шла речь в начале статьи, на dadata.ru. Зарегистрируйтесь, чтобы быть в курсе и оказаться в числе первых исследователей нового алгоритма.

Спасибо chipQA за помощь при подготовке статьи.

  • Блог компании HFLabs
  • Программирование
  • Алгоритмы

Источник: habr.com

Рейтинг
( Пока оценок нет )
Загрузка ...
EFT-Soft.ru