В предыдущей серии постов для начинающих (первый пост тут) из ремикса книги Генри Гарнера «Clojure для исследования данных» (Clojure for Data Science) на языке Python было представлено несколько численных и визуальных подходов, чтобы понять, что из себя представляет нормальное распределение. Мы обсудили несколько описательных статистик, таких как среднее значение и стандартное отклонение, и то, как они могут использоваться для краткого резюмирования больших объемов данных.
Набор данных обычно представляет собой выборку из некой более крупной популяции, или генеральной совокупности. Иногда эта популяция слишком большая, чтобы быть измеренной полностью. Иногда она неизмерима по своей природе, потому что она бесконечна по размеру либо потому что к ней нельзя получить непосредственный доступ. В любом случае мы вынуждены делать вывод, исходя из данных, которыми мы располагаем.
В этой серии из 4-х постов мы рассмотрим статистический вывод: каким образом можно выйти за пределы простого описания выборок и вместо этого описать популяцию, из которой они были отобраны. Мы подробно рассмотрим степени нашей уверенности в выводах, которые мы делаем из выборочных данных. Мы раскроем суть робастного подхода к решению задач в области исследования данных, каким является проверка статистических гипотез, которая как раз и привносит научность в исcледование данных.
Excel для начинающих. Урок 12: Базы данных: простая статистика
Кроме того, по ходу изложения будут выделены болевые точки, связанные с терминологическим дрейфом в отечественной статистике, иногда затуманивающим смысл и подменяющим понятия. В конце заключительного поста можно будет проголосовать за или против размещения следующей серии постов. А пока же…
В целях иллюстрации принципов статистического вывода, мы создадим вымышленную компанию под названием AcmeContent, которая недавно наняла нас в качестве исследователей данных.
Представляем AcmeContent
Для оказания помощи в иллюстрировании понятий, представленных в этой серии постов, предположим, что в компанию AcmeContent нас недавно назначили в качестве исследователей данных. Компания заведует веб-сайтом, предлагающим своим посетителям возможность делиться между собой понравившимися им видеоклипами по Интернет.
Одна из метрик, которая отслеживается в AcmeContent посредством веб-аналитики — это время пребывания. Указанная метрика служит мерой количества времени, в течение которого посетитель остается на веб-сайте. Безусловно, посетителям, которые проводят на веб-сайте продолжительное время, веб-сайт нравится, и в AcmeContent хотели бы, чтобы посетители оставались на нем максимально долго.
Время пребывания (dwell time)— это отрезок времени между временем, прибытия посетителя на веб-сайт и временем, когда он сделал последний запрос.
Отскок (bounce) — это посетитель, который выполняет всего один запрос — его время пребывания равно нулю.
На вас, как новом исследователе данных, лежит в компании обязанность анализировать время пребывания посетителей на веб-сайте — этот показатель фигурирует в аналитических отчетах посещаемости веб-страниц и разделов веб-сайта — и измерять успех веб-сайта AcmeContent.
Как сделать анимированное видео статистики (инфографика в стиле beautiful data)
Загрузка и обследование данных
Здесь мы будем пользоваться теми же самыми библиотеками, что и ранее: scipy, pandas и matplotlib. В предыдущей серии постов мы использовали библиотеку pandas для загрузки электронных таблиц Excel, задействуя ее функцию read_excel . Здесь мы будем загружать набор данных из текстового файла с разделением значений символом табуляции. Для этого мы воспользуемся функцией pandas read_csv , которая на входе ожидает URL-адрес либо путь к файлу в строковом формате.
Файл был любезно переформатирован веб-командой AcmeContent и содержит всего два столбца — дату запроса и время пребывания на веб-сайте в секундах. Заголовки столбцов расположены в первой строке файла:
Названия приводимых примеров имеют формат ex_N_M, где ex — example (пример), N — номер серии постов и M — порядковый номер в посте. Примеры оформлены в виде функций без аргументов и возвращаемых значений. Это сделано намеренно, т.к. задачно-ориентированный стиль изложения требует кратких и четких примеров без отвлекающей внимание информации. К тому же, в таком виде примеры могут быть собраны вместе и исполняться независимо в рамках программной оболочки.
def load_data( fname ): return pd.read_csv(‘data/ch02/’ + fname, ‘t’) def ex_2_1(): return load_data(‘dwell-times.tsv’).head()
Если выполнить этот пример (в консоли интерпретатора Python либо в блокноте Jupyter), то можно увидеть результат, который показан ниже:
date
dwell-time
1
2
3
4
Посмотрим, как выглядит время пребывания на гистограмме.
Визуализация времени пребывания
Разработка программы для сбора статистики.
Задача блока статистики заключается в накоплении численных значений необходимых для вычисления статистических оценок, заданных параметров работы моделируемой системы. При моделировании простейшей модели СМО, как правило, оценивают среднее время ожидания в очереди. Для каждого сообщениявремя ожидания в очередиравно разности между моментами времени когда оно было выбрано на обработку обслуживающим аппаратом и моментом времени когда оно пришло в систему от источника информации.
Суммируя количество сообщений в блоке памяти через небольшие промежутки времени и разделив полученную сумму на число суммирований, получим среднее значение длины очереди.
Коэффициент загрузкиобслуживающего аппарата (ОА) определяется как отношение времени работы ОА, к общему времени моделирования.
Чтобы определить вероятность потери сообщенийв системе, нужно разделить кол-во потерянных сообщений на сумму потерянных и обработанных сообщений в системе.
Управляющая программа имитационной модели.
Если программа-имитатор работы источника или буферной памяти обслуживающего аппарата имитируют работу отдельных устройств, то управляющая программаимитирует алгоритм взаимодействия отдельных устройств системы.
Управляющая программа реализуется в основном по двум принципам:
Принципt.
Принцип tзаключается в последовательном анализе состояний всех блоков в момент t +tпо заданному состоянию блоков в момент t. При этом новое состояние блоков определяется в соответствии с их алгоритмическим описанием с учетом действующих случайных факторов, задаваемых распределениями вероятности. В результате такого анализа принимается решение о том, какие общесистемные события должны имитироваться программной моделью на данный момент времени. Основной недостатокэтого принципа: значительные затраты машинного времени на реализацию моделирования системы. А при недостаточно маломtпоявляется опасность пропуска отдельных событий в системе, что исключает возможность получения адекватных результатов при моделировании. Достоинство: равномерная протяжка времени.
Событийный принцип.
Характерное свойство систем обработки информации то, что состояние отдельных устройств изменяются в дискретные моменты времени, совпадающие с моментами времени поступления сообщений в систему, временем поступления окончания задачи, времени поступления аварийных сигналов и т.д. Поэтому моделирование и продвижение времени в системе удобно проводить, используя событийный принцип, при котором состояние всех блоков имитационной модели анализируется лишь в момент появления какого-либо события. Момент поступления следующего события определяется минимальным значением из списка будущих событий, представляющего собой совокупность моментов ближайшего изменения состояния каждого из блоков системы. Недостаток событийного принципа: (самостоятельная обработка) Схема событийного принципа: Первая ось: момент появления сообщений Вторая ось: момент освобождения обслуживающего аппарата Третья ось: момент сбора статистики (здесь абсолютно равные интервалы, мы сами определяем, когда собирать статистику) Четвертая ось: время окончания моделирования Пятая ось: текущее время t11, t12– моменты появления сообщений на выходе генератора (источника информации) b1– интервал времени обслуживания первого сообщения t3 n– момент сбора статистики t41 – момент окончания моделирования SBS– список будущих событий.
Источник: studfile.net
Как самому создать систему бизнес-аналитики
Строили мы как-то одному заказчику центральный офис для оконной компании. И у нас получилась отличная аналитика по всем отделам. Интегрировали в Microsoft Power BI: битрикс, их crm собственную, гугл-таблицы, 1С, скорозвон и т.д. и т.п. Получилось очень удобно и для нас, и для собственника. Рассказываем, как повторить такое для себя.
Статистика — вроде бикини. То, что она показывает, — наводит на мысли, а что скрывает — жизненно важно.
Аарон Левенштейн
Приветствую! В эфире Дмитрий Мерше. Я занимаюсь [магией цифр] построением систем бизнес-аналитики под ключ. Сегодня мы с вами разберем, что это за зверь, зачем и кому оно надо, и как сиё действо воплотить вне матрицы. Кто уже на пути создания — вам сюда.
Эта статья не для BI-разработчиков, не для UX дизайнеров, и не для бизнес-аналитиков. Здесь вы не найдете никаких технических рекомендаций. Это описание для пользователей системы — предпринимателей. Остальным путь на хабр 🙂
Материал большой. Примерно на 16 минут прочтения. Налейте [успокоительного] чаю, переведите смартфоны в режим удовольствия и…
Добрый путник войди в статистический рай!
Ты своим не поверишь глазам.
Ждем тебя впереди, поскорей прочитай,
Ты готов? Открывайся сезам!
Что это такое?
Бизнес-аналитика — [неведома зверушка] онлайн система отчетов и дашбордов обо всем в компании при помощи BI-служб визуализации данных. Все просто, да.
Простым языком — это приборная доска для компании. В одном месте собираются все данные по продажам, финансам, маркетингу, складу, производству, центральному офису и т.п. Потом происходит [нудная техническая часть] разработка. На выходе у нас красивые, удобно функциональные отчеты, графики, диаграммы.
Если бизнес — это автомобиль тесла, то аналитика — планшет на приборной панели. Он сам не управляет машиной, но как без него обойтись решительно непонятно.
Зачем нужно?
Это красиво, удобно и таким грех не понтануться. А еще:
Экономим время
К сожалению, до сих пор не существует универсальной CRM, которая бы включила в себя весь бизнес. Такие вещи делают под ключ за несколько сотен тысяч долларов.
Лично я вообще думаю, что это невозможно. Не существует лучшего ноутбука. Для игр надо брать что-то с подсветкой, для поездок планшет трансформер, а на съемки яблочко. Также и тут нельзя собрать все в одно. Получится [битрикс] несуразное чудище.
Нужно использовать инструменты, которые профессионально заточены под конкретный отдел.
И чтобы не бегать, как дурачок по всей компании с линейками, транспортирами и тахикардией — все это интегрируется в одну систему аналитики. Все под рукой сию секунду, автоматически и наглядно. Со смартфона, планшета или компа. Реально можно будет лежать на пляже и все видеть.
Растим прибыль
Когда твоя прибыль видна через секунду после заключения сделки — хочется [уединиться в душе] хлопать в ладоши. Сразу отсекаются лишние расходы, испаряются неэффективные сотрудники, а деньги [не тратятся направо и налево] вкладываются только в самые выгодные товары/отделы/направления.
Есть такая странная метафизическая закономерность. Если смотреть за складом — оттуда ничего не пропадает. Если наблюдать за результатами сотрудников — они [впадают в паранойю] быстрее работают. А если каждый день следить за прибылью — о чудо! — она растет.
Масштабируемся
1. Процессы. С какой конверсией менеджеры продают, какой процент подписчиков кликает на рекламу и сколько посылок доезжает до клиента в некондиции
2. Ресурсы. Деньги, сырье, электричество, упаковка, люди и т.д.
3. Время. Как быстро клиенту отвечают на заявку, количество закупленного рабочего времени и сколько времени сырье в реакторе превращается в крем.
4. Прибыль. Доход на единицу продукции, на единицу менеджеров и сколько надо вернуть в основные средства
5. Активы. Все то, что компания приобретает, но напрямую от этого прибыль не получает. Подписчики в инсте, обучение сотрудников и отзывы на картах.
В любой лаборатории измерительных приборов примерно столько же, сколько и оборудования для экспериментов. А чем бизнес хуже?
Принимаем решения
Когда все данные на одном экране — видно даже то, что старательно прячут. Настоящие проблемы, истинные точки роста, реальные результаты работы. Сию секунду видно где проблема, кто ее создал и [за это вкрячиться] может решить.
При этом можно действовать СЕЙЧАС.. Не через месяц, когда все все забудут, а настраивать процесс не отходя от кассы. Как говорится куй [вам, а не дармоедство] железо пока горячо. Иногда вовремя принятое решение работает лучше, чем правильное, но опоздавшее.
Вычисляем нахлебников
Нахлебник — он не просто напрасно получает деньги. Как бы не так. Он генерирует отрицательный результат. Показывает плохой пример, отвлекает других сотрудников, нарушает бизнес-процессы. Как вражеский диверсант — делает все, что угодно, ради уничтожения вашей компании.
Хватит это терпеть!
Нужны отчеты, которые видят все. И эти “все” знают, что их видите и вы. Больше не прокатит спрятаться за спину друга, потеряться на фоне отдела, или даже просто порешать по-братски. Работать все-таки придется
Нахлебникам становится скучно. Когда наказание неотвратимо — пропадает интрига. Ты по любому получишь [100 ударов плетью] выговор, косые взгляды коллег и будешь думать о смене места делания вида, что работаешь.
Растим команду
При этом есть «горячие» сотрудники. Не в смысле, сексуальные. А те, кто хотят развиваться. Карьерный рост, зарплата, руководство отделом. А если они еще и сексуальные…
Они должны быть вознаграждены, им надо чувствовать влияние на компанию. Каждый такой получает личный спидометр. А если еще и связать все ключевые метрики, мотивации и регламенты воедино… Тогда голова начинает [болеть] работать у всей команды, а не у вас.
Увеличиваем капитализацию
Бизнес стоит ровно столько, сколько за него готовы заплатить. Точная стоимость компании и финансовая прозрачность — волшебный единорог. И инвестора просто найти, и кредит взять, и просто хвастаться перед друзьями.
Даже управление компанией немного меняется, когда прогноз капитализации падает. Думаешь не здесь и сейчас, а [О-БОГИ-ЧТО-ПРОИСХОДИТ] о долгосрочных клиентах.
Свое дело превращается в компьютерную игру. Отклик просто моментальный. Только принял какое-нибудь сюжетно важное решение и сразу показывается, как это повлияло на расклад сил. 2057 год, здравствуйте.
Кому нужна статистика
Аналитика не требуется только в одном случае — когда у вас нет компании. Во всех остальных — извините, но хозяйство требует администрации. Правда, если у вас микрокоманда до 10 человек, выручка до 50 тысяч долларов и амбиции не велят лишний раз шевелиться — гугл-таблички закроют все потребности
- Крупным производственным компаниям. Для контроля закупок, склада, позиционной окупаемости, конвейера и др.
- Франшизам. Аналитика дает максимум прозрачности для всех франчайзи. Да и продавать франшизу легче с такой красивой картинкой.
- Удаленным торговым сетям. Управлять филиалами трудно. Но если всех хотя бы причесать под одну шкалу измерения.
- Компаниям со штатом более 100 человек [и эльфов]. Невозможно уследить за всем своими силами. Рано или поздно штат вырастает и компания выходит из под контроля. Нужно вовремя наладить коммуникацию и параметры эффективности
- Агентством с большим количеством заказчиков. Нужно отслеживать загруженность специалистов, окупаемость проектов, сроки выполнения задач, финансы, зарплаты и многое другое.
Шаг 1. Анализ
Детально все продумываем. Иначе можно потратить [жизнь] много времени и получить [геморрой] абсолютно бесполезные графики, которые ничего вам не расскажут. Даже под пытками.
В первую очередь необходимо выяснить бизнес-цель компании. И нет, это не деньги, не продажи и не [жадная улыбка собственника] выручка. Если вы продаете спутниковые тарелки — то ваша бизнес-цель — обеспечение досуга людей посредством стабильного доступа к телевидению. А сколько уже вы на этом зарабатываете, сколько надо сотрудников и какого диаметра тарелка — это, как говорится, ваши проблемы.
Почему так? Потому что клиент приходит к вам не за тарелкой, не чтобы оставить денег и не чтобы у собственника рос счет в банке. Ему нужно определенное изменение в жизни. Следовательно, количество проданного оборудования — это только промежуточная метрика. Еще монтаж, обратная связь и (возможно!) обеспечение досуга во всех комнатах.
[Если вы понимаете о чем я. ] А это связывание в единую сеть компьютера, телека, музыки, умного дома и т.п.
Ни одна компания не появилась на свет с сформированной целью. Бизнес — для денег. Часто у новых заказчиков мы видим результат работы доморощенных фрилансеров. Красиво, весело, но абсолютно бесполезно. Потому что просто бездумно набросанные куча цифр — это [говно] бесцельно набросанная куча цифр, а не дашборд.
Шаг 2. Описание бизнес-процессов
Далее, по-хорошему, описать все бизнес-процессы хотя бы по стандарту BPMN 2.0 (это не мат). На худой конец воспользуйтесь просто майнд-картами. По сути это полное описание всех действий, которые в компании происходят. Ну или должны происходить..
Поступает заявка на сайт — через интеграцию падает в CRM — сервис рассылок посылает приветственное сообщение — менеджер [долбится в глаза] в течение 10 минут связывается с клиентом — клиент соглашается купить -менеджер отправляет коммерческое предложение, если не соглашается, то… Нудная работа, в общем, делать это описание. Но важная.
Если автоматизировать бардак, то получится… автоматизированный бардак, как ни странно. Ниоткуда не возьмись ниоткуда не взялось. Лучше расписать все, чтобы увидеть [бездельников] пробелы, сопоставить все происходящее с [зарплатами] бизнес-целью и докрутить [систему пыток] должностные инструкции. Скорее всего на этом этапе вы будете внедрять дополнительные системы учета, менять мотивации, переписывать регламенты и т.п.
Выбрали цель, отрисовали бизнес-процессы, выпили валерьянки. Приступаем к сбору требований.
Шаг 3. Сбор требований
Необходимы интервью с непосредственными исполнителями — с руководителями отделов и сотрудниками. Лучше всего, если это будет делать сторонний человек, чтобы не было зашоренности внутренней кухней. Вообще, все описанные выше процессы — работа бизнес-аналитика.
Формируем понимание по показателям: какие влияют на сотрудников, на какие цифры влияют они сами. В каком порядке и когда они их узнают. А главное — что потом с этим делают. Набрасываются описания отчетов и дашборда для конкретного специалиста. Главное — [не убить их всех] беспристрастность.
Далее делаем сводные дашборды по отделам. И только после этого укрупняем до операционного и стратегического дашборда по всей компании. То есть начинаем строить систему снизу. Чтобы на выходе получить реальные цифры, рабочие отчеты с разными уровнями доступа для команды.
Есть 4 способа [сохранить рассудок после этого] представить показатели: на текущий момент, в динамике, прогнозная модель и сравнение с другими данными / отделами / менеджерами. По хорошему, все это должно быть отражено в аналитике. Вряд ли на одном дашборде, но точно необходимы все.
То есть: сколько продаж сейчас, сколько было продаж за период в графике, прогноз продаж на будущее тоже в графике и отдельно сравнение по менеджерам. И такая структура для всех важных показателей
Шаг 4. Проектирование
Этот этап часто [посылают лесом] пропускают. Типа функциональность мы уже получили, а как это выглядит — неважно. А вот нетушки. На эти данные вы будете смотреть изо дня в день, сравнивать их и [показывать друзьям] принимать решения. Это должно быть как минимум удобно.
Следующим этапом вам понадобится UX дизайнер. У нас бывали такие случаи, когда просто переставив все местами, получилась совершенно другая картина по отделу. Все данные должны быть визуализированы по всем канонам [голливуда] эргономичного дизайна
Перед вами сложная задача — «прочитать» большой объем информации за 5 секунд. Поэтому на дашборде не должно быть лишних цифр, которые можно убрать. Удаляйте таблицы. Все, что не определяется с первого взгляда — в помойку.
Первая информация, которую мозг получает от глаз — форма объекта. Следует избегать одинаковых графиков и диаграмм на одной странице. Также между блоками должно быть пространство. Все блоки надо разделить на функциональные группы. Маркетинг в одной кучке, финансы в своем углу, а продажи [могли быть и повыше] по центру дашборда.
После формы объекта мозг обращает внимание на цвет. Они имеют даже большее значение, чем цифры. Палитра должна быть визуальной подсказкой. Чтобы не запутать пользователя, не берите много цветов. Идеальное количество — 1. Черный, белый, градации серого и один фирменный акцентный цвет
Опытный дизайнер уже имеет за плечами несколько успешных проектов, у него в голове [опилки] уже есть сложившиеся примеры. Но даже ему понадобится минимум день на один отчет. А на главные дашборды иногда уходит до трех дней.
Не пренебрегайте этим этапом. В конце концов, как вы потом будете хвастаться непонятными табличками перед коллегами? 🙂
Шаг 5. Разработка
Настала пора обратиться к BI разработчику. У него на руках бизнес процессы, макеты всех страниц, dashboard canvas (это не мат, клянусь!). Также есть две светлые головы аналитика и дизайнера. Тогда дело пойдет быстрее. Свой первый проект мы делали примерно год.
Спустя шесть зим на разработку уходит 2-3 месяца в среднем.
Задача BI разработчика — интегрировать все данные из разных отделов в Power BI, подключить коннекторы, при необходимости, и воплотить в жизнь задуманное. Здесь часто проект допиливается напильником, вычисляются косяки, вносятся правки и т.п.
Зачастую компании пропускают всё предыдущее и сразу приступают к разработке. Велик риск [продолбать] упустить некоторые ключевые метрики и неправильно собрать всю иерархию. В итоге будет отчетность, которая получится, а не которая нужна.
Шаг 6. Внедрение
И самое интересное. По началу ни вы, ни сотрудники, ни сам бизнес не почувствуют никаких изменений. Потому что аналитика — всего лишь инструмент. [Важен не размер] Все зависит от того, как им пользоваться.
Нужно устроить обучение каждому отделу. С руководителями разобрать их дашборды. Научить сравнивать сотрудников [с крестьянами] между собой, строить [воздушные замки] прогнозы, следить [чтобы не подсидели] за изменениями и т.п.
Любое изменение уже через пару дней будет влиять на прогноз прибыли. И скорость [увольнения нахлебников] внедрения систематизации вспорхнет к аэробусам в полете. Подробнее о том. как мотивировать команду на победу — читайте в этой статье.
Сколько это стоит?
Цена зависит от дислокации компании. Считать будем на примере столицы.
- Бизнес-аналитика лучше всего нанять в штат. У него есть еще много разных [анекдотов] интересных функций. Да и бизнес на месте не стоит. Все процессы нуждаются в шлифовке. Стоимость такого специалиста в районе $2k. в месяц. На аналитику у него уйдет пару месяцев. То есть $4k .
- Дизайнера берем проектно максимум на 2 месяца. Примерно $3k за проект
- Самое сложное — толковый BI разработчик. Их на рынке нынче мало. Самый дешевый сейчас судя по резюме на хэдхантере $2k. Возьмем в среднем $2,5k. Он понадобится примерно на полгода. Примерно $15k.
Сумма заработный платы на разработку аналитики около $22k. Скорее всего еще будут ошибки, сервер, платы за ПО. Итог — $25-27k. Этот расчет действителен на сентябрь 2022 года для средней компании примерно из 4-х ключевых отделов (продажи, финансы, колл-центр, склад).
Заключение
[Вот так легко и просто делается бизнес-аналитика. Всего лишь полгода лишений, мата и безысходности. И готово.] Есть много подводных камней на пути, вроде недостатка квалифицированных кадров, высоких заработных плат, долгих сроков и др. Но [антидепрессанты] железная воля вам в помощь.
Через три-четыре месяца статистика превратится в бьющееся сердце компании. Без нее просто невозможно жить. Это удобно, черт возьми! Красиво, быстро и информативно.
Кстати, забыл упомянуть, что можно настроить уведомления в телеграм по разным сценариям. Например, где-то критично упала [самооценка] маржа, закрыли [сотрудника в каталажку] план или клиент [не облизан] долго ждет ответа. Да, если бы аналитика и кофе автоматически подавала — то секретари бы напряглись.
Часто наши заказчики делают уж совсем неприличную вещь — покупают себе специально планшет, открывают на нем наши дашборды и едут под пальмы. Это не совсем “та самая” глянцевая картинка, но почти-почти вплотную.
P.S. Оставайтесь на этой частоте, подписывайтесь на нас и поменьше вам углеводов. И да прибудет с вами аналитика!
Источник: vc.ru