Данная статья посвящена обработке и анализу данных в социологических исследованиях. В статье рассмотрены методы анализа социологических данных и проведен сравнительный анализ статистических пакетов для обработки данных.
Ключевые слова
СТАТИСТИЧЕСКИЕ ПАКЕТЫ, КЛАСТЕРНЫЙ АНАЛИЗ, ФАКТОРНЫЙ АНАЛИЗ, РЕГРЕССИОННЫЙ АНАЛИЗ, АНАЛИЗ ДАННЫХ, PSPP, DEDUCTOR STUDIO, EPI INFO
Текст научной работы
Развитие социологии означает и развитие социологических исследований, которые обогащают теорию и позволяют разрабатывать механизмы регулирования социальных процессов. Социологические исследования дополняют статистическую информацию определенными данными, в которых собрана информация об интересах и особенностях населения, личных мнениях и настроениях людей, о жизненных планах на будущее, уровне и качестве жизни. Социологические исследования ориентированы на расширение социологических знаний, характеристику исходной познавательной ситуации, разработку гипотез, контролируемое применение методик, полноту отчетов об исследовании и проч.
Комплексные инструменты OSINT. Сбор информации в сети
Проанализировав и обобщив результаты социологических исследований можно дать прогноз развития социальных процессов и явлений. Работа современного социолога и других специалистов невозможна без применения приемов и методов статистики.
Многомерный анализ социологических данных актуален в наше время, потому что социологические данные можно обработать не одним, а несколькими методами, рассмотреть их с нескольких сторон.
В отличие от простых одномерных методов, многомерные методы имеют дело с безграниченными и разрозненными наборами исследуемых объектов, а так же неоднозначными и, как правило, всевозможными и по преимуществу разнонаправленными взаимосвязями между их признаками.
Характер социологических данных
Анализ социологической информации, собранной в ходе эмпирических социологических исследований, является не просто совокупностью технических приемов и методов. Это ключевой этап всего исследования, в котором происходит конкретная проверка соответствия собранной информации тем моделям социальных явлений, которые, явно или скрыто, имеются у социолога. И более того, в процессе анализа определяют и проверяются новые модели, которые в соответствии отображают те закономерности, которые есть в собранных данных.
На первом этапе обработки социолог применяет стандартный набор средств (как правило — это одномерные распределения, таблицы, гистограммы и графики) для наиболее наглядного представления полученных данных. На втором показывается соответствие (или противоречие) данных исследовательской модели, а так же ведется дальнейшая разработка именно самой модели, отходя от самих данных.
При работе с эмпирическими социологическими данными социолог использует основные понятия:
- единица анализа (анкета, случай);
- переменная, признак;
- шкала измерения.
Единица анализа — это элементарная, единичная часть объекта исследования.
Как правильно искать информацию? [Фишки Google]
Переменная и признак — это измеряемые психологические явления. Такими явлениями могут быть время решения задачи, количество допущенных ошибок, уровень тревожности, показатель интеллектуальной лабильности и множество других переменных.
Шкала измерения — упорядоченная последовательность значений. [1].
Методы сбора данных
Для сбора первичных эмпирических данных используют три класса методов: прямое наблюдение, анализ документов и опросы. Методика их применения очень многообразна, поэтому некоторые модификации приняли статус самостоятельных методов, например, такие как интервью или анкетный опрос.
Особенное положение в системе приемов сбора первичных данных занимают экспериментальные методики и психологические тесты. Те и другие предполагают одновременную регистрацию фактов и жестко фиксированные приемы их обработки. Психологические и социально–психологические тесты берутся социологом из соседней области знания. Экспериментальные процедуры следует отнести к приемам анализа, потому что здесь социолог является автором построения логики изучения связей и зависимостей явлений, фиксированных путем наблюдения, опроса или по документам[2].
Данные, полученные в ходе социологических исследований, хранятся в различных источниках, которые находятся в Интернете. Они лежат в открытом доступе. В некоторых возможна онлайн обработка данных. Наиболее популярные источники это — Единый архив экономических и социологических данных (ЕАЭСД), Федеральная служба государственной статистики (Росстат), Институт социологии РАН, Исследовательская группа ЦИРКОН и прочие.
Единый архив экономических и социологических данных (ЕАЭСД) — организация, в которой собраны результаты эмпирических исследований, касающиеся сферы наук об обществе, и имеющая свободный и открытый доступ к результатам этих исследований. Архив был основан в 2000 году. На сегодняшний день в базе данных архива насчитывается около 1000 социологических исследований и более 125 временных рядов основных показателей экономики нашей страны.
Федеральная служба государственной статистики (Росстат) является федеральным органом исполнительной власти, в котором осуществляются функции по обобщению официальной статистической информации о социальных, экономических, демографических, экологических и других общественных процессах в РФ, а также в порядке и случаях, установленных законодательством РФ, функции по контролю в сфере государственной статистической деятельности.
Институт социологии РАН образовался в 1968 г. В то время его называли Институт конкретных социальных исследований АН СССР.
В настоящее время институт занимается разработкой практического направления социологии и политологии, проводит масштабные эмпирические исследования, работает над социологической экспертизой решений, которые разрабатываются и принимаются властными структурами.
Исследовательская группа ЦИРКОН — одна из старейших в России независимая частная исследовательская компания, специализирующаяся на проведении социологических и маркетинговых исследований, информационно-аналитическом обслуживании, политическом и управленческом консультировании.
Сегодня Исследовательская группа ЦИРКОН имеет очень развитую сетевую структуру, в которую входят несколько коллективов специалистов, функция которых заключается в выполнении различного рода исследовательских и социоинженерных задач.
Методы многомерного анализа
Для анализа социологических данных в социологии применяют многомерные методы. Это такие методы, как регрессионный, факторный, кластерный, дисперсионный ну и другие виды анализа данных.
Регрессионный анализ
Основная цель множественного регрессионного анализа построить регрессионную модель с большим количеством факторов (переменных), определить давление каждого из них в отдельности, а также совместное их взаимодействие на зависимую переменную [3].
Назначение регрессионного анализа состоит в том, что бы построить модель, которая будет позволять по значению независимых показателей принимать оценки значения зависимой переменной. Регрессионный анализ считается основным методом исследования зависимостей между социально–экономическими переменными.
Особенностью социологических исследований является то, что постоянно нужно изучать и предсказывать социальные события.
Факторный анализ
Социологический смысл метода факторного анализа заключается в том, что измеряемые эмпирические показатели, переменные являются следствием других, скрытых от непосредственного измерения характеристик — латентных переменных. Латентность характеристик означает их не наблюдаемость, скрытость.
Так как количество общих факторов значительно меньше количества анализируемых признаков, то можно сказать что, методы факторного анализа, направлены на уменьшение размеров анализируемого признакового пространства[4]. Допустим, мы закрепляем уровень доверия респондента к различным государственным институтам. Отсюда будет уместно предположить, что нет отдельных «доверий» к Совету Федерации, Государственной Думе, Счетной палате и проч. Возможно, что у респондента существует общее отношение к институтам центральной власти, которое влияет на то, как респондент будет отвечать на определенные вопросы по доверию к каждому отдельному институту.
Важным имеет значение то, что это общее, единое отношение к институтам государственной власти, формируя отношение к каждому из институтов, не определяет отношения к определенному институту на все 100%. Поэтому, ответ респондента на вопрос о том, насколько он доверяет определенному институту государственной власти, будет зависеть от общего фактора отношения к этим институтам и отдельного отношения именно к конкретному институту.
Метод главных компонент
Наиболее известным из методов поиска факторов выступает метод главных компонент, который заключается в последовательном нахождении факторов. Первым делом находят первый из факторов, который будет объяснять основную часть дисперсии, потом независимый от первого второй фактор, который объясняет большую часть оставшейся дисперсии, и т.д. [5].
Оценка факторов
Математический аппарат, который используется при факторном анализе, в реальности позволяет не вычислять собственно главные оси. За счет операций с корреляционной матрицей вычисляются факторные нагрузки до и после вращения факторов. От сюда следует, что одной из проблем факторного анализа является оценка факторов для объектов.
Когда для анализа применяют метод главных компонент, то факторы, которые имеют свойства, полученные этим методом, находятся с помощью регрессионного уравнения. Для того что бы выполнить оценку регрессионных коэффициентов стандартных переменных, нужно только знать корреляционную матрицу переменных. Корреляционная матрица по переменным Xi и Fk находится из модели и уже имеющейся матрицы корреляций Xi. А от сюда уже с помощью регрессионного метода определяются факторы в виде линейных комбинаций исходных переменных: F_k=sum_^< >C_X_i
Кластерный анализ
Этот вид анализа сжимает данные в классификацию объектов в отличии от факторного, который эти же данные сжимает в малое число количественных переменных.
Задачей кластерного анализа является выделение «сгущений точек», разбиение совокупности на однородные подмножества объектов, при условии, что данные будут восприниматься как точки в признаковом пространстве.
Во время проведения кластерного анализа всегда определяют расстояние на множестве объектов; алгоритмы кластерного анализа формулируют в терминах этих расстояний. Между объектами существует огромное количество мер близости и расстояний, которые подбирают исходя из целей социологического исследования. В частности, евклидово расстояние лучше всего применять для количественных переменных, расстояние хи–квадрат — для исследования частотных таблиц, так же существует множество мер для бинарных переменных.
5 лучших программ для анализа данных
База данных
На чтение 3 мин Просмотров 3.4к. Опубликовано 24.11.2020
Анализ данных — один из лучших карьерных шагов, который вы можете сделать в 2020 году. Мы живём в мире, который практически наводнён числами, представляющими предпочтения потребителей в отношении фильмов, еды, книг и музыки, вероятность того, что человек купит продукт B, если он купит продукт A, и какова взаимосвязь между географией и политическими предпочтениями. Нам нужны аналитики, чтобы пробираться сквозь этот океан информации и определять, что говорят данные, точны ли они и как их можно использовать для принятия бизнес-решений.
И нет никаких признаков того, что рост больших данных замедлится в ближайшие годы. Целые отрасли, такие как недвижимость и здравоохранение, находятся на пороге своей революции данных. Поскольку предприниматели выясняют, как оцифровать и работать с десятилетиями существующих записей.
Если вы хотите заняться анализом данных, данная статья поможет понять, что влечёт за собой эта область и каковы общие инструменты торговли.
Что такое анализ данных?
Анализ данных обучения начинается с выяснения того, что это такое.
Термин «аналитик данных» относится к широкому спектру деятельности, которая зависит от отрасли, проекта и клиента. Аналитическая работа, выполняемая для компании, занимающейся социальными сетями, скорее всего, будет включать A / B-тестирование. Какой баннер веб-сайта получит больше конверсий, в то время как работа, выполняемая для биомедицинской компании. Будет сосредоточена на таких задачах, как определение того, улучшилось ли состояние здоровья пациентов, принимающих новый препарат являются статистически значимыми.
Но даже эти два примера указывают на общую тему. В общем, аналитики данных применяют инструменты статистики и вероятности к проблемам, специфичным для предметной области.
Аналитики данных — не совсем то же самое, что статистики, поскольку они часто не обладают такой же глубиной теоретических знаний. Они не то же самое, что специалисты по данным, потому что последние с большей вероятностью будут строить модели машинного обучения.
Аналитики данных обычно несут ответственность за приём данных, их визуализацию, выполнение статистического анализа и передачу результатов.
Какие инструменты мне нужны для анализа данных?
С достаточно большим набором инструментов у вас всегда будет то, что вам нужно.
Существует множество инструментов для анализа данных. Но вот наша подборка из пяти лучших инструментов для этой области.
- Excel
В течение долгого времени самым большим инструментом аналитики, получившим широкое распространение, был Excel. По-прежнему стоит научиться пользоваться Excel. Поскольку он обладает удивительной функциональностью и мощностью, и многие компании используют его исключительно. - Pandas
Более опытные компании всё чаще обращаются к фреймворкам, которые могут делать то, чего Excel просто не может. Тот, с которым у меня больше всего опыта, — это Pandas. Pandas — это платформа данных на основе Python, способная выполнять обширное преобразование, визуализацию и анализ данных. Это быстро становится отраслевым стандартом. - R
R — это полноценный язык программирования, популярный в академических кругах, но он также широко используется в отрасли. Он построен с нуля для статистического анализа, поэтому это отличный язык для изучения. - KNIME
KNIME — это набор инструментов с открытым исходным кодом, который упрощает создание рабочих процессов перетаскивания для каждой части конвейера анализа, включая создание моделей машинного обучения. Большинство аналитиков не делают этого регулярно, но иметь такую способность никогда не помешает. - SAS
SAS — это среда и язык, которые значительно упрощают приём, обработку и анализ данных. Он довольно старый и имеет множество специализированных модулей для задач, маркетина в социальных сетях.
Источник: bestprogrammer.ru
Как правильно анализировать информацию
В современном мире всё меняется очень быстро и найти информацию легче, чем когда-либо. Больше не нужно учить наизусть энциклопедии, чтобы работать эффективно. Теперь ценится не сама информация, а умение ее искать и обрабатывать. Собрали несколько советов по обработке данных, которые сэкономят время на поиск, помогут отфильтровать фейки и сделать правильные выводы.
Содержание:
- Алгоритм поиска
- Работа с открытыми источниками
- Получение информации от эксперта
Поиск данных
Существует огромное количество источников, из которых можно черпать информацию: интернет, базы данных, эксперты, исследования и прочее. Самое главное — не пытаться хвататься за каждый: «20% усилий дают 80% результата». Этот закон, как никакой другой, применим к работе с данными. Заранее обдумайте, какая именно информация для вас ключевая, и сконцентрируйтесь на ее поиске.
Алгоритм поиска
Общая схема поиска информации довольно проста: начать с самых простых источников и постепенно перейти к более сложным.
- Перед тем как начать поиск, хорошо бы узнать, что именно вы ищете. Так что постарайтесь найти аналогичные проекты и вникнуть в тему.
- Изучите общую картину и сформулируйте вопросы. Пространство для поиска может быть слишком широким, поэтому установите границы.
- Организуйте первую встречу с экспертом, чтобы определить направление работы.
- Соберите подробную информацию в открытых источниках. Это самая важная и объемная часть работы.
- Проведите вторую встречу с экспертом, проясните накопившиеся вопросы.
- Готово: вы получили релевантную картину проблемы.
Работа с открытыми источниками
Самый доступный источник информации — это интернет. Но на просторах Сети нужно быть аккуратным и не доверять всему. Используя поисковики, старайтесь тщательно фильтровать информацию и учитесь писать лаконичные запросы, используя именно те ключевые слова, которые выведут вас на нужные ресурсы. Можно также использовать авторитетные новостные сервисы.
В консалтинге часто используются собственные базы данных, например Press Search в BCG. Базы данных крупных университетов и международных организаций тоже могут быть полезны. Этот источник полезнее поисковиков, потому что там собрана только проверенная и авторитетная информация. Сайты с презентациями, например Slideshare или Scribd, тоже иногда помогают.
Еще обратите внимание на отчеты компаний, разные статистические ресурсы, маркетинговые исследования (они позволят быстро погрузиться в отрасль) и исследования инвестиционных банков (там всегда указаны источники данных, а информация очень высокого качества).
Получение информации от эксперта
Здесь всё сложнее: работать придется с человеком, а не машиной. Перед встречей обязательно проведите самостоятельный ликбез, чтобы чувствовать себя уверенно и не задавать совсем глупые вопросы. Если кто-то из ваших коллег уже встречался с этим человеком, узнайте, что они обсуждали. Эксперты терпеть не могут, когда у них по сто раз спрашивают об одних и тех же вещах.
Впрочем, убедиться в том, что эксперт действительно разбирается в теме, тоже не помешает. Почитайте о нем, пробегитесь по его работам.
Рассаживаясь на встрече, всегда оставляйте эксперту самое комфортное и почетное место, чтобы продемонстрировать уважение. Часто люди инстинктивно садятся друг напротив друга, но такое положение напоминает бой «стенка на стенку», в котором вы автоматически становитесь соперниками. Если формат встречи не один на один, член вашей команды может сесть на сторону клиента или эксперта, чтобы разрядить обстановку.
Помните, что всегда лучше задавать открытые вопросы, чтобы спикер говорил как можно больше и поделился всей известной ему информацией. Если собеседник отходит от темы, можно его тактично перебить. В конце кратко пробегитесь по пунктам, которые вы обсудили, чтобы в случае ошибки вас поправили. Напоследок спросите: «Есть ли что-то важное, что я мог упустить?» Это вполне нормальная практика.
Будьте тактичны, действуйте в зависимости от ситуации. Всегда просите разрешения делать заметки и вести диктофонную запись. Держите контакт с собеседником и не слишком увлекайтесь заметками, иначе он подумает, что общается со стенографистом. Со временем вы научитесь умело и бегло фиксировать информацию. Заведите собственные ключевые слова, сокращения и другие приемы, которые позволят сделать записи лаконичнее.
Некоторые эксперты любят, объясняя что-то, рисовать схемы или писать тезисы. Попросите после интервью воспользоваться записями спикера. Во-первых, это действительно может пригодиться, во-вторых, это тоже своего рода знак уважения.
После встречи не забудьте написать собеседнику благодарственное письмо, чтобы укрепить контакт. Кто знает, возможно, вам еще не раз понадобится его помощь.
Лайфхак от редакции «ПУШ». У детектива Коломбо из одноименного сериала была фишка: самый важный вопрос он всегда задавал в конце. Консультанты тоже часто так делают. Когда вы уже в дверях, а эксперт, клиент или коллега расслабился и заказал такси, застаньте его врасплох неожиданным и важным вопросом. Скорее всего, он автоматически ответит честно, а вы с легкостью поймете, если что-то недоговаривают.
Обработка данных
Теперь, когда вы собрали информацию, можно переходить к следующему этапу — обработке данных. Он состоит из двух частей: проверка качества и анализ. Сначала нужно оценить, насколько информация соответствует четырем критериям.
- Полнота. Проверьте, есть ли у вас все необходимые данные.
- Актуальность. Убедитесь, что вся найденная информация свежая.
- Достоверность. Сопоставьте информацию из нескольких источников. Используйте только правильные данные. Если сомневаетесь, посоветуйтесь с экспертом.
- Релевантность. Трезво оцените найденную информацию и посмотрите, нет ли в ней лишних данных.
После того как вы проверили данные, нужно их обработать и провести анализ информации: разобраться во взаимосвязях и построить выводы. Приступая к работе, следует твердо обозначить, что, как и зачем вы будете анализировать. Вам нужны готовые гипотезы и четкое представление, что эта информация вам даст. Анализ заключается в проверке гипотез и их дальнейшем подтверждении или опровержении.
Методы обработки информации
Для облегчения обработки информации существует три типа аналитических помощников: общие подходы, специфические фреймворки и графики.
Общие подходы — это ранжирование, или приоритизация, матрицы, сценарный подход, инвестиционный анализ, сегментирование и риск-анализ. Первые три способа применяются практически при любом типе анализа, поэтому владеть ими обязательно. Оставшиеся три используются при решении специфичных задач. Например, сегментирование помогает разделить компании по категориям, а инвестиционный анализ применяется для сопоставления затрат с предполагаемым доходом.
К специфическим фреймворкам относятся, например, пять сил Портера, SWOT-анализ и анализ рентабельности задействованного капитала. Они помогают понять ключевую идею стратегических решений. К слову, молодые консультанты любят использовать SWOT-анализ абсолютно везде, но на самом деле этот метод хоть и полезен, но не так применим, как может показаться на первый взгляд.
С графиками все ясно. Это лучший инструмент для наглядного представления больших объемов данных.
Представление результата
Для того чтобы сделать качественную презентацию исследования, нужно овладеть принципом пирамиды Минто. Этот простой инструмент заключается в группировке идей в кластеры, поддерживающие и раскрывающие основной тезис. Начинаем с ключевой проблемы, переходим к поддерживающим аргументам, заканчиваем деталями.
Как говорила сама Барбара Минто, первая женщина-консультант McKinsey, разработавшая этот принцип, «написать что-либо ясно и понятно — значит сделать два шага. Первый — определить цель, главную мысль, которую вы хотите донести до читателя, второй — изложить эту мысль в словах или письменно».
Три лайфхака для работы с информацией
Анализируя, всегда рассматривайте не меньше семи вариантов при выборе чего-либо, будь то холодильник или направление карьерного трека.
Используйте специальные техники чтения: углубленное чтение и чтение-сканирование. Можно попробовать освоить скорочтение. С этим помогут специализированные приложения, основанные на технологии Spritz.
Для ускорения работы научитесь быстро печатать. Существует много программ для развития этого навыка: «Соло на клавиатуре» — для Windows, KeyKey — для Mac OS или онлайн-тренажер «Все10».
Специалисты по анализу данных нужны во многих перспективных отраслях, например в финансах и консалтинге. У Changellenge >> есть комплексные программы, на которых эксперты из топовых компаний всего за полгода могут подготовить вас к карьере аналитика. Это «Профессия финансового аналитика», «Профессия бизнес-аналитика» и «Профессия аналитика данных». Переходите по ссылкам, чтобы узнать подробности!
Источник: changellenge.com