Вообще, подход к статистическим критериям в анализе данных должен быть прагматическим и не отягощен лишними теоретическими рассуждениями. Имея в своем распоряжении компьютер с системой STATISTICA, вы легко примените к своим данным несколько критериев. Зная о некоторых подводных камнях методов, вы путем экспериментирования выберете верное решение.
Развитие сюжета довольно естественно: если нужно сравнить значения двух переменных, то вы используете t-критерий. Однако следует помнить, что он основан на предположении нормальности и равенстве дисперсий в каждой группе. Освобождение от этих предположений приводит к непараметрическим тестам, которые особенно полезны для малых выборок.
Далее имеются две ситуации, связанные с исходными данными: зависимые и независимые выборки, в которых применяется t-критерий для зависимых и независимых выборок соответственно.
Развитие t-критерия приводит к дисперсионному анализу, который используется, когда число сравниваемых групп больше двух. Соответствующее развитие непараметрических процедур приводит к непараметрическому дисперсионному анализу, правда, существенно более бедному, чем классический дисперсионный анализ.
Описательная статистика (ч.2): Медиана и интерквартильный интервал (9 мин)
Для оценки зависимости, или, выражаясь несколько высокопарно, степени тесноты связи, вычисляют коэффициент корреляции Пирсона. Строго говоря, его применение имеет ограничения, связанные, например, с типом шкалы, в которой измерены данные, и нелинейностью зависимости, поэтому в качестве альтернативы используются также непараметрические, или так называемые ранговые, коэффициенты корреляции, применяемые, например, для ранжированных данных. Если данные измерены в номинальной шкале, то их естественно представлять в таблицах сопряженности, в которых используется критерий хи-квадрат Пирсона с различными вариациями и поправками на точность.
Итак, по существу имеется всего несколько типов критериев и процедур, которые нужно знать и уметь использовать в зависимости от специфики данных. Вам нужно определить, какой критерий следует применять в конкретной ситуации.
Непараметрические методы наиболее приемлемы, когда объем выборок мал. Если данных много (например, n >100), часто не имеет смысла использовать непараметрическую статистику.
Если размер выборки очень мал (например, n = 10 или меньше), то уровни значимости для тех непараметрических критериев, которые используют нормальное приближение, можно рассматривать только как грубые оценки.
Различия между независимыми группами. Если имеются две выборки (например, мужчины и женщины), которые нужно сравнить относительно некоторого среднего значения, например, среднего давления или количества лейкоцитов в крови, то можно использовать t-тест для независимых выборок.
Непараметрическими альтернативами этому тесту являются критерий серий Валъда—Волъфовица, Манна—Уитни [7-тест и двухвыборочный критерий Колмогорова— Смирнова.
Различия между зависимыми группами. Если вы хотите сравнить две переменные, относящиеся к одной и той же выборке, например, медицинские показатели одних и тех же пациентов до и после приема лекарства, то обычно используется t-критерий для зависимых выборок.
Мода, размах, среднее арифметическое, медиана
Альтернативными непараметрическими тестами являются критерий знаков и критерий Вилкоксона.
Если рассматриваемые переменные категориальны, то подходящим является хи-тадрат Макнемара.
Если рассматривается более двух переменных, относящихся к одной и той же выборке, то обычно используется дисперсионный анализ (ANOVA) с повторными измерениями.
Альтернативным непараметрическим методом является Ранговый дисперсионный анализ Фридмана и Q-критерий Кохрена.
Исследование зависимости между порядковыми переменными
Для того чтобы оценить зависимость между двумя переменными, обычно вычисляют коэффициент корреляции Пирсона. Непараметрическими аналогами коэффициента корреляции Пирсона являются коэффициенты ранговой корреляции Спирмена R, статистика Кендалла и коэффициент Гамма (более подробно см. например, книгу Кендалл М. Дж., Ранговые корреляции 1975, ).
Коэффициент ранговой корреляции (rank correlation coefficients’) оценивает величину зависимости между переменными, измеренными в порядковых шкалах, т. е. между порядковыми переменными.
Прозрачный способ построения парных коэффициентов корреляции из обобщенного коэффициента корреляции предложил Daniels (Daniels Н. Е., 1948, Biometrika, v. 35, p. 416-417), см. также заметку Е. В. Кулинской в Энциклопедии: «Вероятность и математическая статистика», 1999. С. 537-538. Обобщенный коэффициент корреляции определяется формулой:
где аij = a(Xi Xj), bij = b(Yi, Yj) — некоторые функции пар наблюдений X и Y соответственно, суммирование ведется по всем парам i, j.
Заметим, что при аij =Xj — Хi, bij= Yj- Yi. получаем обычный коэффициент корреляции Пирсона. Если переменные ранжированы, то мы работаем с рангами. Упорядочим значения Xi по возрастанию, то есть построим вариационный ряд этих величин. Номер величины Хi в этом ряде называется ее рангом и обозначается Ri
Затем упорядочим значения Yi в порядке возрастания. Номер величины Yii в этом ряде называется ее рангом и обозначается Si
Коэффициент ранговой корреляции Спирмена вычисляется как обобщенный коэффициент парной корреляции с заменой наблюдений их рангами. Формально для обобщенного коэффициента корреляции нужно положить aij = Rj — Ri,bij = Sj — Si
Коэффициент Кендалла вычисляется, если в формуле для обобщенного коэффициента положить аij = 1 при Ri< Rj и аij = -1 при Ri > Rj Величины bij задаются аналогичными соотношениями с заменой рангов Rij ранги Si наблюдений Y. Итак, мы ясно видим, что идея всех корреляций возникает из одного и того же источника.
Если имеется более двух переменных, то используют коэффициент конкорда-ции Кендалла. Например, он применяется для оценки согласованности мнений независимых экспертов (судей), например, баллов, выставленных одному и тому же участнику конкурса.
Если имеются две категориальные переменные, то для оценки степени зависимости используют стандартные статистики и соответствующие критерии для таблиц сопряженности: хи-квадрат, фи-коэффициент, точный критерий Фишера.
Нелегко дать простой и однозначный совет, касающийся использования этих процедур. Каждая имеет свои достоинства и свои недостатки.
Например, двухвыборочный критерий Колмогорова—Смирнова чувствителен не только к различию в положении двух распределений, но также и к форме распределения. Фактически он чувствителен к любому отклонению от гипотезы однородности, но не указывает, с каким именно отклонением мы имеем дело.
Критерий Вилкоксона предполагает, что можно ранжировать различия между сравниваемыми наблюдениями. Если этого сделать нельзя, то используют критерий знаков, который учитывает лишь знаки разностей сравниваемых величин.
В общем, если результат исследования является важным и наблюдений немного (например, отвечает на вопрос — оказывает ли людям помощь определенная очень дорогая и болезненная лекарственная терапия?), то всегда целесообразно испытать непараметрические тесты. Возможно, результаты тестирования (разными тестами) будут различны. В таком случае следует попытаться понять, почему разные тесты дали разные результаты.
С другой стороны, непараметрические тесты имеют меньшую мощность, чем их параметрические конкуренты, и если важно обнаружить даже слабые эффекты (например, при выяснении, является ли данная пищевая добавка опасной для здоровья), следует провести многократные испытания и особенно внимательно выбирать статистику критерия.
Описание непараметрических процедур на примерах
Стартовая панель модуля Непараметрические статистики
Стартовая панель модуля имеет вид:
Таблицы частот 2× 2: статистики Хи/V/Фи-квадрат, Макнемара, точный критерий Фишера
Опция открывает диалоговое окно, в котором можно ввести частоты в таблицу 2×2 (состоящую из двух строк и двух столбцов) и вычислить различные статистики, позволяющие оценить зависимость между двумя переменными, принимающими только два значения.
Типичный пример таких таблиц — определение, например, числа мужчин и женщин, предпочитающих рекламу ПЕПСИ или КОКИ, или числа заболевших и не заболевших людей из числа сделавших и не сделавших прививки, и т. д.
Итак, одна переменная — ПОЛ, другая переменная — НАПИТОК. Первая переменная имеет 2 уровня (принимает 2 значения) — мужчина, женщина. Вторая переменная, НАПИТОК, также имеет 2 уровня, например, ПЕПСИ или КОКА.
Задача состоит в том, чтобы оценить зависимость между двумя табулированными переменными.
Укажем на важное методологическое отличие использования слова связь (зависимость) в повседневной жизни и в анализе данных (см. главу 33 фундаментального текста Кендалла и Стьюарта Статистические выводы и связи). Обычно мы говорим, что два признака А и В связаны между собой, если они часто встречаются вместе. В анализе данных дается строгое определение: если А встречается относительно чаще с В, чем с не-В, то А и В связаны. Или переходя на язык теории вероятностей, Р( АХВ) должна быть больше Р(АХ не-В). Оценкой вероятности является частота.
В приведенной выше таблице пусть признак А — пол, признак В — напиток, принимающий, например, два значения: пепси — не-пепси. Пусть a, b — частоты в первой строке, с, d — частот во второй строке. Если а/(а+с) = b/(b+d) то признаки независимы. Формально имеем: 17/(17+27) = 0,39, 19/(19+29) — 0,396. Теперь нам нужно понять, существенно или нет различие в частотах.
Статистические критерии, реализованные в этом диалоге, как раз и позволяют это сделать. В данном случае различие, конечно, несущественно (или, как говорят в анализе данных, незначимо). Следовательно, признаки независимы, — пол не связан с выбором напитка.
Опция 2×2 может быть использована как альтернатива корреляциям, если обе рассматриваемые переменные являются категориальными.
Дополнительно к стандартному критерию хи-квадрат Пирсона и скорректированному хи-квадрат (V-квадрат) вычисляются следующие статистики:
Классическая статистика хи-квадрат Пирсона замечательна тем, что ее распределение приближается распределением хи-квадрат, для которого имеются подробные таблицы. Процентные точки распределения хи-квадрат могут быть также эффективно вычислены в системе STATISTICA с помощью вероятностного калькулятора.
Свойство критерия хи-квадрат (точность аппроксимации распределения статистики распределением хи-квадрат) для таблиц 2× 2 с малыми ожидаемыми частотами может быть улучшено за счет уменьшения абсолютного значения разностей между ожидаемыми и наблюдаемыми частотами на величину 0,5 перед возведением в квадрат.
Это так называемая поправка Йетса на непрерывность для таблиц частот 2×2, которая обычно применяется, когда ячейки содержат только малые частоты и некоторые ожидаемые частоты становятся меньше 5 (или даже меньше 10).
Фи-коэффициент. Статистика фи-квадрат представляет собой меру связи между номинальными или категориальными переменными, значения которых нельзя упорядочить.
Пусть даны маргинальные или суммарные частоты в таблице 2×2. Предположим, что оба фактора в таблице независимы. Зададимся вопросом: какова вероятность получить наблюдаемые частоты, исходя из маргинальных? Замечательно, что эта вероятность вычисляется точно, подсчетом всех возможных таблиц, которые можно построить, основываясь на данных маргинальных частотах.
Это и делается в критерии Фишера. STATISTICA вычисляет р-уровни одностороннего и двустороннего критерия Фишера.
Если сумма частот небольшая, то лучше использовать точный критерий Фишера вместо критерия хи-квадрат.
Известны рекомендации Кокрена для таблиц 2×2: если сумма всех частот в таблице меньше 20, то следует использовать точный критерий Фишера.
Если сумма частот больше 40, то можно применять критерий хи-квадрат с поправкой на непрерывность.
Однако эти рекомендации не универсальны (см. например, Справочник по прикладной статистике п/р Э. Ллойда и У. Ледермана, с. 375-376).
Рассмотрим следующий пример.
Пример. Исследуются 30 человек, совершивших преступления. У каждого из преступников есть брат-близнец. Спрашивается, имеется ли связь между род ственными отношениями и преступлением (см. Справочник по прикладной статистике п/р Э. Ллойда и У. Ледермана, с. 376). Данные приведены в таблице:
Оба брата преступники
Только один брат преступник
Источник: www.bourabai.ru
3. Вычисление основных статистических характеристик и изучение формы распределения в системе statistica
Статистический анализ данных обычно начинается с вычисления общих характеристик полученных показателей. Находят среднее, дисперсию, размах вариации и т.д., определяют вид распределения. В системе STATISTICA эти процедуры осуществляются в модуле Basic Statistics and Tables – Основные статистики и таблицы.
Рис. 1 Стартовая панель модуля Basic Statistics and Tables – Основные статистики и таблицы.
3.1. Вычисление основных статистических характеристик
Рассмотрим на примере файла ex2.sta получение сводных статистических характеристик в меню Descriptive statistics – Описательная статистика модуля Basic Statistics and Tables – Основные статистики и таблицы.
В диалоговом окне Descriptive statistics – Описательная статистика (рис.2), как было рассмотрено ранее, можно выбрать переменные для анализа (из уже открытого файла), оценить близость распределения к нормальному закону, построить гистограммы, удобно визуализировать данные и т.д. Для вычисления статистических характеристик выбранных переменных предназначена кнопка Detailed descriptive statistics – Подробные описательные статистики. Кнопка ОК служит для тех же целей.
В окне Select the variables for analysis – Выбрать переменные для анализа, открывающемся щелчком по кнопке Variables – Переменные выберем для анализа обе переменные, и щелкнем по кнопке ОК либо Detailed descriptive statistics – Подробные описательные статистики. Окно результатов представлено на рис. 3.
Рис. 2 Окно результатов проведенного анализа Descriptive statistics – Описательные статистики
- ValidN – Число наблюдений, по которым были рассчитаны характеристики
- Mean – Среднее значение по каждому показателю
- Minimum – Минимальное значение показателя
- Maximum – Максимальное значение показателя
- Std.Dev. – Стандартное отклонение (среднеквадратическое отклонение)
Как правило, исследователю требуется более широкий набор характеристик, чем предлагаемый системой по умолчанию. Для этих целей справа в диалоговом окне Descriptivestatistics– Описательная статистика (см. рис.2) находится группа кнопок Statistics– Статистика, где можно задать вычисление медианы и квартилей (Medianupperquartiles — нижняя и верхняя квартили
Отметив галочкой нужные характеристики, как на рис. 4 и нажав ОК, получим окно результатов (рис. 5).

Источник: studfile.net
Описательная статистика
Иногда данных бывает так много, что чтобы увидеть картину в целом, их нужно обобщить. Этим занимается описательная статистика (Descriptive Statistics).
Причем обобщить правильно, чтобы наши измерения отражали реальное положение вещей. Известное высказывание Марка Твена о том, что «существует три вида лжи: ложь, наглая ложь и статистика», верно лишь в той степени, в которой мы сознательно или по незнанию искажаем сбор и описание данных. Сама статистика здесь ни при чем.
Кроме того, довольно часто нам нужно составить представление о явлении, охватить которое наблюдением мы не можем. Например, мы хотим понять насколько эффективно новое лекарство, но обследовать всех, кто его принял, не представляется возможным. Статистический вывод (Statistical Inference) позволяет сделать обоснованное предположение о явлении в целом по ограниченному числу наблюдений.
На этом занятии мы поговорим про описательную статистику, на следующем — займемся статистическим выводом.
Начнем с того, что данные (или как еще говорят переменные) бывают двух видов, категориальные и количественные.
1. Категориальные (качественные) данные
Это данные, которые можно отнести к какой-то категории (categorical data). Например, людей можно разделить на мужчин и женщин, на детей и взрослых. Категориями могут быть профессии, группа крови, принадлежность к политической партии. Разделение книг по жанрам или потребителей по степени их удовлетворенности будет категориальной переменной.
Пример: сколько студентов учится на каждом курсе университета
Единицей наших данных в этом примере будут студенты. Категорией будет курс.
Самое простое, что мы можем сделать при работе с такой переменной, это взять наблюдения каждой категории и посчитать их количество. График, который помогает оценить такие данные, называется столбчатой диаграммой (bar chart).