Работа с популярным и очень мощным статистическим пакетом Statistica компании StatSoft Inc существенно облегчает и ускоряет проведение статистических анализов. В частности, с его помощью легко определить существование и силу связей между различными величинами [14].
Для того, чтобы рассчитывать корреляционные взаимосвязи методом попарной корреляции Пирсона, нужно проделать следующее.
1. Внести данные в программу «Statistica» (ручным способом или импортировать): пункт меню File — Open.
Для примера, нас интересует существуют ли связи между зараженностью зерна пшеницы спорами «картофельной» палочки (показатель выражается в единицах КОЕ/г — колониеобразующих единиц бактерий в 1 грамме зерна) и тепло-и влагообеспеченностью района произрастания этой пшеницы (показатели суммы температур и коэффициента атмосферного увлажнения). Кроме того добавлен такой априори незначительный показатель как день фазы Луны в момент посева зерна.
- 2. Выбрать пункт меню Statistics — Basic Statistics/Tables — Correlation matrices. Появится панель как на рисунке 19.
- 3. Нажимаем кнопку One variable list (один список переменных) и выбираем все переменные, нажав кнопочку Select all, а потом Ок. Таким образом мы включаем в анализ все наши переменные. При желании можно выбрать только некоторые из них, либо сгруппировать два списка переменных (кнопка Two lists. ) для перекрестного определения корреляций только между этими переменными (рисунок 20).
- 4. На вкладке Options, в секции Display format for correlation matrices, отмечаем пункт выставленный по умолчанию Display simple matrix, с подсветкой достоверных уровней значимости р. В секции управления отсутствующими значениями «MD deletion» выбираем пункт попарной обработки Pairwise и жмем Summary. Попарная обработка означает, что программа, формируя выборку для анализа, не будет учитывать отсутствующие значения.
- 5. В результате мы получили корреляционную матрицу, представляющую собой таблицу в первом столбце и в первой строке которой перечислены все наши переменные, а на пересечении любых двух переменных указан соответствующий их взаимосвязи коэффициент корреляции. По диагонали матрицы идут коэффициенты корреляции переменной «сама с собой» равные 1. Например, можно отметить, что величина обсеменности спорами «картофельной» палочки зерна прямо коррелирует с суммой температур в месте произрастания пшеницы, с коэффициентом корреляции г=0,87 и р т Добавить в Отчет т ,
ВТ и 5 S 3 g ^||| tog Л | « [?§• ^ S 21 «•? $ перемег
Анализ данных в STATISTICA
Д Данные: Копня КОЕ+тем-ра+увлажнение.$1а (4v * 28с)
Источник: bstudy.net
Введение
В условиях рыночной конкуренции процесс подготовки и принятия решений менеджерами компаний должен включать тщательный анализ имеющихся данных, базирующийся на методах математической статистики. В этой связи существенную помощь в получении необходимой информации могут оказать современные информационные технологии интеллектуального и статистического анализа данных. Оценка кредитных и страховых рисков, прогнозирование тенденций на финансовых рынках, оценка объектов недвижимости, построение профилей потенциальных покупателей определенного товара, анализ продуктовой корзины и так далее.
Ввод данных STATISTICA #01 | СТАТИСТИКА STATISTICA
Системы интеллектуального анализа предназначены для автоматизированного поиска ранее неизвестных закономерностей в имеющихся в распоряжении менеджера данных с последующим использованием полученной информации для подготовки решений. Помимо статистических методов базовыми инструментами анализа в таких системах являются нейронные сети, деревья решений и индукция правил. Однако несмотря на то, что в последние годы рынок программных продуктов этого типа активно развивается, они все еще недоступны по цене предприятиям среднего и малого бизнеса. В то же время компаниям такого размера, как правило, не требуется столь мощный аналитический инструментарий, предлагаемый этими системами.
Более доступными средствами анализа данных на сегодняшний день являются статистические программные продукты (СПП). В мировой практике компьютерные системы статистического анализа и обработки данных широко применяются как в исследовательской работе в области экономики, так и в практической деятельности аналитических, маркетинговых и плановых отделов банков, страховых компаний, производственных и торговых фирм. В последние годы заметно возрос спрос на СПП и в нашей стране.
СПП позволяют решить широкий спектр задач «разведочного» анализа данных, статистического исследования зависимостей, планирования экспериментов, анализа временных рядов, анализа данных нечисловой природы и т.д. Настоящие методические разработки посвящены вопросам корреляционно-регрессионного анализа статистических связей с использованием одного из самых популярных в России статистических программных продуктов — пакета STATISTICA, функционирующего в среде Window
Общее описание программы Statistica
Пакет STATISTICA разработан фирмой StatSoft (США). Первоначально он входил в качестве модуля в состав самых популярных в то время электронных таблиц Lotus 1-2-3. Как самостоятельный продукт пакет впервые заявил о себе в 1991 г. Последняя версия продукта совместима с Windows Vista, в ней поддерживаются графический интерфейс пользователя и динамический обмен данными. Благодаря этому пакет может работать в сочетании с другими Windows-приложениями. В последние версии включен также язык программирования Statistica-BASIC, позволяющий расширять возможности пакета в соответствии с потребностями пользователя.
Системные требования. Платформа Macintosh или Windows, процессор 386 и выше, 4 Мбайт ОЗУ (рекомендуется 8 Мбайт), дисковое пространство — 18 Мбайт.
Возможности. STATISTICA позволяет проводить исчерпывающий, всесторонний анализ данных, представлять результаты анализа в виде таблиц и графиков, автоматически создавать отчеты о проделанной работе. С помощью удобной системы подсказок можно обучаться не только работе с самим пакетом, но и современным методам статистического анализа.
Файлы данных. Данные в системе STATISTICA организованы в виде электронных таблиц, как в привычной для пользователей программе Excel. Файл содержит наблюдения и переменные (см. рис.1.1). Наблюдения можно рассматривать как эквивалент записей в базах данных (или строк электронной таблицы), а переменные — как эквивалент полей (столбцов электронной таблицы). Каждое наблюдение состоит из набора значений переменной.
В пакете STATISTICA все операции, включая копирование, перетаскивание и автоматическое заполнение ячеек, производятся так же, как в популярных электронных таблицах. При нажатии правой кнопки мыши появляется всплывающее меню, где точно так же предлагается перечень операций, которые можно выполнить над выделенным объектом.
Общее число переменных в стандартном файле STATISTICA может быть до 4092, количество наблюдений ограничено лишь объемом жесткого диска. В системе имеется также менеджер мегафайлов (доступный из модуля Управление данными), который позволяет работать с очень большими файлами, содержащими до 32000 переменных.
Система STATISTICA предоставляет всесторонние возможности по импорту и экспорту данных, в том числе и из таблиц Excel.
Архитектура и интерфейс системы. Система STATISTICA состоит из отдельных модулей, каждый из которых является полноценным Windows-приложением. Система постоянно обновляется, в нее вводятся новые модули и вычислительные процедуры.
Быстро переключаться из одного модуля в другой можно: а) щелкая мышью на значках модулей на рабочем столе; б) активизируя соответствующее окно приложения (если оно уже было открыто) или в) выбирая модули в диалоговом окне Переключатель модулей, причем эту операцию можно настроить так, чтобы было удобно обращаться к модулям, которые используются чаще всего.
Интерфейс системы может быть настроен на конкретный пользовательский проект: можно задать отображение стольких диалоговых окон, таблиц результатов, графиков, сколько в данном случае необходимо.
Методы анализа. Система включает следующие модули: Основные статистики и таблицы. Исчерпывающий набор описательных статистик, таблицы сопряженности, таблицы флагов и заголовков, кросстабуляция многомерных откликов и многомерных дихотомий, вычисление корреляционных матриц, обработка пропущенных данных, t-критерии для зависимых и независимых выборок, критерии однородности дисперсии, однофакторный дисперсионный анализ.
Источник: studbooks.net
Общее описание программы Statistica
Пакет STATISTICA разработан фирмой StatSoft (США). Первоначально он входил в качестве модуля в состав самых популярных в то время электронных таблиц Lotus 1-2-3. Как самостоятельный продукт пакет впервые заявил о себе в 1991 г. Последняя версия продукта совместима с Windows Vista, в ней поддерживаются графический интерфейс пользователя и динамический обмен данными. Благодаря этому пакет может работать в сочетании с другими Windows-приложениями. В последние версии включен также язык программирования Statistica-BASIC, позволяющий расширять возможности пакета в соответствии с потребностями пользователя.
Системные требования. Платформа Macintosh или Windows, процессор 386 и выше, 4 Мбайт ОЗУ (рекомендуется 8 Мбайт), дисковое пространство — 18 Мбайт.
Возможности. STATISTICA позволяет проводить исчерпывающий, всесторонний анализ данных, представлять результаты анализа в виде таблиц и графиков, автоматически создавать отчеты о проделанной работе. С помощью удобной системы подсказок можно обучаться не только работе с самим пакетом, но и современным методам статистического анализа.
Файлы данных. Данные в системе STATISTICA организованы в виде электронных таблиц, как в привычной для пользователей программе Excel. Файл содержит наблюдения и переменные. Наблюдения можно рассматривать как эквивалент записей в базах данных (или строк электронной таблицы), а переменные — как эквивалент полей (столбцов электронной таблицы). Каждое наблюдение состоит из набора значений переменной.
В пакете STATISTICA все операции, включая копирование, перетаскивание и автоматическое заполнение ячеек, производятся так же, как в популярных электронных таблицах. При нажатии правой кнопки мыши появляется всплывающее меню, где точно так же предлагается перечень операций, которые можно выполнить над выделенным объектом.
Общее число переменных в стандартном файле STATISTICA может быть до 4092, количество наблюдений ограничено лишь объемом жесткого диска. В системе имеется также менеджер мегафайлов (доступный из модуля Управление данными), который позволяет работать с очень большими файлами, содержащими до 32000 переменных.
Система STATISTICA предоставляет всесторонние возможности по импорту и экспорту данных, в том числе и из таблиц Excel.
Архитектура и интерфейс системы. Система STATISTICA состоит из отдельных модулей, каждый из которых является полноценным Windows-приложением. Система постоянно обновляется, в нее вводятся новые модули и вычислительные процедуры.
Быстро переключаться из одного модуля в другой можно: а) щелкая мышью на значках модулей на рабочем столе; б) активизируя соответствующее окно приложения (если оно уже было открыто) или в) выбирая модули в диалоговом окне Переключатель модулей, причем эту операцию можно настроить так, чтобы было удобно обращаться к модулям, которые используются чаще всего.
Интерфейс системы может быть настроен на конкретный пользовательский проект: можно задать отображение стольких диалоговых окон, таблиц результатов, графиков, сколько в данном случае необходимо.
Методы анализа. Система включает следующие модули: Основные статистики и таблицы. Исчерпывающий набор описательных статистик, таблицы сопряженности, таблицы флагов и заголовков, кросстабуляция многомерных откликов и многомерных дихотомий, вычисление корреляционных матриц, обработка пропущенных данных, t-критерии для зависимых и независимых выборок, критерии однородности дисперсии, однофакторный дисперсионный анализ.
Непараметрическая статистика. Непараметрические критерии, ранговые корреляции, подгонка распределений.
Множественная регрессия. Пошаговая регрессия с включением и исключением предикторов, нелинейная регрессия, риджрегрессия, построение прогнозов, всесторонний анализ остатков, вычисление прогнозов и доверительных интервалов для прогнозируемых значений (можно анализировать очень большие модели, до 500 переменных).
Нелинейное оценивание. Подгонка любой задаваемой пользователем функции, задаваемая пользователем функция потерь, разрывная регрессия.
Временные ряды и прогнозирование. Широкий выбор моделей анализа временных рядов, включая модели АРПСС — авторегрессии и проинтегрированного скользящего среднего, модели с интервенцией, анализ распределенных лагов, спектральный анализ чрезвычайно длинных временных рядов, преобразования рядов, включая быстрое преобразование Фурье и многие другие процедуры углубленного анализа.
Кластерный анализ. Широкий набор процедур кластерного анализа, включая иерархическое объединение, двухвходовое объединение, метод к-средних; алгоритмы оптимизированы для анализа очень больших проектов, например, методом к-средних можно анализировать 400000 наблюдений с 10 переменными.
Факторный анализ. Процедуры факторного анализа и анализа главных компонент, ортогональные и косоугольные факторы, иерархический анализ косоугольных факторов и др.
Канонический анализ. Вычисление канонических переменных и канонических корней.
Многомерное шкалирование. Анализ расстояний, матриц сходств и различия, диаграмма Шепарда и др.
Деревья классификации. Современные методы построения деревьев классификации с категориальными и порядковыми предикторами и различными функциями потерь.
Анализ соответствий. Современные методы анализа таблиц сопряженности.
Структурное моделирование. Построение структурных моделей, продвинутый факторный анализ.
Надежность и позиционный анализ. Методы построения вопросников, оценка надежности позиций и др.
Дискриминантный анализ. Процедуры всестороннего дискриминантного анализа, разнообразные статистики и графическое представление результатов.
Логлинейный анализ. Всесторонний анализ многовходовых таблиц сопряженности, автоматическое построение лучшей модели.
Анализ выживаемости. Анализ таблиц жизни, оценки Каплана-Мейера, регрессионные модели: Кокса, логнормальная, экспоненциальная, зависящие от времени ковариаты, разнообразные статистики и критерии.
Дисперсионный анализ. Полный набор методов одномерного и многомерного дисперсионного анализа, фиксированные и переменные ковариаты, апостериорные критерии, контрасты, проверка предположений дисперсионного анализа, планы с повторными измерениями, иерархически вложенные планы, планы с пропущенными ячейками и многое другое.
Компоненты дисперсии. Смешанные модели дисперсионного анализа, оценка компонент дисперсии.
Графические возможности. STATISTICA обладает огромными возможностями для построения графиков непосредственно из таблиц исходных данных и таблиц результатов, причем графика и анализ данных тесно интегрированы. Например, если после вычисления корреляционной матрицы у пользователя возникает потребность в графическом представлении корреляционной зависимости, то достаточно поместить курсор на соответствующий коэффициент корреляции, нажать правую кнопку мыши и в появившемся меню выбрать пункт Быстрые статистические графики, а затем одну из диаграмм рассеяния. На экране появится требуемый график. В разных модулях системы имеются свои специальные графики, учитывающие особенности получаемых в них результатов.
Один из способов построения графиков в системе STATISTICA — использовать окно Галерея графиков.
Источник: studwood.net