Рассмотрим приемы решения статистических задач с применением специализированной системы статистического анализа данных – STАTISTICA. Мы будем использовать полностью русифицированную версию, предоставленную российским представительством компанииStatSoft, снабженную техническим руководством и электронным учебником 1 . Для тех, кто не располагает русифицированной версией, приведем оригинальные названия пунктов меню и кнопок диалоговых окон системыSTATIATICA5.5. Интерфейс более поздних версий системы будет интуитивно понятен.
STATISTICA– это универсальная система, включающая расчет набора статистик и графиков, дисперсионный и непараметрический анализ, корреляционный и многомерный регрессионный анализ, кластерный и факторный анализ и т.д. В системе данные организованы в виде наблюдений и переменных. Наблюдения можно рассматривать как эквивалент записей в программе управления базами данных, а переменные – как эквивалент полей. Переменные могут иметь имя, например ВЕС, РОСТ (по умолчаниюVAR1,VAR2, …). Наблюдения (CASE) имеют порядковую нумерацию, но могут содержать имена наблюдений, например Иванов, Петров.
Средние величины. Средняя арифметическая.
Файлы данных системы STATISTICAпомимо исходных данных могут хранить и другую информацию, например:
- формат отображения;
- определенные значения, которые нужно пропускать при расчетах;
- длинные имена переменных и комментариев;
- длинные метки и комментарии для отдельных значений;
- формулы, которые можно использовать для задания, перекодирования или преобразования каждой переменной;
- динамически обновляемые связи между файлом данных и другими файлами данных, совместимыми с Windows; за подробностями следует обратиться к справочнику системы или к специальной литературе 1 . 2
9.2. Описательная статистика
Пример 9.1.Требуется определить среднюю величину дневной выручки в магазине. Пусть мы располагаем выборкой этой величины, которая фиксировалась кассиром ежедневно в течение месяца. Эти данные приведены в табл. 9.1. Таблица 9.1.Исходные данные к примеру 9.1
День | Выручка (руб.) | День | Выручка (руб.) | День | Выручка (руб.) |
1 | 27479,27 | 11 | 38077,50 | 21 | 53686,90 |
2 | 39469,80 | 12 | 69720,76 | 22 | 69582,56 |
3 | 43501,55 | 13 | 38106,10 | 23 | 30865,84 |
4 | 39264,79 | 14 | 50553,20 | 24 | 44048,56 |
5 | 30043,48 | 15 | 43583,21 | 25 | 61449,22 |
6 | 67662,00 | 16 | 41282,52 | 26 | 53349,40 |
7 | 68987,42 | 17 | 46200,47 | 27 | 55048,30 |
8 | 35961,27 | 18 | 45346,07 | 28 | 39927,48 |
9 | 36232,53 | 19 | 54307,78 | 29 | 38368,89 |
10 | 50277,72 | 20 | 67304,06 | 30 | 31470,00 |
Решение. Для решения поставленной задачи необходимо будет по данным этой выборки определить математическое ожидание случайной величины (выручки), дисперсию и среднеквадратичное отклонение. Затем построить доверительный интервал на оценку математического ожидания, задавшись приемлемой доверительной вероятностью (например, 95 %). Решение
Статистика. Формулы нахождения средних величин
- З Х апустите программуSTATISTICAи в переключателе модулей системы (рис.9.1) выберите режимОсновные статистики и таблицы (BasicStatistics). Нажмите клавишуПереключиться в(SwitchTo) – на экране появится основное окно системы. Как правило, в этом окне откроется таблица с раннее использовавшимся набором данных. Можете закрыть эту таблицу, нажав кнопку в правом верхнем углу.
- Теперь нужно создать свою электронную таблицу данных. В основном окне системы выберите меню Файл (рис.9.2) и команду Создать данные…(New Data). В диалоговом окне Открытие файла данных(OpenDataFile) (рис.9.3.) выберите нужный каталог и введите имя файла. По умолчанию файлам, содержащим таблицы данных, присваивается расширение .sta.
![]() |
![]() |
Рис.9.1.Окно переключателя модулей | Рис.9.2. Меню команды Файл |
Рис.9.3. Окно открытия файла данных После нажатия кнопки Сохранить (Save) появится пустая таблица данных по умолчанию размером 10п * 10н, т.е. 10 переменных (VARIABLES) представлены значениями в 10 наблюдениях (CASE). В нашем случае имеется всего одна переменная и 30 наблюдений.
Поэтому с помощью меню Переменные / удалить (Vars/Delete) удалите из таблицы переменные VAR2 – VAR10, а с помощью меню Наблюдения / добавить (Case/Add) добавьте еще 20 наблюдений после 10-го. Щелкните дважды по ячейке с именем VAR1, задайте имя переменной нашего примера – ВЫРУЧКА (рис.9.4) и нажмите кнопку ОК. В окне Данные(Data) введите значения выручки в магазине из табл.9.1 и сохраните данные с помощью команды менюФайл/Сохранить (File/Save).
- Теперь можно приступить к расчету требуемых статистических характеристик. С помощью меню Анализ/Описательная статистика (Analysis/DecriptiveStatistics) вызовите диалоговое окноОсновные статистики и таблицы(BasicStatistics) (рис.9.5), выберите командуОписательные статистики (DecriptiveStatistics) и нажмитеОК. В появившемся окне (рис.9.6), нажав кнопкуПеременные (Variables), укажите имя исследуемой переменной; в данном случае она единственная в списке – ВЫРУЧКА.
Рис.9.5. Окно выбора метода основных статистик Вернувшись в окно Описательные статистики (Decriptive Statistics), нажмите кнопку Другие статистики (More statistics) и в появившемся списке укажите следующие статистические характеристики: математическое ожидание (Mean); стандартное отклонение (StandardDeviation); дисперсия (Variance); стандартная ошибка (Standard error of mean); доверительный интервал на математическое ожидание при доверительной вероятности 95 % (95 % confidencelimitsofmean).
Рис.9.6. Диалоговое окно описательной статистики Запустите вычислительную процедуру, нажав кнопку ОК. На экране появится следующая таблица результатов (рис.9.7). Из этой таблицы можно легко увидеть, что величина ежедневной выручки в магазине с вероятностью 95 % лежит в пределах от 42304,96 до 51772,28 руб. и в среднем составляет 47038,62 руб.
Рис.9.7. Результат расчета основных характеристик случайной величины Визуальную интерпретацию результатов можно представить с помощью двумерного графика. В диалоговом окне Описательные статистикинажмите клавишуГрафики «ящики с усами»(Boxhttps://studfile.net/preview/1938848/» target=»_blank»]studfile.net[/mask_link]
Решение задач по статистике программа
Разработка программ по решению задач статистического анализа
Некрасов И.С. 1
1 Муниципальное автономное общеобразовательное учреждение Заводоукоувского городского округа «Заводоуковская средняя общеобразовательная школа № 2»
Уразаева Д.Д. 1
1 Муниципальное автономное общеобразовательное учреждение Заводоукоувского городского округа «Заводоуковская средняя общеобразовательная школа № 2»
Автор работы награжден дипломом победителя I степени
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке «Файлы работы» в формате PDF
Я всегда интересовался точными науками, такими как информатика и математика. В 5 классе по предмету информатика мы начали изучать работу с электронными таблицами, составляли формулы и функции по проведению расчетов, строили графики и диаграммы. Данные знания дали мне возможность помогать маме в проведении анализа при работе с электронными таблицами.
Но, к сожалению, я не мог выполнить все необходимые расчеты, каждый раз обращался к ресурсам сети Интернет, чтобы изучить работу с той или иной функцией. И я задался вопросом: «А можно ли автоматизировать данный процесс, чтобы не приходилось каждый раз составлять новые функции?». Тогда я обратился к учителю информатики. Учитель рассказал мне о возможных способах, таких как создание электронной таблицы со встроенными функциями и разработка специальных программ, позволяющих провести статистические расчеты посредством чтения данных из электронной таблицы. Меня заинтересовал второй вариант, так как я уже на тот момент изучал язык программирования Python и хотел рассмотреть его дополнительные возможности.
Я начал искать на ресурсах сети Интернет программы, о которых говорил учитель информации. Но, в основном, я находил информацию либо только об отдельных функциях, либо программы, которые позволяют выполнить только часть статистических расчетов. Изучив данные программы, я понял, что не смогу с их помощью провести все вычисления, которые необходимы при анализе данных по результатам работы с учащимися моей мамы.
Также я решил провести беседу и с учителями и узнать, сколько времени занимает у них работа с электронными таблицами и проведение расчетов. Как я узнал, не все учителя могут самостоятельно выполнить все необходимые вычисления, часть из них обращаются за помощью друг к другу, либо проводят вычисления вручную. Также я узнал и о статистических величинах, которые необходимо вычислить для проведения эффективного анализа результатов работы учителю.
Таким образом, я решил разработать набор программ, которые позволят учителю любого предмета провести комплексный анализ результатов их работы, затрачивая при этом минимум времени.
Цель исследования:
Разработка программ по выполнению расчетов над статистическими данными результатов проверочных и экзаменационных работ учащихся для использования учителем в проведении анализа.
Задачи исследования:
Исследование функционала языка программирования Python в области применения к задачам статистического анализа.
Разработка программ по выполнению статистических расчётов.
Составление инструкции по использованию программ в помощь учителю.
Оказание помощи учителям в выполнении статистических расчетов на базе МАОУ СОШ №2 г. Заводоуковск.
Методы исследования:
Описательный метод. Включает в себя сбор информации, анализ возможностей языка программирования Python, беседа с учителями.
Метод проектирования. Способствует проведению подбора статистических задач к набору программ и функций по их выполнению.
Экспериментальный метод. Позволит проверить эффективность разработанного материала при его применении учителями в проведении анализа.
Гипотеза: мы предположили, что программы по выполнению статистических расчетов поспособствуют эффективному комплексному анализу результатов проверочных и экзаменационных работ, а также сократит время, уделяемое учителем, на данную часть работы.
В ходе проведённой работы разработали набор программ и инструкцию по их использованию, также провели апробацию данного материала на основе статистических данных результатов контрольной работа по алгебре 9 «В» класса и по русскому языку 11 «А» класса. Апробация прошла успешно, учителя ознакомились с инструкцией и самостоятельно провели ряд статистических расчётов.
Глава 1. ТЕОРЕТИЧЕСКИЕ СВЕДЕНИЯ
1.1 Общая характеристика языка программирования Python.
Python является высокоуровневым объектно-ориентированным языком программирования, использование которого делает возможным выполнение различных задач. Данный язык ориентирован на повышение производительности разработчика и читаемости кода.
Стандартная библиотека Python содержит большой объём функций, а его синтаксис достаточно прост в изучении и использовании. Именно поэтому данный язык является наиболее удобным для тех, кто только начинает изучать программирование.
Python отличается рядом характеристик: 1) код написанный на данном языке программ легко читаем благодаря чёткому и последовательному синтаксису; 2) есть возможность объединить язык с файлами различных типов; 3) массив может включать объекты разных типов; 4) значение любого типа может быть назначено переменной. [5]
В данном языке программирования используется 6 видов оператора:
Условные операторы: i f – если; else – иначе, elif (else if) используется, когда условий и альтернатив несколько.
Операторы цикла: w hile (пока), for (для).
Оператор определения класса c lass
Оператор определения функции, метода или генератора d ef.
Оператор обработки исключений try – except – else или try-finally . [ 5 ]
Помимо стандартной библиотеки, Python содержит множество других библиотек, каждая из которых имеет своё предназначение. Рассмотрим некоторые из них:
1. Matpolitib – визуализация данных, которая позволяет предоставить информацию в наглядном виде и изучить более подробно, а также доступно изложить другим людям.
2. Dora – библиотека, которая предназначена для анализа основных свойств данных и нахождения в них общих закономерностей.
3. Openpyxl – это библиотека Python для чтения и записи файлов Excel (с расширением xlsx / xlsm / xltx / xltm) . [3]
В настоящее время Python используется большим количеством программистов во многих странах мира. К одним из основных причин такой распространенности языка является то, что работа осуществляется одинаково эффективно на различных операционных системах. Функционал данного языка позволяет разрабатывать приложения любого объёма.
Таким образом, Python является наиболее оптимальным вариантом при решении задач по статистике, так как данный язык более прост в самостоятельном изучении, а также отвечает всем необходимым требованиям.
1.2 Чтение и запись файлов с использованием библиотеки Openpyxl
В сфере образования посредством статистических вычислений проводится анализ деятельности учебных учреждений, например, подготовки учащихся к сдаче Единого государственного экзамена. Результаты подобных исследований используют для практических выводов. Часто перед учителями стоят задачи по извлечению каких-то данных из файлов формата XLS без предварительной технической подготовки.
В соответствии с формой представления данных и статистическими величинами (максимальный балл, среднее значение баллов по списку учащихся; количество учащихся, выполнивших работу на ту или иную оценку и т.д.), которые необходимо извлечь и провести вычисления, для разработки программ выбрана библиотека Openpyxl.
Openpyxl – это библиотека Python для чтения и записи файлов Excel. Данная библиотека позволяет считывать данные и выполнять статистические вычисления на основе данных из электронной таблицы [5]. Рассмотрим основные возможности библиотеки Openpyxl:
Определение файла, с которого будут считываться значения. Для выполнения данного действия необходимо воспользоваться функцией load_workbook.
Определение листа, с которого будут считываться значения. Для реализации данного действия необходимо добавить строку следующего вида:
ws = wb[‘Индивидуальные результаты’], где в квадратных скобках содержится название листа.
Определение ячейки, с которой необходимо вывести числовое значение. Чтобы обозначить данную ячейку в кодовой программе, после того, как определили файл и лист, необходимо ввести следующую строку: ws[‘E’ + str(i)].value, где E-столбец, i – переменная, от которой зависит номер строки.
Функции statistic.mode(), statistic median(). Данные функции позволяют вычислить значения моды и медианы из числового ряда[4].
Владея базовыми знаниями и умениями по программированию на языке Python, хорошей математической подготовкой, можно использовать вышеуказанные функции для разработки эффективных программ по выполнению статистических расчетов. Для вычисления таких величин как значение максимального количества баллов за проверочную работу, общего количества учащихся и т.д., дополнительно составляются формулы на основе встроенных функций Python.
Таким образом, библиотека Openpyxl содержит все необходимые функции для выполнения необходимых статистических расчетов, а также позволяет структурировать данные в целях облегчения анализа.
Глава 2. ПРАКТИЧЕСКАЯ ЧАСТЬ
2.1 Набор программ для реализации статистических расчетов.
При работе педагогу необходимо корректировать данные по названию файла, соответствующего листа, номерам столбцов. Каждая программа позволяет выполнить определенные статистические расчёты: №1 – количество учащихся; №2 – количество учащихся, выполнивших работу на максимальное количество баллов; №3 – количество учащихся, не получивших ни одного балла за ту или иную часть работы; № 4 – часть учащихся, получивших менее минимального балла; № 5 – среднее значение баллов по конкретному заданию; № 6 – максимальное количество набранных баллов; № 7 – размах между наибольшим и наименьшим количество набранных баллов; № 8 – результат в баллах, который встречался чаще всего; № 9 – сумма баллов за задания определенной части; № 10 –количество учащихся, выполнивших более половины заданий. Формулировка задач и программные коды по их реализации представлены в таблице 1.
Таблица 1. Проведение статистических вычислений в среде языка программирования Python
Реализация поставленной задачи
Источник: school-science.ru
Решения — по задачам
Ниже приведены некоторые ключевые задачи, возникающие при анализе данных. В каждом разделе подробно рассмотрена исследуемая задача, предложены основные инструменты и методы её решения, приведены реальные примеры применения STATISTICA.
Визуализация
Поиск зависимостей
Прогнозирование
Классификация
Скоринг
Есть вопросы?
Специалисты StatSoft всегда на связи.
Решения
Разобраться в STATISTICA?
Легко!
Видеоролики STATISTICA
Получать информацию о новинках!
Авторские права на дизайн и материалы сайта принадлежат компании StatSoft Russia.
Все права защищены.
StatSoft Russia – компания, зарегистрированная и действующая в соответствии с законами России, которые могут отличаться от законов других стран, имеющих офисы StatSoft. Каждый офис StatSoft является самостоятельным юридическим лицом, имеет право предлагать услуги и разрабатывать приложения, которые могут быть, а могут и не быть представлены в офисах StatSoft других стран.
Источник: statsoft.ru