Stata программа для чего

Содержание

Обычно данные подготавливаются в пакете Excel, а затем уже попадают в статистические пакеты, так как Excel удобен для манипуляций с данными, но не содержит продвинутых возможностей анализа данных.

Формат исходных данных

идентификационный номер фильма

является ли фильм сиквелом (1) или нет (0)

метод производства (анимация, игра актеров и т.п.)

рейтинг Американской ассоциации кинопроизводителей, указывающий на возрастные ограничения к просмотру фильма

производственный бюджет, скорректированный на инфляцию ($ 2011 года)

кассовые сборы внутри США, скорректированные на инфляцию ($ 2011 года)

номинальные кассовые сборы внутри США, нескорректированные на инфляцию

количество кинотеатров, в которых фильм показывался в первый уик-энд проката

количество фильмов-конкурентов, вышедших за 14 дней до или после релиза фильма

количество фильмов-конкурентов, вышедших за 7 дней до или после релиза фильма

суммарный бюджет фильмов-конкурентов, вышедших за 14 дней до или после релиза фильма

STATA for beginners course: Stats basics, creating variables, data entry, descriptive stats

суммарный бюджет фильмов-конкурентов, вышедших за 7 дней до или после релиза фильма

Импорт данных в пакет Stata

Импортируем данные в пакет Stata из Excel. Для этого лучше всего сохранить файл в формате «Текстовый файл с разделителями табуляциями»). Затем в Stata выбираем File-Import-ASCII data created by a spreadsheet и указываем путь к файлу movies2000-2011.txt. Обратите внимание, что в связи с особенностями Stata в имени пути не должно быть буквы «я».

Далее обычно можно оставить настройки по умолчанию (Stata сама определит тип разделителя и тип данных для каждой переменной):

  • В окне результатов появилась команда вида:

insheet using «путь к текстовому файлу с данными»

  • Мы могли выполнить импорт введя эту команду в командную строку, но импорт файла обычно проще выполнить через кнопочный интерфейс.
  • В левом верхнем углу сохраняются введенные команды так, чтобы их в любой момент можно было повторно ввести или скопировать куда-либо. Желательно сохранять все использованные Вами команды с комментариями, чтобы потом Ваш анализ легко было воспроизвести Вам самим или другим людям.
  • В левом нижнем углу выводится список переменных в нашем наборе данных. Это названия переменных, которые были в верхней строке Excel-файла.

Для того чтобы увидеть данные подобно тому, как мы видели их в Excel, нужно зайти в меню Data – Data Editor – Data Editor (edit):

Работа в STATA: базовые команды

Числовые значения отображаются черным цветом, а переменные строкового типа – красным.

Источник: studfile.net

1. Введение в Stata

S t a t a Stata S t a t a Давайте поговорим о его преимуществах. По сравнению с другими серьезными языками программирования, где у Stata есть преимущества:

  • Короткий и мощный
  • Очень быстрая скорость расчета
  • Отличная функция рисования
  • Поразительная скорость обновлений и развития
  • Обработка и анализ данных для научных исследований

Исследователи не нуждаются в крупномасштабной структуре проекта, но нуждаются в таком виде скриптового, динамического программного обеспечения, которое позволяет легко получать результаты, поэтому Stata относительно популярна в области научных исследований.

2. Сетевые ресурсы

  • Официальный сайт Stata: http://www.stata.com/links/
  • Интерактивные учебные материалы, предоставленные UCLA (Калифорнийский университет в Лос-Анджелесе): http://stats.idre.ucla.edu/stata/
  • Экономический форум Народного Конгресса
  • Baidu

Два, основная операция Stata

1. Журнал операции

Зачем мне журнал? Фактически, ведение журнала является хорошей рабочей привычкой и может записывать рабочий процесс.

  • log using + Путь к хранилищу / имя журнала.log : Это нормально не писать, журнал будет храниться по пути по умолчанию;
  • log using + Путь к хранилищу / имя журнала. Журнал, добавить : Откройте файл журнала, а затем сделайте запись в исходном файле журнала;
  • log using + Путь к хранилищу / имя журнала.log, заменить : Откройте файл журнала и перезапишите исходный файл журнала.
  • log off : Запись файла журнала приостановлена;
  • log on : Пауза записи файла журнала заканчивается, и запись продолжается;
  • log close : Запись файла журнала заканчивается, и результат записи сохраняется автоматически.
Читайте также:
Программа mediaget что это

2. Операции с документами

По сравнению с написанием команд непосредственно для запуска, запись в документе легче сохранить. Это еще одна сильная рекомендация. Напишите команду в редакторе do-файла и оставьте четкую пометку.

  • doedit :включить d o do d o Редактор документов
  • doedit mylog.do : Открыть существующий d o do d o Документ можно указать полный путь.

3. Манипулирование данными

После импорта данных:

  • edit : Редактировать данные, нельзя изменять данные
  • browse : Просматривать данные, изменять данные нельзя
  • format price wei len mpg %6.3f : Определить формат отображения переменной
  • br, nolabel : Сокращение от просмотра

4. Путь к файлу и настройки

  • pwd : Показать текущий рабочий путь
  • cd «/Users/dell» : Войти в папку, путь к содержимому определяется самостоятельно
  • dir : Файл по текущему пути
  • ls : Отобразить содержимое каталога, эквивалентное dir
  • sysdir : Путь к системному файлу
  • help : Следуйте команде, чтобы просмотреть файл справки внутренних команд Stata, очень мощный
  • search : Возьмите любое предложение и найдите соответствующую информацию
  • findit : Поиск внешних команд, затем вы можете скачать их вручную
  • clear : Очистка памяти
  • ssc install cmdname : Установить новые команды
  • findit dynamic cmdname : Поиск по ключевым словам, загрузка внешних команд

ssc install fsum // загрузить fsum

Три основных команды Stata

1. Три типа команд управления

Вы можете увидеть, что это за операторы:

оператор помощи // оператор

Оператор отношения: ==; >; =;
sysuse auto, clear // Использовать включенный файл данных sysuse — Использовать отправленный набор данных (автомобильные данные 1978 года) описать // Посмотрите значение каждой переменной в импортированном файле данных

прейскурантная цена // Список всех значений переменной цены

Операторы отношения часто и if Подключитесь, чтобы использовать:

прейскурантная цена if foreign == 0 // Перечислить значение цены с внешним значением 0 в записи, которая является внутренней
sum price if foreign! = 1 // Описательная статистика по цене foreign! = 1 в записи

Логические операторы: (and) ; | —>(or)

sysuse auto, clear sum price weight if (foreign==1 =3)

sum price wei if (rep78==1) | (rep78==5) | (foreign !=0)

sum price wei if (rep78>2 5) | (price>10000)

Арифметический оператор: + — * / ^ (Мощность)

display 5 ^ 2 // Мощность dis 1 — 3*2 + 4/5 — 9^3 dis 2*_pi

  • Упражнение
    а. Предоставьте описательные статистические данные о цене, весе и длине автомобилей отечественного производства, которые ремонтировались менее трех раз в 1978 году:

    б. Вычислите квадрат [(70 + 12), умноженный на 5, деленный на 3].

2. Импортировать данные

1. Импортируйте данные Excel.

Вы можете скопировать и вставить напрямую; или в строке меню, file-import ; Или команду:

import excel «path», sheet («. «) firstrow sysuse auto, clear // Загрузить файл данных, который поставляется со Stata

Вы также можете использовать do file для ввода данных:

идентификатор ввода женская раса ses str3 schtype prog чтение запись математика наука socst // после ввода следует имя переменной 147 1 1 3 pub 1 47 62 53 53 61 // Конкретное значение переменной 108 0 1 2 pub 2 34 33 41 36 36 18 0 3 2 pub 3 50 33 49 44 36 153 0 1 2 pub 3 39 31 40 39 51 50 0 2 2 pub 2 50 59 42 53 61 51 1 2 1 pub 2 42 36 42 31 39 102 0 1 1 pub 1 52 41 51 53 56 57 1 1 2 pub 1 71 65 72 66 56 160 1 1 2 pub 1 55 65 55 50 61 136 0 1 2 pub 1 65 59 70 63 51 end сохранить «упражнения.dta»

2. Откройте предыдущие данные dta.

Вы можете использовать меню или команду:

use «упражнения.dta» // после использования указывается путь к хранилищу данных

3. Добавление данных

А. Горизонтальное добавление слияния

По горизонтали в паспортеДобавить еще одну табличную переменную。

clear input id female race ses str3 schtype // после ввода следует имя переменной 147 1 1 3 pub // Конкретное значение переменной 108 0 1 2 pub 18 0 3 2 pub 153 0 1 2 pub 50 0 2 2 pub 51 1 2 1 pub 102 0 1 1 pub 57 1 1 2 pub 160 1 1 2 pub 136 0 1 2 pub end сохранить «Exercise 1.dta»

clear идентификатор ввода женский прогр чтение запись математика наука socst // после ввода следует имя переменной 147 1 1 47 62 53 53 61 // Конкретное значение переменной 108 0 2 34 33 41 36 36 18 0 3 50 33 49 44 36 153 0 3 39 31 40 39 51 50 0 2 50 59 42 53 61 51 1 2 42 36 42 31 39 102 0 1 52 41 51 53 56 57 1 1 71 65 72 66 56 160 1 1 55 65 55 50 61 136 0 1 65 59 70 63 51 end save «Exercise 2.dta» // Изменить путь

Читайте также:
Программа antutu benchmark что это такое

Теперь, когда у нас есть две таблицы, как их объединить?

use «Exercise 1.dta» // Используемая основная таблица объединить 1: 1 id с помощью «Exercise 2.dta» // Горизонтальное добавление // Использование идентификатора переменной для слияния // Идентификатор основной таблицы и вторичной таблицы 1: 1

б. Вертикальное добавление

clear идентификатор ввода женская раса ses str3 schtype prog чтение запись математика наука socst // после ввода следует имя переменной 147 1 1 3 pub 1 47 62 53 53 61 // Конкретное значение переменной 108 0 1 2 pub 2 34 33 41 36 36 18 0 3 2 pub 3 50 33 49 44 36 153 0 1 2 pub 3 39 31 40 39 51 50 0 2 2 pub 2 50 59 42 53 61 end сохранить «Exercise 3.dta» // Изменить путь clear идентификатор ввода женская раса ses str3 schtype prog чтение запись математика наука socst // после ввода следует имя переменной 51 1 2 1 pub 2 42 36 42 31 39 102 0 1 1 pub 1 52 41 51 53 56 57 1 1 2 pub 1 71 65 72 66 56 160 1 1 2 pub 1 55 65 55 50 61 136 0 1 2 pub 1 65 59 70 63 51 end save «Exercise 4.dta» // Изменить путь

используйте «Exercise 3.dta» добавить, используя «Exercise 4.dta» // Данные объединены ниже

Четыре, анализ данных

1. Основные команды

  • sysuse auto, clear : Импортировать файл данных, поставляемый со Stata.
  • describe : Опишите источник данных и размер данных
  • list : По очереди перечислить значения наблюдаемых переменных
    list price foreign in 1/20, sepby(foreign) : Перечислите первые 20 значений переменных цены и иностранных
  • lookfor «Repair» : Поиск переменных, содержащих определенные ключевые слова
  • sum //summarize : Описание базовой статистики
  • codebook : Опишите подробности данных
  • compress : Формат хранения автоматически сжатых данных.
  • count if price > 10000 : count
  • sort price : Сортировать по цене в порядке возрастания
  • gsort price : Сортировать по цене в порядке возрастания
  • gsort -price : Сортировка в порядке убывания по цене (gsort может использовать «+» для сортировки в порядке возрастания переменной и «-» для сортировки в порядке убывания переменной)
  • bysort foreign: sum price wei len : Групповая статистика

  • tabulate foreign : Занесен в таблицу с указанием частоты
  • tabulate foreign rep78 : Двумерный список частот (обратите внимание, что всего 69, потому что есть некоторые пропущенные значения)

  • tabulate foreign rep78, sum(price) mean
  • tabstat price wei len mpg turn foreign, s(mean sd p50 min max) :Compact table of summary statistics
  • rename weight wei : Переименовать одну переменную
  • rename (length gear_ratio) (len gr) : Пакетное переименование
  • drop turn gr make : Удалить переменные, можно удалить несколько
  • drop if rep78==. : Используется с реляционными операциями для удаления этих отсутствующих значений

  • replace price==15000 if price>15000 : Заменить, использовать с реляционными операциями, заменить те, у которых значение цены больше 15000, как цена

2. Создайте переменные

  • gen weight2=weight^2 : Создать новую переменную weight2 , Значение weight в квадрате
    -
  • egen zprice = std(price)
    egen rpice = mean(price), by(foreign) : Группировать по внешним и генерировать новые переменные
    egen mprice = median(price), by(foreign) : Группировать по внешним и генерировать новые переменные

    egen — это расширение gen,Не беспокойтесь о конкретной разнице. Короче говоря, обычно используют gen для генерации переменных, еслиХотите использовать некоторые специальные функции для генерации некоторых переменных, Просто используйте egen.

На самом деле это просто, gen newvar = exp Указывает, что новая переменная, сгенерированная gen, должна быть получена операцией выражения, egen newvar = fcn(arguments) , Это означает, что новая переменная, сгенерированная egen, должна быть получена операцией функции.

3. Преобразуйте строку в символьную переменную.

  • describe make

найти make Это строковая переменная, преобразуйте ее в символьную переменную:

  • encode make, gen(cenmake) : Строковая переменная становится числовой переменной
  • tostring price, gen(price_1) : Числовые переменные возвращаются к строковой форме
  • destring price_1, replace : Строковая форма возвращается к числовой форме

4. Создайте фиктивные переменные.

sysuse nlsw88.dta, clear gen ln_wage=ln(wage) gen dum_black=(race==2) gen tenure_bl = tenure*dummy_black

5. Работа с этикеткой

1. Переименовать ярлык

  • label var ln_wage «In(wage)»
  • label var dum_black «1=blak;0=otherwise»
  • label var tenure_bl «tenure*dum_black»

После изменения метки используйте describe Когда, вы увидите описание новой переменной.

2. Добавьте таблицу соответствия номер-текст

label define hard_work 1 «часов> отраслевое медианное значение» 0 в противном случае » label list hard_work // Отображение соответствия числа-текста конкретной переменной labelbook // Отображаем соответствие числа-текста всех переменных

6. Матрица коэффициентов корреляции

sysuse auto, clear pwcorr price weight length length mpg // Получить матрицу коэффициентов корреляции этих переменных, официальная команда

Читайте также:
Evernote что это за программа как удалить

график матрица цена вес длина миль на галлон // график матрицы коэффициентов корреляции (диаграмма разброса)

7. Гистограмма и график функции плотности.

  • histogram price : Гистограмма.
    — histogram price, frequency : Частотный график

 — kdensity price : Карта ядерной плотности
 — scatter price weight : Нарисовать точечную диаграмму

  • двухсторонний (вес разброса) (вес цены лфита), заголовок («график разброса и график линейной аппроксимации»)

Источник: russianblogs.com

Описание системы Stata

Stata – это полноценное интегрированное программное решение, обеспечивающее все потребности в области науки о данных — манипулирование данными, визуализацию, статистический анализ и автоматизированную отчётность.

Программный продукт Stata (рус. Стата) от компании StataCorp предназначен для статистических исследований над разнообразными выборками данных из разлиных предметных областей и дисциплин. Система предоставляет сотни статистических инструментов для управления данными, статистического анализа и прочих задач анализа данных. Stata распространяется более чем в 180 странах и используется сотнями тысяч профессиональных исследователей и аналитиков.

Статистический анализ при помощи программного обеспечения Stata может быть выполнен посредством графического интерфейса или с помощью текстовых программ на базе синтаксиса Stata, используемого в качестве командной строки. Пользовательский интерфейс достаточно сложен и подходит при проведении глубоких систематических исследований. Такие вещи, как сложные модели структурных уравнений, могут быть решены наряду с обычными статистическими работами.

Подробнее: https://www.stata.com/why-use-stata/
Читать далее

Написание программного кода для статистического анализа данных в программном продукте Stata

Написание программного кода для статистического анализа данных в программном продукте Stata

Работа с таблицей данных в исследовательском программном обеспечении Stata от компании StataCorp

Работа с таблицей данных в исследовательском программном обеспечении Stata от компании StataCorp

Написание программного кода для статистического анализа данных в программном продукте Stata

Работа с таблицей данных в исследовательском программном обеспечении Stata от компании StataCorp

Назначение системы Stata

Разработчик системы Stata

Компания-разработчик
Страна
Головной офис

Колледж-Стейшен, Техас

Веб-сайт

https://www.stata.com/company/

Социальные сети

Вопросы и ответы

Поддерживается ли в Stata английский язык?

Возможно ли использовать Stata на устройствах с Android?

Подойдёт ли Stata для малого бизнеса?

Какие существуют варианты установки Stata?

На каких пользователей нацелен и для кого подходит Stata?

Есть ли у Stata демонстрационная или бесплатная пробная версия?

Популярные аналоги Stata

МТС Анализ геоданных – это сервис с точными данными об инфраструктуре городов и плотности населения, позволяющий выбирать локации для бизнеса, оценивать окружение при аренде коммерческой недвижимости, прогнозировать проходимость и оборот торговой точки.

PolyAnalyst – это программная платформа визуальной разработки сценариев анализа данных и текстов, а также построения интерактивных отчётов, не требующая навыков программирования для аналитики.

Data Plexus – это аналитический онлайн-сервис, помогающий в единой системе решать задачи анализа данных, медиа-аналитики и бизнес-аналитики, и позволяя извлекать и анализировать деловую информацию из разнородных источников данных.

Logi Predict – это аналитическое приложение, позволяющее анализировать информацию и прогнозировать вариантов возможных событий, обеспечиввая тем самым возможность встроить алгоритмы машинного обучения и прогностические модели в любой программный продукт.

Программное обеспечение B3 – это корпоративное программное решение, объединяющее системы и сотрудников с бизнес-информацией, в которой они нуждаются, и прикладными знаниями, которые необходимы для бизнес-анализа.

Платформа Pentaho – это программный продукт, позволяющий извлекать, объединять, трансформировать, смешивать, очищать и подготавливать большие данные в виде потоковой модели из различных обработчиков.

Функции Stata

Многопользовательский доступ
Интеллектуальный анализ данных (ИАД)
Коннекторы для источников данных
Прогнозирование и предсказательная аналитика
Потоковая аналитика
Интерактивная аналитическая обработка (OLAP)

Машинное обучение
Статистический анализ
Индикация трендов и проблем
Импорт/экспорт данных
Визуализация данных
Отчётность и аналитика
Анализ больших данных

Наличие API
Администрирование

Информация о Stata

Stata

Средний бизнес, НКО, Корпорация
Подходит для
Персональный компьютер
Развёртывание
macOS, Windows, Linux
Графический интерфейс

По запросу
Тарификация
Английский
Поддержка языков
Не включён
Реестр российского ПО
Демо версия
Пробная версия (триал)

Свободное ПО

Краткий обзор Stata

Stata – это полноценное интегрированное программное решение, обеспечивающее все потребности в области науки о данных — манипулирование данными, визуализацию, статистический анализ и автоматизированную отчётность. Программный продукт Stata (рус. Стата) от компании StataCorp предназначен для статистических исследований над разнообразными выборками данных из разлиных предметных областей и дисциплин. Система предоставляет сотни статистических инструментов для управления данными, статистического анализа и прочих задач анализа данных. Stata распространяется более чем в 180 странах и используется сотнями тысяч профессиональных исследователей и аналитиков.

Статистический анализ при помощи программного обеспечения Stata может быть выполнен посредством графического интерфейса или с помощью текстовых программ на базе синтаксиса Stata, используемого в качестве командной строки. Пользовательский интерфейс достаточно сложен и подходит при проведении глубоких систематических исследований. Такие вещи, как сложные модели структурных уравнений, могут быть решены наряду с обычными статистическими работами.

Читать далее

Графический интерфейс

Написание программного кода для статистического анализа данных в программном продукте Stata

Написание программного кода для статистического анализа данных в программном продукте Stata

Работа с таблицей данных в исследовательском программном обеспечении Stata от компании StataCorp

Работа с таблицей данных в исследовательском программном обеспечении Stata от компании StataCorp

Источник: soware.ru

Рейтинг
( Пока оценок нет )
Загрузка ...
EFT-Soft.ru