в ближайшее время я буду анализировать огромное количество данных, связанных с сетевым трафиком, и предварительно обработаю данные для их анализа. Я обнаружил, что R и SPSS являются одними из самых популярных инструментов статистического анализа. Я также буду генерировать довольно много графиков и диаграмм. Поэтому мне было интересно, в чем основная разница между этими двумя программами.
Я не спрашиваю, Какой из них лучше, но просто хотел знать, в чем разница с точки зрения рабочего процесса между ними (кроме того, что SPSS имеет GUI). Я буду в основном работать со сценариями в любом случае, поэтому я хотел узнать о других различиях.
11 ответов
Я работаю в компании, которая использует SPSS для большинства наших анализов данных, и по разным причинам — я начал пытаться использовать R для все большего и большего собственного анализа. Некоторые из самых больших различий, с которыми я столкнулся, включают:
- вывод таблиц-SPSS имеет базовые таблицы, общие таблицы, пользовательские таблицы и т. д., которые все выводятся в этот отличный просмотрщик данных или как они его называют. Их можно относительно легко транспортировать к документам Word или листам Excel для дальнейший анализ / презентация. Эквивалентная функция в R включает в себя обучение LaTex или через odfWeave или Lyx или что-то в этом роде.
- маркировка данных —> SPSS делает довольно хорошую работу с метками переменных и метками значений. Я не нашел надежного решения для R для выполнения этой же задачи.
- вы упоминаете, что собираетесь писать сценарии большую часть своей работы, и лично я нахожу синтаксис сценариев SPSS абсолютно ужасным, до такой степени, что Я перестал работать с SPSS, когда это было возможно. Синтаксис R кажется гораздо более логичным и более точно соответствует стандартам программирования, и есть очень активное сообщество, на которое можно положиться, если у вас возникнут проблемы (например). Я не нашел хорошего сообщества SPSS, чтобы задавать вопросы, когда я сталкиваюсь с проблемами.
другие указали на некоторые из самых больших различий с точки зрения стоимости и функциональности программ. Если вам нужно сотрудничать с другими людьми, их уровень комфорта с SPSS или R должен играть фактор, поскольку вы не хотите быть единственным в своей группе, который может работать или редактировать сценарий, который вы написали в будущем.
Difference between SPSS and STATA l 7 easy steps
Если вы собираетесь изучать R, этот пост на веб-сайте Stats exchange имеет кучу отличных ресурсов для обучения R:https://stats.stackexchange.com/questions/138/resources-for-learning-r
автор: Chase
вот что я отправил в список рассылки R-help некоторое время назад, но я думаю, что это дает хороший обзор высокого уровня общей разницы в R и SPSS:
говоря о дружелюбии пользователя компьютерного программного обеспечения Мне нравится аналогия автомобилей против автобусов:
шины очень просты в использовании, вы просто нужно знать, на какой автобус сесть, где сесть и где сойти? (и вам нужно заплатить за проезд). Автомобили с другой рука требует гораздо больше работа, вам нужно иметь некоторый тип карта или направления (даже если карта в вашей голове), вам нужно положить газ внутри время от времени тебе нужно знать. правила дорожного движения (имеют некоторый тип водительских прав).
Большой плюс из автомобиля, что он может принять вас куча мест, которых нет в автобусе идти и быстрее для некоторых поездок это потребует передачи между автобусы.
используя эти программы аналогии, такие как SPSS являются автобусы, легкие для использования для стандартные вещи, но очень неприятно если вы хотите сделать что-то еще не запрограммирован.
R-внедорожник с 4 колесами (хотя экологически чистые) с велосипедом на спине, каяк сверху, хорошо обувь для ходьбы и бега сиденье легкового и альпинизм и спелеологическое оборудование сзади.
R может принять вас везде вы хотите пойти если вы берете время на leard, как использовать оборудование, но это будет займет больше времени, чем изучение того, где автобусные остановки находятся в SPSS.
SPSS vs Stata: All You need to Know
есть GUIs для R, которые делают его немного проще в использовании, но также ограничивают функциональность, которую можно использовать так легко. У SPSS есть сценарии, которые выходят за рамки простой шины, но общая философия SPSS направляет людей к GUI, а не к сценариям.
автор: Greg Snow
начальный рабочий процесс для SPSS включает в себя оправдание написания большого толстого чека. Р находится в свободном доступе.
R имеет один язык для «сценариев», но не думайте об этом так, R-это действительно язык программирования с отличной обработкой данных, статистикой и встроенной графической функциональностью. SPSS имеет «синтаксис», «скрипты», а также скрипты в Python.
другая важная заключается в том, что ГСЗ сжимает свои данные в spreadsheety структуру таблицы. Работа с другими структуры данных, вероятно, очень сложны, но естественно приходит к R. Я не знал бы, где начать обработку данных типа сетевого графика в SPSS, но есть пакет, чтобы сделать это для R.
также с помощью R вы можете интегрировать свой рабочий процесс с отчетностью с помощью Sweave-вы пишете документ со встроенными битами кода R, которые генерируют графики или таблицы, запускаете файл через систему и выходит отчет в формате PDF. Отлично подходит, когда вы хотите сделать еженедельный отчет, или вы делаете тело работы и затем босс дает вам обновленный набор данных. Повторите, прочтите, готово.
но вы знаете, ваш звонок.
автор: Spacedman
Ну, ты неплохой программист? Если да, то стоит изучить R. Вы можете сделать больше с вашими данными, как с точки зрения манипуляции, так и статистического моделирования, чем с SPSS, и ваши графики, вероятно, тоже будут лучше. С другой стороны, если вы никогда по-настоящему не программировали раньше или находите идею потратить несколько месяцев на то, чтобы стать программистом, пугающей, вы, вероятно, получите больше пользы от SPSS. Уровень вещей, которые вы можете сделать с R, не погружаясь в его власть как полноценный язык программирования, вероятно, не оправдывает усилий.
есть еще один вариант — collaborate. Знаете ли вы кого-то, с кем вы можете работать над вашим проектом (вы не говорите, является ли это академическим или промышленным, но в любом случае. ), кто хорошо знает R?
автор: Harlan
здесь есть интересное (и разумно справедливое) сравнение между рядом инструментов статистики
Источник: askdev.ru
Сравнение программных продуктов для анализа данных: R, MATLAB, SciPy, MS Excel, SAS, SPSS, Stata
Википедия нам подсказывает, что на сегодняшний день для анализа данных, в частности, статистической обработки уже разработаны десятки программных продуктов. Рассмотрим кратко наиболее популярные среди них.
Наш коллега в аналогичном обзоре предложил разделять упомянутые программные продукты на две большие группы:
- Решения, ориентированные на программирование: R, MATLAB, SciPy.
- Решения, ориентированные на анализ данных: MS Excel, SAS, SPSS, Stata.
Уже год работаю в Python. Это очень круто! Изучайте Python!
Я провожу занятия в Учебном центре Совета рынка, в частности, читаю лекцию об инструментах прогнозирования. Кроме указанных выше продуктов я рассматриваю RapidMiner, KNIME, Weka, Python. Первые три инструмента стоит отнести ко второй группе, последний к первой.
Конечно, я не имею широкого опыта работы с каждым из них. Свое мнение и впечатление я составила при помощи просмотров роликов на youtube.com. В сети масса материалов о преимуществах и недостатках той или иной платформы для анализа данных в виде видео роликов. В основном на английском языке, например, Introduction to RapidMiner Studio. Смотрите, вникайте, выбирайте!
R
R — объектно-ориентированный open source язык программирования для статистического анализа в финансовом секторе.
Достоинствами языка являются его
- гибкость;
- наличие встроенных мощных аналитических средств;
- открытый код.
- сложность обучения;
- ориентация языка программирования на конкретную предметную область (финансовый сектор).
Согласно википедии, в части анализа временных рядов R имеет встроенную поддержку ARIMA, GARCH, Unit root test, Cointegration test, VAR, Multivariate GARCH.
Начала пользоваться R в январе 2015 года, так как на работе встал вопрос перехода на лицензионное программное обеспечение. Скачала R и R Studio и влюбилась в этот инструмент уже через неделю. Платформа блестящая!
Во-первых, не составило труда найти набор обучающих видео роликов. После двух часов просмотра начала самостоятельно писать код. Далее к обучающим материалам обращалась уже с конкретными вопросами, а также за примерами и пояснениями к функциям. Сложилось впечатление, что пользоваться R очень просто и обучение проходит молниеносно. Обращаю ваше внимание на то, что лучшие обучающие материалы всегда на английском!
Во-вторых, никакой глубокой объектно-ориентированности a la Java в R и в помине нет. Функции на заданную тему сложены в пакет функций, обращение к отдельным идет через точку. И все. Пусть вас не пугают намеки на объектно-ориентированность!
В-третьих, пакетов функций тьма тьмущая, на все лады и ряды. Найти нужный вариант совсем просто, так как материалов в сети просто завались. Лично я влюбилась в пакеты plot3D. Подключение пакета осуществляется одной строкой library(plot3D) и готово! Далее можно использовать все, что в него вложено.
В-четвертых, ориентации на финансовый сектор в R также нет. Это какие-то выдумки публики! Да, он применяется для анализа рыночных данных, но вероятно не потому, что он на эту предметную область заточен, а потому, что он очень удобен!
За пару недель использования R стал мною также любим как MATLAB, в котором работала к тому моменту уже 7 лет. Думала, что будет неудобно, что уже сформировались привычки, которые будут мне мешать эффективно работать с чем-то, отличным от MATLAB. Однако на мое удивление практически все мне показалось очень-очень удобным!
К недостаткам R отнесу отвратительный bedugger. Ждем-с, чтобы для R Studio разработали человеческий bedugger, тогда всеми миру будет счастье! Также могут возникнуть сложности с большими объемами данных, многие функции R работают не слишком быстро. Имейте в виду, что большой объем — это несколько миллионов значений.
Итого. Всем, кто выбирает инструмент анализа для изучения, кто только начинает заниматься данной областью я настоятельно рекомендую R. Это легко, просто, удобно, бесплатно! А ваша рыночная стоимость будет неизменно расти, так как специалисты со знанием R становятся все более и более востребованными.
MATLAB
MATLAB — программный продукт, нацеленный на разработку и отладку алгоритмов расчета. MATLAB применяется, главным образом, в инженерных расчетах.
- «элегантная поддержка матриц»;
- удобный графический интерфейс;
- простота в работе.
- дороговизна лицензий;
- неполная поддержка статистических функций;
- довольно запутанная интеграция с JAVA и C++ приложениями (хотя в последних версиях этот функционал значительно расширен).
- анализировать громадные массивы данных (таблицы более 8 млн строк);
- его слабость в части интеграции заставляет осваивать другие языки программирования (JAVA, C++), когда стоит задача создания системы прогнозирования.
Бесплатным аналогом MATLAB является система Scilab. Кроме того, довольно давно ведется разработка высокоуровневого языка программирования GNU Octave, совместимого с MATLAB, который позволяет использовать операторы C++ при написании кода.
SciPy
SciPy — это библиотека математических функций для языка программирования Python. Высказывается мнение, что «в терминах подхода и функциональности, SciPy наиболее близкое к MATLAB’у решение, однако менее зрелое».
- широкие возможности по интеграции языка Python;
- высокая производительность математических операций;
- наличие готовых средств для визуальной отладки;
- простота освоения.
- незрелость решения (версия на момент написания статьи — 0.11).
MS Excel
MS Excel — знаменитая и, вероятно, самая популярная программа для работы с электронными таблицами при помощи графического интерфейса.
- популярность;
- удобный интерфейс;
- простота освоения.
- отсутствие какой-либо гибкости;
- ограниченный набор функций для анализа данных;
- наличие ограничений на количество строк в таблицах.
Мой комментарий. MS Excel — программа для бухгалтерии и построения графиков. Ни о каких мало-мальски серьезных математических алгоритмах говорить в рамках использования Excel просто нельзя.
SAS
SAS — большая и сложная система для статистической обработки данных.
- гибкий интерфейс обмена данными (интеграции);
- наличие инструментария для работы с кластерами (распределенными системами);
- быстрота расчетов на громадных массивах данных.
- примитивный язык написания скриптов SAS macro;
- сложность поддержки уже написанных скриптов;
- дороговизна лицензий;
- сложность освоения.
Мой комментарий. Я работала с SAS в НП «АТС» и занималась анализом небаланса РСВ и небаланса БР. Для таких задач, которые требовали подключения к 3-5 базам данных с последующей консолидацией значений на громадных массивах (таблицы до нескольких миллионов строк), это отличный инструментарий. Код, написанный на SAS macro, выглядит ужасно нечитабельно, его невозможно поддерживать, он недостаточно гибок даже для простых математических преобразований. А специалистов по SAS днем с огнем не сыщешь.
Википедия нам подсказывает, что SAS, так же как и R, имеет встроенную поддержку ARIMA, GARCH, Unit root test, Cointegration test, VAR, Multivariate GARCH.
SPSS
SPSS Statistics — компьютерная программа для статистической обработки данных для проведения прикладных исследований в социальных науках. Название говорит само за себя! Комментарий пользователя: «По моим впечатлениями SPSS используют люди, которые хотят выполнять общепринятый статистический анализ наиболее простым путем».
- удобный графический интерфейс;
- ориентация на социальных науки.
- дороговизна лицензий;
- отсутствие гибкости в расчетах.
Мой комментарий. Я знаю, что курсы по SPSS проводятся в ВШЭ для студентов и аспирантов гуманитарных специальностей. Моя подруга, выпускница кафедры политологии, считает, что этот инструментарий ей очень подходит для ее задач.
В википедии сказано, что из всего арсенала по анализу временных рядов SPSS имеет встроенную поддержку только моделей ARIMA.
Stata
Stata — программный пакет для анализа данных в сферах экономики, социологии, политики, биомедицины и др. Относительно дешевый аналог SPSS.
- все достоинства SPSS;
- более низкая цена чем у SPSS.
- довольно узкая специализация.
В части анализа временных рядов Stata имеет встроенную поддержку: ARIMA, GARCH, Unit root test, Cointegration test, VAR, Multivariate GARCH.
Резюме
Программный продукт с пользовательстким интерфейсом (Stata, SPSS, MS Excel) или язык программирования (R, SciPy), или смесь графического приложения и языка программирования (MATLAB, SAS) — это инструмент в руках аналитика. Выбирая инструмент для решения задачи, необходимо учитывать:
- сложность и важность задачи;
- сроки получения результатов;
- штат и квалификацию специалистов;
- бюджет, выделенный на покупку инструмента.
Меньшая гибкость Stata, SPSS, MS Excel требуют меньших денег и времени на обучение; большая гибкость предоставляется бесплатно, но требует самой высокой квалификации специалистов. Баланс достичь несложно, однако результат будет зависеть от квалификации аналитика, а не от выбранного инструмента. Главным инструментом прогнозирования является голова!
Уже год работаю в Python. Это очень круто! Изучайте Python!
Источник: www.mbureau.ru
Пакет SPSS
Пакет SРSS (Statistical Package for the Social Sciences) – универсальный статистический пакет компании SРSS Inc 5Официальный сайт компании SPSS Inc.: https://www.spss.com . Первая версия пакета была выпущена в 1968 г. В 2009 г. компания IBM поглотила SPSS Inc., поэтому новая версия пакета включает в свое название аббревиатуру IBM (IBM SPSS Statistics 19).
По мнению разработчиков пакета, SPSS является одним из лидирующих программных продуктов в области статистического анализа данных для решения вопросов в правительственной, академической и бизнессфере.
SРSS является модульной программой. Ее основу составляет базовый модуль (SPSS Base), позволяющий осуществлять управление данными и содержащий наиболее распространенные методы статистического анализа данных: проведение описательной статистики; построение линейных и нелинейных моделей; осуществление преобразования данных; проведение факторного, кластерного, дисперсионного анализов; вычисление корреляций; построение графиков; подготовка отчетов и пр.
Для проведения расширенного и углубленного анализа данных могут быть установлены дополнительные модули пакета. Для пакета IBM SPSS Statistics 19 разработаны 16 различных модулей.
Например, модуль IBM SPSS Advanced Statistics предназначен для проведения анализа сложных взаимосвязей при помощи процедур, учитывающих свойства исследуемых данных, что позволяет продвинуться за рамки базового анализа данных. В модуль встроены мощные инструменты построения моделей. Модуль IBM SPSS Bootstrapping («Самогенерация») позволяет аналитикам проверять устойчивость построенных моделей, а модуль IBM SPSS Direct Marketing («Прямой маркетинг») предоставляет возможность маркетологам самостоятельно выполнять основные виды анализа. Модуль IBM SPSS Data Entry автоматизирует процесс разработки анкеты и ввода результатов опросов.
Достоинства SPSS:
· развитый аппарат статистического анализа;
· универсальность (может быть использован для решения широкого круга вопросов из различных предметных областей, требующих проведения статистического анализа данных);
· широкий набор статистических и графических процедур (более 50 типов диаграмм) анализа данных, а также процедур создания отчетов;
· высокая скорость вычислений, простой и удобный интерфейс;
· детальная контекстно-ориентированная справочная система, позволяющая неопытному пользователю с большей легкостью ориентироваться в программе;
· возможность свободного скачивания демонстрационной версии продукта на официальном сайте компании, наличие версий продукта на различных языках;
· совместимость с операционными системами Windows, Mac, Linux;
· наличие значительного количества литературы по работе с пакетом.
Недостатки SPSS:
· высокие требования к системе компьютера (требуется 1GB оперативной памяти, 800MB памяти на жестком диске и процессор с частотой 1GHz и выше);
· высокая цена по сравнению со статистическими пакетами аналогичного уровня (стоимость покупки для индивидуального пользования сроком на год составляет около 1000 долл. 6Цена по состоянию на август 2010 года. ).
Последняя версия SPSS включает в себя следующие новые возможности:
· импорт данных из Excel и SAS;
· экспорт результатов в MS Office, PDF; сохранение результатов в формате HTML;
· одновременная работа с несколькими наборами данных;
· построение диаграммы для переменных с множественными ответами;
· построение диаграммы с двумя осями Y;
· улучшенный редактор синтаксиса с поддержкой автозавершения и цветового кодирования команд;
· быстрая подготовка данных к анализу посредством Автоматизированной подготовки данных (IBM SPSS Data Preparation), позволяющей облегчить процесс интеллектуального анализа данных, выявляя и исправляя ошибки в данных и объясняя пропущенные значения. Также посредством этой функции можно подготовить отчет с рекомендациями о возможности использования данных для анализа.
На рис.11.1 представлено окно редактора данных SPSS. В левом нижнем углу окна расположены две вкладки: Данные (Data View) и Переменные (Variable View), позволяющие переключаться с режима просмотра значений переменных в режим просмотра их характеристик.
Рис. 11.1. Окно редактора данных SPSS
Результаты статистического анализа приводятся в диалоговом окне под названием Вывод (Output) (рис.11.2).
Рис. 11.2. Окно вывода SPSS
Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:
Источник: studopedia.ru