Эта статья в первую очередь будет интересна тем, кто хочет поработать в R, но пока не знает, с чего начать (о том, что такое R и чем он отличается от других статистических программ, можно прочитать здесь). Сегодня мы рассмотрим, как установить R на свой компьютер, из чего состоит стандартная графическая оболочка Rgui и как в ней работать. Учиться работать в R мы будем на примере реальных данных из исследований: узнаем несколько функций для отображения описательной статистики данных, построим графики и проведем дисперсионный анализ. Итак, приступим!
Как установить R (Rgui) на свой компьютер?
Я советую начинать знакомство с R в стандартной графической оболочке Rgui. Стандартной она называется потому, что встроена в ядро разработки языка программирования R и является неотъемлемой его частью. Rgui имеет хорошую документацию и освещенность в интернете: большинство русских и зарубежных онлайн-курсов, справочников и учебников написаны именно для нее. В добавок, минималистичный интерфейс буквально «заставляет» пользователя активно работать в командной строке, использование которой является необходимым навыком при проведении статистических тестов, построении высококачественной графики и создании собственных программ.
How to use R studio #short
Установка Rgui довольна проста и не занимает много времени. Напомню, что R — это бесплатный продукт, который можно установить как на Windows, так и на MacOSx и Linux дистрибутивы. Ниже приведены инструкции по установке на различные операционные системы. На официальном сайте (https://cran.r-project.org/) находим свою операционную систему и кликаем на соответствующую ссылку.
Windows
- В списке «subdirectories» выбираем «base».
- В открывшемся окне кликаем на ссылку «Download R 3.2.3 for Windows».
- Ожидаем окончания загрузки установочного файла, открываем его, выбираем язык и следуем инструкциям «мастера установки».
MacOSx
- Скачиваем установочный файл с последней версией R.
- Открываем загруженный пакет данных, принимаем лицензионное соглашение и указываем диск, на который установится Rgui.
Linux
Пользователи Linux устанавливают Rgui при помощи команд в терминале. Обращаю Ваше внимание, что для разных дистрибутивов используется разный алгоритм команд. Список команд и детальные инструкции по установке R на Debian, Redhat, Suse и Ubuntu можно найти на официальном сайте R.
Из чего состоит оболочка Rgui и как в ней работать?
После запуска Rgui Вы увидите перед собой приложение, состоящее из трех элементов: меню, панель инструментов и консоль. Также в ходе работы нам понадобятся две дополнительные области: графический модуль и скриптовое окно. Мы отдельно рассмотрим значение и функциональность каждой из этих областей, т. к. данная информация необходима для понимания принципов работы в среде R. Расположение данных элементов можно увидеть на рисунке.
R для каждого, Урок 1
Меню
Как и в других программах, меню играет ключевую роль в создании, загрузке и сохранении файлов, настройке графического интерфейса и других параметров приложения. Меню располагается в верхней части Rgui, но состав его опций меняется в зависимости от активного окна. Например, когда мы работаем в графическом модуле, появляется такая опция, как «Экспорт картинок», которая отсутствует во время работы в консоли или в скриптовом окне.
Панель инструментов
Состоит из ряда графических кнопок («Сохранить», «Копировать» и других), расположенных под областью меню. Функционально кнопки панели инструментов копируют опции меню, но отличаются от них доступностью в один клик.
Консоль и Графический модуль
Консоль — это рабочая область R, внизу которой находится командная срока. Именно туда пользователь вводит команды, и там же видит результат. Другими словами, командная строка работает по принципу «вопрос-ответ». Ответ консоли может выглядеть как описательная статистика для таблицы, результат статистического теста или моделирования.
Однако, при необходимости визуализации данных результат будет находиться не в консоли, а в отдельном окне, называемым графическим модулем. Кликнув на модуль, Вы можете сохранить график как растровое (.jpeg, png, .tiff) или векторное (.svg, .eps) изображение.
Скриптовое окно
Данная область просто незаменима при написании собственных алгоритмов команд, называемых скриптами или скриптовыми программами. Я рекомендую все команды писать именно в скриптовом окне и лишь потом переводить их в консоль (для этого воспользуйтесь комбинацией клавиш CTRL+R). На это есть две причины.
Во-первых, если Вы пользуетесь только консолью и совершили ошибку в предыдущих командах, то Вам придется перезапустить все команды заново, что достаточно проблематично. Во-вторых, записав алгоритм команд в скриптовом окне, Вы можете сохранить его как скрипт (текстовый файл с разрешением .R). Позже можно продолжить работать со скриптом, загрузив его через меню Rgui или же поделиться этим файлом с коллегами. Также в этом окне Вы можете запускать и редактировать чужие скриптовые программы.
От теории к практике
Итак, мы установили R, ознакомились со структурой стандартной графической оболочки Rgui и принципами работы в ней. Теперь осталось лишь закрепить полученные знания на практике. Для этого я предлагаю провести небольшой анализ данных, который будет разбит на три этапа:
- описательная статистика данных;
- визуализация данных в среде R;
- статистический тест.
Специально для практики в R существует встроенный пакет «datasets» с таблицами данных из реальных исследований. Я предлагаю проанализировать данные по влиянию кормовой диеты на вес цыплят.
Описательная статистика
Как я уже говорил выше, все команды в Rgui желательно писать в скриптовом окне и лишь потом переводить в командную строку. Поэтому в панели «Меню» откроем вкладку «Файл» и выберем «Новый скрипт». В появившемся скриптовом окне напишем нашу первую команду, активирующую пакет «datasets» в среде R: library (datasets) . После чего переведем в консоль при помощи комбинации «CTRL R» или простым копированием текста.
Теперь познакомимся с таблицей данных «chickwts», которую мы будем анализировать. Для этого просто напишем ее имя в скрипт и затем, как обычно, переведем в консоль: chickwts . В консоли Вы увидите ответ командной строки, отображающий всю таблицу данных. Как Вы можете видеть, она состоит из двух колонок: «weight» (вес) и «feed» (корм), и 71 строки с данными. Однако, когда таблица данных объемная, то такой способ отображения данных не очень удобен. При помощи команды head можно ограничиться показом первых шести строк. После команды в скобках мы пишем имя объекта, к которому будет применяться команда: head (chickwts) .
Так как данные бывают разных типов, то также можно воспользоваться функцией str , которая покажет структуру таблицы в консоли: str (chickwts) . В нашем случае колонка weight содержит числовой тип данных, а колонка feed — 6 категорий, обозначающих разные кормовые диеты.
Другой полезной опцией для отображения информации об объекте является команда summary. Она выводит описательную статистику для каждой колонки (для числовых данных: минимум, 1-й квартиль, медиана, среднее, 3-й квартиль и максимум; для категориальных: количество наблюдений для каждой категории). Воспользуемся этой функцией: summary (chickwts) . На рисунке Вы видите результаты всех наших команд в консоли слева и скрипт справа.
Чтобы сделать комментарий в скрипте, используйте хэштег (#). R игнорирует все, что будет стоять за этим знаком в строке. Комментирование кода является важными инструментом, особенно в работе над общим проектом. Поэтому если есть хоть какая-то неясность в коде, комментируйте ее коротко и ясно (даже для самого себя).
Визуализация данных
Не менее важным и интуитивно понятным описанием данных является их визуализация. Для того, чтобы убедиться в этом, создадим пару графиков в Rgui.
Было бы интересно узнать, как распределен вес цыплят из нашей таблицы данных. Вероятно, самым простым решением будет создание гистограммы. Для этого нужно ввести команду hist , а внутри скобок написать название данных и определить дополнительные параметры, такие как col цвет, main название графика и прочее. Например:
hist (chickwts$weight,
main = «Гистограмма веса цыплят»,
col = «green», xlab = «Вес (г)»)
Знак доллара ($) используется для того, чтобы сказать R, что данная колонка weight находится внутри таблицы chickwts.
Однако, несмотря на кажущееся нормальное распределение веса среди цыплят, мы не можем полагаться на этот график, потому что цыплята имели разные диеты. Соответственно, нам надо посмотреть распределение данных внутри каждой диетической группы, и лишь потом делать выводы. Для этой цели создадим так называемый тип диаграммы «ящик с усами».
boxplot (chickwts$weight ~ chickwts$feed, col = «light blue»,
main = «Диаграмма веса цыплят при различных диетах»,
xlab = «Вид корма», ylab = «Вес (г)»)
Из последнего графика видно, что вид корма возможно влияет на вес цыплят. Однако, для того, чтобы оценить статистическую значимость этих различий, необходимо провести статистический анализ данных.
Статистический анализ
Так как распределение внутри каждой группы близко к нормальному (исходя из диаграммы), то для оценки статистической значимости этих различий мы можем воспользоваться параметрическим статистическим методом, таким как дисперсионный анализ (ANOVA). Для этого мы создадим статистическую модель и назовем ее nash.test:
nash.test
Из кода видно, что мы создаем линейную модель зависимости веса ( chickwts$weight ) от корма ( chickwts$feed ). При помощи уже известной нам функции summary выводим описание нашей статистической модели в окно консоли: summary (nashtest) .
Как видно из результатов дисперсионного анализа, вес цыплят на кормовой диете casein статистически отличается от других кормов, за исключением корма sunflower (Pr = p-value): цыплята, потребляющие casein, набирают массу быстрее (смотрите параметр Estimate). Вы можете продолжить анализ, используя тест Тьюки ( TukeyHSD ) и другие стат. методы, но к сожалению, это выходит за рамки нашей статьи.
Заключение
Хотелось бы сказать, что в начале пути пользоваться Rgui немного сложновато, особенно если Вы до этого не имели опыта программирования. Однако, опыт приходит с практикой, и надеюсь эта статья помогла Вам понять, что R не так сложен, как кажется на первый взгляд. Сегодня мы освоили принципы работы в Rgui, построили первые графики и даже провели небольшой анализ данных. Другими словами, сделали первые шаги и перешли от теории к практике!
От себя могу порекомендовать в дальнейшем активно пользоваться R в паре с Google, т.к. вопросов будет много, но к счастью, большинство из них хорошо освещены в интернете. И конечно, я всегда рад ответить на Ваши вопросы в комментариях. Так что спрашивайте, не стесняйтесь! Также, если Вы считаете, что эта статья может быть полезной и интересной для Ваших знакомых, то поделитесь ей с помощью социальных кнопок, расположенных ниже.
Источник: samoedd.com
10 лучших бесплатных графических пользовательских интерфейсов для R
Искусственный интеллект, машинное обучение и наука о данных — одни из самых ценных навыков прямо сейчас. Растущая популярность приглашает на поле нескольких новичков. Новички всегда страдают при выборе языка программирования. Решение, конечно же, остается за разработчиком. В этом отношении R — один из лучших языков программирования для AI и ML.
Он поддерживает бесплатную программную среду и статистические вычисления. Однако для работы с R вам понадобится графический интерфейс пользователя (GUI). Многие специалисты по данным предпочитают работать в командной строке, но новичкам следует выбрать определенный графический интерфейс. Существует множество бесплатных графических пользовательских интерфейсов для R. Мы перечислили некоторые из них, чтобы вам не приходилось тратить время на их поиск.
Бесплатные графические пользовательские интерфейсы для R
Большинство разработчиков выбирают R для решения статистических задач. Вы также захотите использовать его для решения актуальных проблем. Вы можете выбрать любой из доступных на рынке графических интерфейсов. Самое приятное, что большинство из них бесплатны. Давайте рассмотрим 10 лучших бесплатных графических пользовательских интерфейсов для R.
01. RStudio
RStudio — самая известная IDE и GUI для R. Он намного опережает своих коллег-конкурентов. Бесплатный графический интерфейс поддерживает два формата. Настольное приложение RStudio, которое является наиболее используемым. И сервер RStudio. Он работает на удаленном сервере, и вы можете получить к нему доступ через свой браузер.
RStudio связан с GNU Affero General Public License, что делает его программным обеспечением с открытым исходным кодом.
Ключевая особенность
- Вы можете полностью запустить код R из редактора исходного кода. Вам не нужно никаких дополнительных усилий.
- Синергетический отладчик для поиска и исправления любого типа ошибки или ошибки.
- RStudio предлагает надежные ресурсы кодирования, предназначенные для повышения производительности.
- Имеет поддержку Subversion и Git, что делает процесс разработки достаточно удобным.
- Великолепное графическое представление данных. Создает графику в сотрудничестве с Shiny и ggvis.
- Если вам нужна помощь, доступно отличное сообщество и документация.
02. Погремушка
Rattle — популярный бесплатный графический пользовательский интерфейс для R. Графический интерфейс хорошо подходит для широкого использования интеллектуального анализа данных. Исходный код Rattle можно загрузить с GitHub, и каждый может придумать новый код и добавить его в разработку. Он предлагает надежные функции интеллектуального анализа данных, раскрывая возможности программного обеспечения R через графический интерфейс. В настоящее время многие правительственные и неправительственные организации по всему миру используют его в своей статистической деятельности и в сфере интеллектуального анализа данных.
Ключевая особенность
- Rattle принимает в качестве входных данных любой тип файла, например CSV, Excel, набор данных R, текстовый файл и скрипты.
- Графический интерфейс записывает все ваши встречи с помощью сценария R. Скрипт можно легко реализовать без какого-либо взаимодействия с интерфейсом Rattle.
- Вы можете работать как с контролируемыми, так и с неконтролируемыми моделями машинного обучения. Могут быть реализованы такие алгоритмы машинного обучения, как линейная регрессия, случайный лес, SVM, KMeans.
- Вы можете масштабировать и очищать данные с помощью встроенных пакетов.
- Графический интерфейс представляет модель в графическом виде, что упрощает измерение производительности и удобное развертывание модели в производственной среде.
03. StatET для R
StatET — это разработка Eclipse. Он представляет собой интегрированную среду разработки на основе Eclipse, а также производит модули для интеграции R и Java. Все, что вы хотите от R IDE, доступно здесь. Для программирования на R и создания пакетов графический интерфейс пользователя предоставляет набор сложных инструментов, включая справочную систему «R» и полностью интегрированную консоль R.
Ключевая особенность
- Он имеет атрибут подсветки синтаксиса, с помощью которого вы можете настроить свои группы стилей.
- Содержит уникальную характеристику, называемую интеллектуальной стратегией двойного щелчка.
- Он имеет режим интеллектуальной вставки, который автоматически создает закрывающие скобки отступа.
- Методы рефакторинга кода R в проектах R для простого и быстрого усиления его структуры или переноса функций в методы S4.
- Все функции настраиваются благодаря редактору исходного кода StatET.
04. RKWard
Среди множества бесплатных графических пользовательских интерфейсов RKWard сравнительно более прост. Основная цель GUI — превратиться в прозрачный интерфейс для R и простой в использовании. RKWard пытается объединить потенциал R-языка с простотой использования потребительских статистических пакетов. Он был разработан для среды рабочего стола KDE. Однако графический интерфейс может работать практически в любой среде.
Ключевая особенность
- Редактор данных похож на электронную таблицу, что делает ввод данных полностью подходящим.
- Доступно управление пакетами R для простой обработки и управления пакетами R.
- Интерфейс к языку R довольно прозрачный.
- Представление рабочей области позволяет пользователям устанавливать все объекты в рабочей области R и изменять их.
- Он имеет методы анализа, такие как корреляция, описательная статистика, тесты выбросов, перекрестные таблицы и т. Д.
- Вы можете создавать графики, такие как гистограмма, точечная диаграмма, график ECDF, гистограмма, круговая диаграмма, диаграмма рассеяния и т. Д.
05. JGR
JGR, произносится как Jaguar, является стандартным и целостным графическим интерфейсом для R. Он находится под лицензией GNU General Public License, что означает, что он бесплатный и с открытым исходным кодом. Графический интерфейс был впервые представлен в 2004 году, и его разработка все еще продолжается. Он имеет фрагментарный адаптивный терминал R, который можно использовать в качестве более обширной замены графического интерфейса R по умолчанию. У JGR есть удобная R-консоль, которая делает ее заметной среди специалистов по данным.
Ключевая особенность
- Предоставляет гибкий интерфейс. Графический интерфейс плодотворно портативен.
- В редакторе с графическим интерфейсом есть такие атрибуты, как автозаполнение, подсветка синтаксиса, прямая передача команд и т. Д.
- Справочная система в JGR состоит из нескольких вкладок, что упрощает кодирование в интерфейсе.
- Обозреватель объектов имеет такие функции, как сравнение моделей, просмотр объектов с вкладками, перетаскивание и отпускание.
- Наборы данных загружаются очень просто благодаря прямому меню «Открыть». Также есть всплывающие подсказки для помощи разработчику.
06. R-командир
R Commander — это бесплатный графический пользовательский интерфейс для R. Проф. Джон Фокс создал программное обеспечение для преподавания на курсах статистики и устранения препятствий, связанных с усложнением программного обеспечения, в процессе обучения статистике. В нем есть раскрывающиеся меню, в которых можно перемещаться по статистическому анализу данных. R Commander исключительно полезен для новичков, поскольку показывает соответствующий код для каждого выполнения данных.
Ключевая особенность
- В настоящее время только два графических интерфейса пользователя R сохраняют файлы уценки. R Commander — один из них.
- Он имеет в общей сложности сорок один впечатляющий плагин, который очень удобен при кодировании.
- Код R Commander винтажного уровня. Вы можете использовать его для изучения R, если вы новичок.
- Он имеет несколько статистических функций, таких как таблицы непредвиденных обстоятельств, анализ размеров, непараметрические тесты и модели соответствия.
- Он может создавать 3D-график, гистограмму, ленточную диаграмму и многие другие диаграммы и графики.
07. Дедуктор
Deducer — это бесплатный графический интерфейс с открытым исходным кодом для R. Первоначально он создавался как удобная замена таким программам, как Minitab, SPSS и JMP. Графический интерфейс доступен во всех операционных системах, но не в серверной версии. Deducer был выпущен в 2008 году и быстро получил широкое признание. Однако у него сложный процесс установки. Его могут использовать как новички, так и эксперты.
Ключевая особенность
- Интерфейс довольно приятный. Он впервые попытался предоставить таблицы обработки текста вывода в стиле APA среди других R GIU.
- Он включает в себя строку меню для выполнения основных операций по манипулированию данными и анализа и электронную таблицу в стиле Excel для отображения и редактирования фреймов данных.
- Графический интерфейс обрабатывает несколько кадров данных одновременно.
- Вы можете выполнять простые функции всего несколькими щелчками мыши.
- У него есть несколько пакетов расширений и онлайн-справочная система.
08. JASP
JASP — это графический интерфейс с открытым исходным кодом, финансируемый Амстердамским университетом. Он должен быть простым в использовании и интуитивно понятным для пользователей SPSS. Самым важным преимуществом JASP является его ориентация на байесовский анализ. Если вы предпочитаете это, JASP может быть для вас.
В дополнение к этому, у него есть мощный модуль машинного обучения. JASP немного отличается от других графических интерфейсов, описанных в этой статье. Это связано с тем, что он не может отображать код R, который он пишет, и вы не можете запускать в нем свой код R. Однако он может выполнять все другие задачи, которые вы хотите, из графического интерфейса R.
Ключевая особенность
- JASP обычно создает таблицы и графики в стиле APA для облегчения публикации.
- Он способствует развитию открытой науки за счет включения в Open Science Framework.
- JASP обеспечивает байесовский и частотный вывод на одной платформе.
- JASP поддерживает множество методов анализа, таких как биномиальный тест, исследовательский факторный анализ, метаанализ, моделирование структурных уравнений и т. Д.
- Имеет мощный сетевой модуль. Вы можете анализировать силу переменных в сети.
09. Тинн-Р
Tinn-R — бесплатный графический пользовательский интерфейс. GUI также является универсальным ASCII / UNICODE. Это простая, но мощная альтернатива типичному редактору R GUI. Tinn-R направлен на поощрение обучения. Кроме того, он призван максимально упростить использование среды R. Новички, несомненно, могут улучшить обучение R с помощью этого графического интерфейса.
Ключевая особенность:
- Принимает Rterm.exe и Rgui.EXE. Он также поддерживает Sweave и Knitr.
- На нем можно обрабатывать LaTex. Он также имеет модули преобразования формата, такие как Tx2tags, Deplate и Pandoc.
- Вы можете использовать несколько языков в Tinn-R. В результате в нем есть проверка орфографии для нескольких языков.
- Проекты можно создавать и управлять ими довольно легко. Имеет особый интерфейс для управления контентом.
- В графическом интерфейсе есть несколько шаблонов для R HTML, R markdown, R script, R doc.
- Имеет несколько интерфейсов документов. Вы можете работать с несколькими материалами одновременно.
10. Статистика по BlueSky
Графический интерфейс был разработан бывшими сотрудниками SPSS. И имеет много функций, аналогичных SPSS. До 2018 года приходилось покупать. Но теперь это открытый исходный код. При использовании BlueSky вы не можете понять, задействован ли вообще R. Вы можете столкнуться с редактором кода R, только нажав кнопку «Sytax».
BlueSky использует стиль тидиверса, который широко распространен, но вызывает разногласия. На данный момент графический интерфейс доступен только для Windows. Однако версии BlueSky для других платформ находятся в разработке.
Ключевая особенность
- Он использует все высокоуровневые аналитики в R, но вы можете использовать их без каких-либо знаний о программировании на R.
- Вы можете получить результаты в специальных таблицах текстового редактора. Причем весь процесс происходит автоматически.
- Вы можете добавлять диалоговые окна, а также настраиваемые меню к любой функции R в течение нескольких секунд.
- Создавайте и развертывайте новые статистические модули и структуры с динамическими интерфейсами, а также мощную платформу разработки.
- Вы можете выполнять сложные задачи, такие как интеллектуальный анализ данных, графические команды, манипулирование данными, с наименьшими знаниями о R.
Это все
Вы знаете, что они говорят: «Данные — это новая мировая валюта.”Но вы не можете получить прибыль, просто собирая данные. Использование данных необходимо. Вы должны использовать нужные данные в нужном месте. В этом развлечение аналитики данных и статистики. R — приемлемый язык программирования для анализа данных.
Но для этого вам также нужна платформа. Итак, мы перечислили 10 лучших бесплатных графических пользовательских интерфейсов для R.
Надеюсь, статья будет вам полезна. Мы постарались выделить десятку лучших среди множества других и описать каждую из их особенностей. Если вы считаете, что в нашей статье должны быть какие-то изменения, дайте нам знать. И погрузитесь в мир данных.
Игры
OpenRA — это игровой движок Libre / Free Real Time Strategy, воссоздающий ранние игры Westwood, такие как классическая Command https://ru.phen375questions.com/article/10-best-free-programming-graphical-user-interfaces-for-r» target=»_blank»]ru.phen375questions.com[/mask_link]
Язык программирования R
Чтобы объяснить, что такое R, нужно смотреть с разных ракурсов. Во-первых, это среда вычислений, во-вторых – язык программирования, а в третьих – сообщество. Разберемся, что же значит каждое из них.
- Владея языком R, можно проводить расчеты разной сложности. Функционал позволяет использовать его в качестве калькулятора, инструмента для статистического анализа, проведения длительных вычислений и построения графиков. И это только часть операций, которые можно проводить в среде R.
- Этот язык программирования используется для написания скриптов и создания специализированных расширений (пакетов) – архивов из набора R-функций, информации справочного характера и примеров. В библиотеке языка R 7000 пакетов, у каждого из которых есть своя функция. Например, расширение «ggplot2» необходимо для построения графиков, а «qtl» – для генетического картирования.
- Язык R имеет открытый код. Его усовершенствованием и отладкой занимаются пользователи. Согласно исследованиям, около 2 млн человек принимали участие в развитии и продвижении R. Разработчики образовали сообщество.
Как появился R
R – язык программирования, который используется для обнаружения причинно-следственных связей, анализа выборок, составления на основе данных графиков и отчетов. Сначала его применяли только в Оклендском университете, где он и был изобретен в 1993 году Робертом Джентелменом и Россом Айхека. Если вникнуть в историю, тo R – это ответвление языка S/Splus, который придумали еще в 70-х годах на территории Bell Laboratories. Инструмент оказался настолько удобным, что вскоре вышел за ее пределы и стал достоянием всех статистов.
В 2009 году программист Дж. Аллер основал RStudio. Свободно распространяемая среда для разработки еще больше упростила написание программ. Таким функционалом, как у языка R, не может похвастаться ни один другой. Если в 2016 году в рейтинге TIOBE он занимал 18-е место, то в январе 2021-го – уже 8-е.
Интерпретатор можно установить на компьютеры, работающие на последних версиях программного обеспечения Windows, MacOS, Linux.
Что представляет собой среда R
У среды вычислений R есть три «оболочки». Они отличаются по виду и функциональности, но удобны и просты в работе.
RGui
Графический интерфейс, внедренный в R в виде стандартного компонента. Высвечивающуюся в окне командную строку иначе называют консолью. Инструмент функционирует в режиме «вопрос-ответ».
> 2 + 2 * 2 # запрос пользователя
[1] 6 # ответ компьютера
Для записи команд сложного алгоритма используется скриптовое окно. Графики в оболочке RGui выводятся на экран через графический модуль. В рабочем окне консоль расположена слева, а скриптовое окно и модуль для графики – справа.
RStudio
Среда разработки, которая разделена на области и модули. Часть пользователей отдают преимущество этой оболочке из-за удобного интерфейса. Для облегчения работы с цифрами в языке R имеются навигация по скрипту, подсветка и завершение кода.
Терминал Linux/UNIX
Оболочка, предназначенная для анализа больших массивов данных через суперкомпьютер. Доступ к нему происходит через команды. R в такой «обертке» – запущенное через командную строку приложение.
Основы языка R
Синтаксис языка состоит из нескольких видов данных: логических, символьных, числовых, а также комплексных. Наиболее востребованное действие в среде вычислений – чтение файла. Приступить к изучению содержимого файла формата .csv можно с помощью приставки read.
Математические операции
1 | 2 + 3 |
2 | ## [1] 5 |
3 | 36 / 2 |
4 | ## [1] 18 |
5 | 7 * 4 |
6 | ## [1] 28 |
7 | 5 ^ 2 |
8 | ## [1] 25 |
Для выполнения некоторых операций используются функции sqrt (27), ## [1] 5.196152.
Какие структуры данных в R являются основными
В этой среде вычислений данные сохраняются в разных форматах. В зависимости от особенностей информации для обработки — это массив, вектор, датафрейм, матрица или список.
Основным объектом R принято считать вектор. Внутри него содержатся одно или несколько значений, которые принадлежат к одному типу данных. Для векторов единичной длины характерен следующий вид:
1 | 23 |
2 | ## [1] 23 |
3 | sqrt (25) |
4 | ## [1] 5 |
Кроме них в среде R создают длинные векторы. Для этого используют произвольные и повторяющиеся элементы, целые числа.
Функция matrix () предназначена для создания матриц. Эти двумерные объекты состоят из данных одного типа и похожи на таблицы. Значения записываются столбцами. По сравнению с векторами, позиции здесь прописываются двумя индексами.
Еще один элемент структуры среды вычислений R – массивы. Многомерные объекты, содержащие одинаковый тип данных, похожие на матрицы. Адреса указываются в таком формате: строка, столбец, значение.
Датафрейм – двумерная таблица, где хранятся данные разных видов. Фрагменты вычленяются из датафрейма с помощью оператора []. Списки состоят из данных разных видов и длины. Выбор осуществляется все тем же оператором [] или [ [] ].
Что можно сделать с помощью R
Функционал языка программирования позволяет сделать следующие манипуляции:
- Подготовить информацию для исследования. Подразумевается обработка, преобразование и очистка массива. Допустим, нужно выяснить, сколько пользователей установили приложение в зимние и весенние месяцы. R дает возможность исключить из выбора лето и осень, а нужные данные соединить в группы по месяцам.
- Провести статистическое тестирование. Например, вы хотите выяснить, насколько разнится длительность жизни женщин и мужчин. Выявить различия между данными можно, запустив в работу t-тест.
- Сделать разведочный анализ. Статистические исследования для получения приемлемого результата требуют нормального распределения параметров в исходниках. Нормальность подразумевает, что большинство данных сгруппировано вокруг среднего значения. Утверждение справедливо и для характеристики человеческой расы: большинство людей на планете — среднего роста, высоких и низких — в разы меньше. В среде вычислений R нормальность проверяется при помощи тестов и графиков.
- Работать с информацией из файлов разного формата. Возможно объединение данных из нескольких таблиц в один источник.
- Нарисовать график. Возможна регулировка значений по осям и ряду других параметров.
- Разработать интерактивное приложение. Страница сайта с красивой графикой и фильтрами для сортировки отправляется коллегам для последующего анализа данных или публикуется в качестве части статьи.
- Провести регрессионный анализ. Способ дает возможность определять отношения между переменными. Допустим, аналитику поступила задача разобраться, почему продаж в ряде магазинов меньше, чем во всех остальных торговых точках дилерской сети. В этом случае зависимая переменная – объем продаж, независимая – портрет потребителя, особенности инфраструктуры. Так можно выяснить, что же имеет влияние на выручку.
Чтобы подключить необходимую функцию, пользователю нужно воспользоваться библиотекой. 20 функций, которые входят в стандартный пакет, достаточно для тестирования и построения графиков. Чтобы расширить функционал, достаточно скачать другие библиотеки на сервисе CRAN. Среди аналитиков востребованы функция «plotly» для создания интерактивных графиков и «tidyr». Последняя заполняет столбцы данными таким образом, чтобы те, в свою очередь, соответствовали одной переменной.
R и прочие инструменты для работы с данными: в чем разница
Помимо использования среды вычислений R, данные анализируют и при помощи инструментов, у которых нет кода. К таким относятся Excel, Power Bi, Google Sheets и ряд других. Конкуренцию R среди языков программирования представляет Julia, Python.
Python – инструмент для создания полноценных приложений с возможностью проведения статистических исследований. R, в свою очередь, сильнее в статистике. В кругах аналитиков популярны оба языка, однако из-за низкого порога входа пользователей, предпочитающих Python, больше. У Julia более скудный функционал, что делает его востребованным у отдельных аналитиков.
Язык программирования R отличается от других инструментов гибкостью. Если функционал Excel, Tableau не позволяет выполнять задачу, их пользователю остается только ждать снисхождения разработчиков. В то же время пользователь R может быстро провести анализ, построить графики.
Преимущества R
Среди сильных сторон этого языка можно назвать:
- Наличие библиотек. Это открывает доступ к сотням функций.
- Возможность обработки больших массивов данных. Справиться с таким количеством информации программы не могут.
- Вариативность настроек интерфейса. В зависимости от задачи пользователь выбирает либо графический интерфейс, либо командную строку.
- Бесплатный доступ. Распространение экосистемы производится под лицензией GNU. Tableau стоит 70 $ в месяц. Excel и SPSS обходятся пользователям в 69,99 $ и 3 200 $ в год, соответственно.
- Возможность внедрения в разные операционные системы. Пользоваться продуктом могут владельцы разных версий не только Windows, Unix, MacOs или Linux, но и ОС FreeBSD, Solaris.
- Разные форматы визуализации. С помощью языка R создают приложения, простые и интерактивные графики, а также проводят их редактирование.
- Активное сообщество. Среде R посвящены десятки блогов, форумов и обсуждений.
- Инструкция. К каждой библиотеке прилагается подробное описание и примеры ее использования.
Какие минусы есть у языка R
У этого языка программирования есть и три некритичных недостатка:
- Документы и источники, из которых можно почерпнуть дополнительную информацию, на английском языке. Это создает неудобства для русскоговорящих пользователей. Однако в этом вопросе стал появляться прогресс: некоторые обсуждения на русском языке опубликованы на Хабре, а задать вопрос по среде вычислений можно на сервисе Stack Overflow.
- Сложности в изучении. Человеку, далекому от программирования и статистики, поначалу трудно разобраться что к чему. Перед тем как освоить язык программирования, нужно изучить ряд узкопрофильных терминов: медиана, выборка, среднее, нормальное и другие. Вводная информация публикуется в специализированных изданиях.
- Узкая направленность. Язык R – не самый подходящий инструмент для разработки приложений. Инструмент рассчитан на проведение разноплановой работы с данными.
R – многофункциональный инструмент, предназначенный для статистического анализа. В среде вычислений удобно работать с данными разных форматов. Изучить язык программирования R можно самостоятельно, потому что есть подробная официальная документация. Поскольку статистические исследования проводятся во всех областях, новые знания будут востребованы на рынке труда.
Источник: wechoose.pro