Как установить программу spark

Содержание

Spark – это подпроект Hadoop. Поэтому лучше установить Spark в систему на основе Linux. Следующие шаги показывают, как установить Apache Spark.

Шаг 1. Проверка установки Java

Установка Java является одной из обязательных вещей при установке Spark. Попробуйте следующую команду, чтобы проверить версию JAVA.

$java -version

Если Java уже установлена в вашей системе, вы увидите следующий ответ:

java version «1.7.0_71» Java(TM) SE Runtime Environment (build 1.7.0_71-b13) Java HotSpot(TM) Client VM (build 25.0-b02, mixed mode)

Если в вашей системе не установлена Java, то установите Java, прежде чем переходить к следующему шагу.

Шаг 2: Проверка установки Scala

Вам следует использовать язык Scala для реализации Spark. Итак, давайте проверим установку Scala с помощью следующей команды.

$scala -version

Если Scala уже установлен в вашей системе, вы увидите следующий ответ:

Если в вашей системе не установлен Scala, перейдите к следующему шагу для установки Scala.

Install Apache Spark on Windows 10 | Steps to Setup Spark

Шаг 3: Скачиваем Scala

Загрузите последнюю версию Scala, перейдя по следующей ссылке Скачать Scala . Для этого урока мы используем версию scala-2.11.6. После загрузки вы найдете tar-файл Scala в папке загрузки.

Шаг 4: Установка Scala

Следуйте приведенным ниже инструкциям для установки Scala.

Извлеките файл архива Scala

Введите следующую команду для распаковки tar-файла Scala.

$ tar xvf scala-2.11.6.tgz

Переместить файлы программного обеспечения Scala

Используйте следующие команды для перемещения файлов программного обеспечения Scala в соответствующий каталог (/ usr / local / scala) .

$ su – Password: # cd /home/Hadoop/Downloads/ # mv scala-2.11.6 /usr/local/scala # exit

Установить PATH для Scala

Используйте следующую команду для настройки PATH для Scala.

$ export PATH = $PATH:/usr/local/scala/bin

Проверка установки Scala

После установки лучше это проверить. Используйте следующую команду для проверки установки Scala.

$scala -version

Если Scala уже установлен в вашей системе, вы увидите следующий ответ:

Шаг 5: Загрузка Apache Spark

Загрузите последнюю версию Spark, перейдя по следующей ссылке Скачать Spark . Для этого урока мы используем версию spark-1.3.1-bin-hadoop2.6 . После загрузки вы найдете файл Spark tar в папке загрузки.

Шаг 6: Установка Spark

Следуйте приведенным ниже инструкциям для установки Spark.

Извлечение Spark смолы

Следующая команда для извлечения файла spark tar.

$ tar xvf spark-1.3.1-bin-hadoop2.6.tgz

Перемещение файлов программного обеспечения Spark

Следующие команды для перемещения файлов программного обеспечения Spark в соответствующий каталог (/ usr / local / spark) .

$ su – Password: # cd /home/Hadoop/Downloads/ # mv spark-1.3.1-bin-hadoop2.6 /usr/local/spark # exit

Настройка среды для Spark

Добавьте следующую строку в файл ~ /.bashrc . Это означает добавление места, где находится файл программного обеспечения искры, в переменную PATH.

Install Apache PySpark on Windows PC | Apache Spark Installation Guide

export PATH=$PATH:/usr/local/spark/bin

Используйте следующую команду для поиска файла ~ / .bashrc.

$ source ~/.bashrc

Шаг 7: Проверка установки Spark

Напишите следующую команду для открытия оболочки Spark.

$spark-shell

Если искра установлена успешно, вы найдете следующий вывод.

Источник: coderlessons.com

Инструкция к применению «Как установить PySpark на Windows и сделать в нём Word2Vec»

Учебник. Начало работы с .NET для Apache Spark

В этом руководстве описывается, как запустить приложение .NET для Apache Spark, используя .NET Core на Windows, macOS и Ubuntu.

В этом руководстве вы узнаете, как:

подготовить среду под .NET для Apache Spark;
написать свое первое приложение .NET для Apache Spark;
скомпилировать и запустить приложение .NET для Apache Spark.

Платформа .NET для Apache Spark предназначена для не поддерживаемой версии .NET (.NET Core 3.1). Дополнительные сведения см. в разделе Политика поддержки .NET.

Подготовка среды

Прежде чем приступить к написанию приложения, нужно настроить некоторые необходимые зависимости. Если вы можете выполнить dotnet , java , spark-shell из среды командной строки, то ваша среда уже подготовлена, и вы можете перейти к следующему разделу. Если эти команды или хотя бы одну из них выполнить не получается, сделайте следующее.

1. Установка .NET

Чтобы приступить к созданию приложений .NET, необходимо загрузить и установить пакет средств разработки программного обеспечения (SDK) для .NET.

Скачайте и установите пакет SDK для .NET Core. При установке пакета SDK в переменную PATH добавляется цепочка инструментов dotnet .

Установив пакет SDK для .NET Core, откройте новое окно командной строки или терминала и выполните команду dotnet .

Если команда выполняется и выводит сведения об использовании dotnet, можно перейти к следующему шагу. Если возникает ошибка ‘dotnet’ is not recognized as an internal or external command , убедитесь, что команда выполняется в новом окне терминала или командной строки.

2. Установка Java

Установите Java 8.1 для Windows и macOS или OpenJDK 8 для Ubuntu.

Выберите соответствующую версию для вашей операционной системы. Например, выберите jdk-8u201-windows-x64.exe для компьютера с 64-разрядной версией Windows (как показано ниже) или jdk-8u231-macosx-x64.dmg для macOS. Затем используйте команду java , чтобы проверить установку.

Скачать Java

3. Установка ПО для сжатия

Apache Spark загружается как сжатый файл TGZ. Чтобы извлечь файл, используйте программу-архиватор, например 7-Zip или WinZip.

4. Установка Apache Spark

Скачайте и установите Apache Spark. Вам потребуется выбрать версию 2.3.* или 2.4.0, 2.4.1, 2.4.3, 2.4.4, 2.4.5, 2.4.6, 2.4.7, 3.0.0, 3.0.1, 3.0.2, 3.1.1, 3.1.2, 3.2.0 или 3.2.1 (.NET для Apache Spark несовместим с другими версиями Apache Spark). Дополнительные сведения о совместимых версиях см . в заметках о выпуске .NET Spark .

Команды, используемые на следующих этапах, подразумевают, что скачана и установлена версия Apache Spark 3.0.1. Если вы хотите использовать другую версию, замените 3.0.1 на соответствующий номер версии. Затем извлеките файл TAR и файлы Apache Spark.

5. Установка .NET для Apache Spark

Загрузите выпуск Microsoft.Spark.Worker со страницы выпусков .NET для Apache Spark в GitHub. Например, если вы планируете использовать .NET Core на компьютере под управлением Windows, скачайте выпуск netcoreapp3.1 для Windows x64.

Для извлечения Microsoft.Spark.Worker:

Найдите скачанный файл Microsoft.Spark.Worker.netcoreapp3.1.win-x64-1.0.0.zip.
Щелкните правой кнопкой мыши и выберите 7-Zip -> Extract files. .
Введите C:bin в поле Извлечь в.
Снимите флажок под полем Извлечь в.
Нажмите кнопку ОК.

6. Установка WinUtils (только для Windows)

.NET для Apache Spark требует установки WinUtils вместе с Apache Spark. Скачайте winutils.exe. Затем скопируйте WinUtils в папку C:binspark-3.0.1-bin-hadoop2.7bin.

Если вы используете другую версию Hadoop, которая указывается в конце имени папки установки Spark, выберите версию WinUtils, совместимую с вашей версией Hadoop.

7. Установка DOTNET_WORKER_DIR и проверка зависимостей

Выполните одну из следующих команд, чтобы задать переменную среды DOTNET_WORKER_DIR , которая используется приложениями .NET для обнаружения .NET для двоичных файлов рабочих ролей Apache Spark. Обязательно замените каталогом, который вы использовали для скачивания и распаковки Microsoft.Spark.Worker . В Windows обязательно запускайте командную строку от имени администратора.

setx /M DOTNET_WORKER_DIR
export DOTNET_WORKER_DIR=

Наконец, перед переходом к следующему разделу еще раз проверьте, можно ли выполнить команды dotnet , java , spark-shell из командной строки.

Написание приложения .NET для Apache Spark

1. Создание консольного приложения

В командной строке или терминале выполните следующие команды, чтобы создать новое консольное приложение:

dotnet new console -o MySparkApp cd MySparkApp

Команда dotnet создаст для вас приложение new типа console . Параметр -o создаст каталог с именем MySparkApp, в котором хранится приложение и используемые им файлы. Команда cd MySparkApp изменит каталог на созданный каталог приложения.

2. Установка пакета NuGet

Чтобы использовать .NET для Apache Spark в приложении, установите пакет Microsoft.Spark. В командной строке или терминале выполните следующую команду:

3. Написание приложения

Откройте Program.cs в Visual Studio Code или любом текстовом редакторе и замените весь код следующим:

using Microsoft.Spark.Sql; using static Microsoft.Spark.Sql.Functions; namespace MySparkApp < class Program < static void Main(string[] args) < // Create Spark session SparkSession spark = SparkSession .Builder() .AppName(«word_count_sample») .GetOrCreate(); // Create initial DataFrame string filePath = args[0]; DataFrame dataFrame = spark.Read().Text(filePath); //Count words DataFrame words = dataFrame .Select(Split(Col(«value»),» «).Alias(«words»)) .Select(Explode(Col(«words»)).Alias(«word»)) .GroupBy(«word») .Count() .OrderBy(Col(«count»).Desc()); // Display results words.Show(); // Stop Spark session spark.Stop(); >> >

SparkSession — это точка входа приложений Apache Spark, которая управляет контекстом и сведениями о приложении.

С помощью метода Text текстовые данные из файла, указанного с помощью параметра filePath , считываются в DataFrame. DataFrame представляет способ упорядочивания данных в набор именованных столбцов. Над ними затем выполняется серия преобразований для разделения предложений в файле, определения каждого слова в группу, подсчета слов и упорядочивания их в порядке убывания.

Результат этих операций хранится в другом DataFrame. Обратите внимание, что на этом этапе операции не выполнялись, так как .NET для Apache Spark оценивает данные в отложенном режиме. Операции, определенные в строках выше, начнут выполняться только после того, как будет вызван метод Show для отображения содержимого записи words преобразованного DataFrame в консоли. Если вы не будете продолжать работу с сеансом Spark, завершите его с помощью метода Stop.

4. Создание файла данных

Ваше приложение обрабатывает файл, содержащий строки текста. В каталоге MySparkApp создайте файл input.txt, содержащий следующий текст:

Hello World This .NET app uses .NET for Apache Spark This .NET app counts words with Apache Spark

Сохраните изменения и закройте файл.

Запуск приложения .NET для Apache Spark

Запустите сборку приложения с помощью следующей команды:

dotnet build

Перейдите к каталогу выходных данных сборки и с помощью команды spark-submit отправьте приложение для выполнения в Apache Spark. Обязательно замените версией рабочей роли .NET и на путь к файлуinput.txt сохранен.

spark-submit ^ —class org.apache.spark.deploy.dotnet.DotnetRunner ^ —master local ^ microsoft-spark-3-0_2.12-.jar ^ dotnet MySparkApp.dll
spark-submit —class org.apache.spark.deploy.dotnet.DotnetRunner —master local microsoft-spark-3-0_2.12-.jar dotnet MySparkApp.dll

При выполнении этой команды предполагается, что вы скачали Apache Spark и добавили это решение в переменную среды PATH, чтобы использовать spark-submit . В противном случае потребуется использовать полный путь (например, C:binapache-sparkbinspark-submit или ~/spark/bin/spark-submit).

При запуске приложения данные подсчета слов из файла input.txt записываются в консоль.

+——+——+ | word|count| +——+——+ | .NET| 3| |Apache| 2| | app| 2| | This| 2| | Spark| 2| | World| 1| |counts| 1| | for| 1| | words| 1| | with| 1| | Hello| 1| | uses| 1| +——+——+

Поздравляем! Вы успешно создали и запустили приложение .NET для Apache Spark.

Следующие шаги

В этом руководстве вы узнали, как выполнять следующие задачи:

подготовить среду под .NET для Apache Spark;
написать свое первое приложение .NET для Apache Spark;
скомпилировать и запустить приложение .NET для Apache Spark.

Видео, в котором подробнее объясняются приведенные выше шаги, можно найти в серии видео с общими сведениями о .NET для Apache Spark.

Дополнительные сведения см. на странице ресурсов.

Источник: learn.microsoft.com