Spark – это подпроект Hadoop. Поэтому лучше установить Spark в систему на основе Linux. Следующие шаги показывают, как установить Apache Spark.
Шаг 1. Проверка установки Java
Установка Java является одной из обязательных вещей при установке Spark. Попробуйте следующую команду, чтобы проверить версию JAVA.
$java -version
Если Java уже установлена в вашей системе, вы увидите следующий ответ:
java version «1.7.0_71» Java(TM) SE Runtime Environment (build 1.7.0_71-b13) Java HotSpot(TM) Client VM (build 25.0-b02, mixed mode)
Если в вашей системе не установлена Java, то установите Java, прежде чем переходить к следующему шагу.
Шаг 2: Проверка установки Scala
Вам следует использовать язык Scala для реализации Spark. Итак, давайте проверим установку Scala с помощью следующей команды.
$scala -version
Если Scala уже установлен в вашей системе, вы увидите следующий ответ:
Scala code runner version 2.11.6 — Copyright 2002-2013, LAMP/EPFL
Если в вашей системе не установлен Scala, перейдите к следующему шагу для установки Scala.
Install Apache Spark on Windows 10 | Steps to Setup Spark
Шаг 3: Скачиваем Scala
Загрузите последнюю версию Scala, перейдя по следующей ссылке Скачать Scala . Для этого урока мы используем версию scala-2.11.6. После загрузки вы найдете tar-файл Scala в папке загрузки.
Шаг 4: Установка Scala
Следуйте приведенным ниже инструкциям для установки Scala.
Извлеките файл архива Scala
Введите следующую команду для распаковки tar-файла Scala.
$ tar xvf scala-2.11.6.tgz
Переместить файлы программного обеспечения Scala
Используйте следующие команды для перемещения файлов программного обеспечения Scala в соответствующий каталог (/ usr / local / scala) .
$ su – Password: # cd /home/Hadoop/Downloads/ # mv scala-2.11.6 /usr/local/scala # exit
Установить PATH для Scala
Используйте следующую команду для настройки PATH для Scala.
$ export PATH = $PATH:/usr/local/scala/bin
Проверка установки Scala
После установки лучше это проверить. Используйте следующую команду для проверки установки Scala.
$scala -version
Если Scala уже установлен в вашей системе, вы увидите следующий ответ:
Scala code runner version 2.11.6 — Copyright 2002-2013, LAMP/EPFL
Шаг 5: Загрузка Apache Spark
Загрузите последнюю версию Spark, перейдя по следующей ссылке Скачать Spark . Для этого урока мы используем версию spark-1.3.1-bin-hadoop2.6 . После загрузки вы найдете файл Spark tar в папке загрузки.
Шаг 6: Установка Spark
Следуйте приведенным ниже инструкциям для установки Spark.
Извлечение Spark смолы
Следующая команда для извлечения файла spark tar.
$ tar xvf spark-1.3.1-bin-hadoop2.6.tgz
Перемещение файлов программного обеспечения Spark
Следующие команды для перемещения файлов программного обеспечения Spark в соответствующий каталог (/ usr / local / spark) .
$ su – Password: # cd /home/Hadoop/Downloads/ # mv spark-1.3.1-bin-hadoop2.6 /usr/local/spark # exit
Настройка среды для Spark
Добавьте следующую строку в файл ~ /.bashrc . Это означает добавление места, где находится файл программного обеспечения искры, в переменную PATH.
Install Apache PySpark on Windows PC | Apache Spark Installation Guide
export PATH=$PATH:/usr/local/spark/bin
Используйте следующую команду для поиска файла ~ / .bashrc.
$ source ~/.bashrc
Шаг 7: Проверка установки Spark
Напишите следующую команду для открытия оболочки Spark.
$spark-shell
Если искра установлена успешно, вы найдете следующий вывод.
Источник: coderlessons.com
Инструкция к применению «Как установить PySpark на Windows и сделать в нём Word2Vec»
Учебник. Начало работы с .NET для Apache Spark
В этом руководстве описывается, как запустить приложение .NET для Apache Spark, используя .NET Core на Windows, macOS и Ubuntu.
В этом руководстве вы узнаете, как:
- подготовить среду под .NET для Apache Spark;
- написать свое первое приложение .NET для Apache Spark;
- скомпилировать и запустить приложение .NET для Apache Spark.
Платформа .NET для Apache Spark предназначена для не поддерживаемой версии .NET (.NET Core 3.1). Дополнительные сведения см. в разделе Политика поддержки .NET.
Подготовка среды
Прежде чем приступить к написанию приложения, нужно настроить некоторые необходимые зависимости. Если вы можете выполнить dotnet , java , spark-shell из среды командной строки, то ваша среда уже подготовлена, и вы можете перейти к следующему разделу. Если эти команды или хотя бы одну из них выполнить не получается, сделайте следующее.
1. Установка .NET
Чтобы приступить к созданию приложений .NET, необходимо загрузить и установить пакет средств разработки программного обеспечения (SDK) для .NET.
Скачайте и установите пакет SDK для .NET Core. При установке пакета SDK в переменную PATH добавляется цепочка инструментов dotnet .
Установив пакет SDK для .NET Core, откройте новое окно командной строки или терминала и выполните команду dotnet .
Если команда выполняется и выводит сведения об использовании dotnet, можно перейти к следующему шагу. Если возникает ошибка ‘dotnet’ is not recognized as an internal or external command , убедитесь, что команда выполняется в новом окне терминала или командной строки.
2. Установка Java
Установите Java 8.1 для Windows и macOS или OpenJDK 8 для Ubuntu.
Выберите соответствующую версию для вашей операционной системы. Например, выберите jdk-8u201-windows-x64.exe для компьютера с 64-разрядной версией Windows (как показано ниже) или jdk-8u231-macosx-x64.dmg для macOS. Затем используйте команду java , чтобы проверить установку.
3. Установка ПО для сжатия
Apache Spark загружается как сжатый файл TGZ. Чтобы извлечь файл, используйте программу-архиватор, например 7-Zip или WinZip.
4. Установка Apache Spark
Скачайте и установите Apache Spark. Вам потребуется выбрать версию 2.3.* или 2.4.0, 2.4.1, 2.4.3, 2.4.4, 2.4.5, 2.4.6, 2.4.7, 3.0.0, 3.0.1, 3.0.2, 3.1.1, 3.1.2, 3.2.0 или 3.2.1 (.NET для Apache Spark несовместим с другими версиями Apache Spark). Дополнительные сведения о совместимых версиях см . в заметках о выпуске .NET Spark .
Команды, используемые на следующих этапах, подразумевают, что скачана и установлена версия Apache Spark 3.0.1. Если вы хотите использовать другую версию, замените 3.0.1 на соответствующий номер версии. Затем извлеките файл TAR и файлы Apache Spark.
Чтобы извлечь вложенный файл TAR:
- Найдите скачанный файл spark-3.0.1-bin-hadoop2.7.tgz.
- Щелкните файл правой кнопкой мыши и выберите 7-Zip —> извлечь здесь.
- spark-3.0.1-bin-hadoop2.7.tar будет создан рядом со скачанным файлом TGZ.
Чтобы извлечь файлы Apache Spark:
- Щелкните правой кнопкой мыши spark-3.0.1-bin-hadoop2.7.tar и выберите 7-Zip -> Extract files.
- Введите C:bin в поле Извлечь в.
- Снимите флажок под полем Извлечь в.
- Нажмите кнопку ОК.
- Файлы Apache Spark будут извлечены в папку C:binspark-3.0.1-bin-hadoop2.7
Выполните следующие команды, чтобы задать переменные среды, используемые для размещения Apache Spark. В Windows обязательно запускайте командную строку от имени администратора.
setx /M HADOOP_HOME C:binspark-3.0.1-bin-hadoop2.7 setx /M SPARK_HOME C:binspark-3.0.1-bin-hadoop2.7 setx /M PATH «%PATH%;%HADOOP_HOME%;%SPARK_HOME%bin» # Warning: Don’t run this if your path is already long as it will truncate your path to 1024 characters and potentially remove entries!
export SPARK_HOME=~/bin/spark-3.0.1-bin-hadoop2.7/ export PATH=»$SPARK_HOME/bin:$PATH» source ~/.bashrc
Установив все необходимое и задав переменные сред, откройте новое окно командной строки или терминала и выполните следующую команду:
spark-submit —version
Если команда выполняется и выводит сведения о версии, можно перейти к следующему шагу.
При возникновении ошибки ‘spark-submit’ is not recognized as an internal or external command убедитесь, что вы открыли новую командную строку.
5. Установка .NET для Apache Spark
Загрузите выпуск Microsoft.Spark.Worker со страницы выпусков .NET для Apache Spark в GitHub. Например, если вы планируете использовать .NET Core на компьютере под управлением Windows, скачайте выпуск netcoreapp3.1 для Windows x64.
Для извлечения Microsoft.Spark.Worker:
- Найдите скачанный файл Microsoft.Spark.Worker.netcoreapp3.1.win-x64-1.0.0.zip.
- Щелкните правой кнопкой мыши и выберите 7-Zip -> Extract files. .
- Введите C:bin в поле Извлечь в.
- Снимите флажок под полем Извлечь в.
- Нажмите кнопку ОК.
6. Установка WinUtils (только для Windows)
.NET для Apache Spark требует установки WinUtils вместе с Apache Spark. Скачайте winutils.exe. Затем скопируйте WinUtils в папку C:binspark-3.0.1-bin-hadoop2.7bin.
Если вы используете другую версию Hadoop, которая указывается в конце имени папки установки Spark, выберите версию WinUtils, совместимую с вашей версией Hadoop.
7. Установка DOTNET_WORKER_DIR и проверка зависимостей
Выполните одну из следующих команд, чтобы задать переменную среды DOTNET_WORKER_DIR , которая используется приложениями .NET для обнаружения .NET для двоичных файлов рабочих ролей Apache Spark. Обязательно замените каталогом, который вы использовали для скачивания и распаковки Microsoft.Spark.Worker . В Windows обязательно запускайте командную строку от имени администратора.
setx /M DOTNET_WORKER_DIR
export DOTNET_WORKER_DIR=
Наконец, перед переходом к следующему разделу еще раз проверьте, можно ли выполнить команды dotnet , java , spark-shell из командной строки.
Написание приложения .NET для Apache Spark
1. Создание консольного приложения
В командной строке или терминале выполните следующие команды, чтобы создать новое консольное приложение:
dotnet new console -o MySparkApp cd MySparkApp
Команда dotnet создаст для вас приложение new типа console . Параметр -o создаст каталог с именем MySparkApp, в котором хранится приложение и используемые им файлы. Команда cd MySparkApp изменит каталог на созданный каталог приложения.
2. Установка пакета NuGet
Чтобы использовать .NET для Apache Spark в приложении, установите пакет Microsoft.Spark. В командной строке или терминале выполните следующую команду:
dotnet add package Microsoft.Spark
Для работы с этим руководством используйте последнюю версию пакета NuGet Microsoft.Spark (если не указано иное).
3. Написание приложения
Откройте Program.cs в Visual Studio Code или любом текстовом редакторе и замените весь код следующим:
using Microsoft.Spark.Sql; using static Microsoft.Spark.Sql.Functions; namespace MySparkApp < class Program < static void Main(string[] args) < // Create Spark session SparkSession spark = SparkSession .Builder() .AppName(«word_count_sample») .GetOrCreate(); // Create initial DataFrame string filePath = args[0]; DataFrame dataFrame = spark.Read().Text(filePath); //Count words DataFrame words = dataFrame .Select(Split(Col(«value»),» «).Alias(«words»)) .Select(Explode(Col(«words»)).Alias(«word»)) .GroupBy(«word») .Count() .OrderBy(Col(«count»).Desc()); // Display results words.Show(); // Stop Spark session spark.Stop(); >> >
SparkSession — это точка входа приложений Apache Spark, которая управляет контекстом и сведениями о приложении.
С помощью метода Text текстовые данные из файла, указанного с помощью параметра filePath , считываются в DataFrame. DataFrame представляет способ упорядочивания данных в набор именованных столбцов. Над ними затем выполняется серия преобразований для разделения предложений в файле, определения каждого слова в группу, подсчета слов и упорядочивания их в порядке убывания.
Результат этих операций хранится в другом DataFrame. Обратите внимание, что на этом этапе операции не выполнялись, так как .NET для Apache Spark оценивает данные в отложенном режиме. Операции, определенные в строках выше, начнут выполняться только после того, как будет вызван метод Show для отображения содержимого записи words преобразованного DataFrame в консоли. Если вы не будете продолжать работу с сеансом Spark, завершите его с помощью метода Stop.
4. Создание файла данных
Ваше приложение обрабатывает файл, содержащий строки текста. В каталоге MySparkApp создайте файл input.txt, содержащий следующий текст:
Hello World This .NET app uses .NET for Apache Spark This .NET app counts words with Apache Spark
Сохраните изменения и закройте файл.
Запуск приложения .NET для Apache Spark
Запустите сборку приложения с помощью следующей команды:
dotnet build
Перейдите к каталогу выходных данных сборки и с помощью команды spark-submit отправьте приложение для выполнения в Apache Spark. Обязательно замените версией рабочей роли .NET и на путь к файлуinput.txt сохранен.
spark-submit ^ —class org.apache.spark.deploy.dotnet.DotnetRunner ^ —master local ^ microsoft-spark-3-0_2.12-.jar ^ dotnet MySparkApp.dll
spark-submit —class org.apache.spark.deploy.dotnet.DotnetRunner —master local microsoft-spark-3-0_2.12-.jar dotnet MySparkApp.dll
При выполнении этой команды предполагается, что вы скачали Apache Spark и добавили это решение в переменную среды PATH, чтобы использовать spark-submit . В противном случае потребуется использовать полный путь (например, C:binapache-sparkbinspark-submit или ~/spark/bin/spark-submit).
При запуске приложения данные подсчета слов из файла input.txt записываются в консоль.
+——+——+ | word|count| +——+——+ | .NET| 3| |Apache| 2| | app| 2| | This| 2| | Spark| 2| | World| 1| |counts| 1| | for| 1| | words| 1| | with| 1| | Hello| 1| | uses| 1| +——+——+
Поздравляем! Вы успешно создали и запустили приложение .NET для Apache Spark.
Следующие шаги
В этом руководстве вы узнали, как выполнять следующие задачи:
- подготовить среду под .NET для Apache Spark;
- написать свое первое приложение .NET для Apache Spark;
- скомпилировать и запустить приложение .NET для Apache Spark.
Видео, в котором подробнее объясняются приведенные выше шаги, можно найти в серии видео с общими сведениями о .NET для Apache Spark.
Дополнительные сведения см. на странице ресурсов.
Источник: learn.microsoft.com