Remember to maintain security and privacy. Do not share sensitive information. Procedimento.com.br may make mistakes. Verify important information. Termo de Responsabilidade
O Apache Spark é uma poderosa plataforma de computação em cluster que é amplamente utilizada para processamento de grandes volumes de dados. Embora o Spark seja frequentemente associado a ambientes baseados em Linux, ele também pode ser executado no Windows. Este artigo irá guiá-lo através do processo de instalação e execução do Apache Spark em um ambiente Windows.
Pré-requisitos:
Java Development Kit (JDK): O Spark requer o JDK. Certifique-se de que você tenha o JDK instalado. Você pode verificar isso executando java -version
no CMD. Se não estiver instalado, faça o download e instale a versão mais recente do JDK.
Python: O Spark suporta Python, então ter o Python instalado é útil. Verifique a instalação com python --version
.
Hadoop Winutils: Embora o Hadoop não seja necessário para executar o Spark, o Spark no Windows requer winutils.exe
. Baixe o arquivo winutils.exe
correspondente à versão do Hadoop que você deseja usar e coloque-o em um diretório, por exemplo, C:\hadoop\bin
.
Passos para Instalação:
Baixar o Apache Spark:
Configurar Variáveis de Ambiente:
C:\spark
.C:\spark\bin
ao seu PATH do sistema.SPARK_HOME
apontando para o diretório do Spark, por exemplo, C:\spark
.HADOOP_HOME
apontando para o diretório onde você colocou winutils.exe
, por exemplo, C:\hadoop
.Verificar a Instalação:
spark-shell
. Isso deve iniciar o shell do Spark, indicando que a instalação foi bem-sucedida.Exemplos Práticos:
Executar um Script PySpark:
Crie um arquivo Python, por exemplo, example.py
:
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("Example").getOrCreate()
data = [("Alice", 1), ("Bob", 2), ("Cathy", 3)]
df = spark.createDataFrame(data, ["Name", "Id"])
df.show()
spark.stop()
pyspark example.py
Usar o Spark no Jupyter Notebook:
pip install jupyter
pip install findspark
jupyter notebook
import findspark
findspark.init()