Remember to maintain security and privacy. Do not share sensitive information. Procedimento.com.br may make mistakes. Verify important information. Termo de Responsabilidade

Como Instalar e Executar Apache Spark no Windows

O Apache Spark é uma poderosa plataforma de computação em cluster que é amplamente utilizada para processamento de grandes volumes de dados. Embora o Spark seja frequentemente associado a ambientes baseados em Linux, ele também pode ser executado no Windows. Este artigo irá guiá-lo através do processo de instalação e execução do Apache Spark em um ambiente Windows.

Pré-requisitos:

  1. Java Development Kit (JDK): O Spark requer o JDK. Certifique-se de que você tenha o JDK instalado. Você pode verificar isso executando java -version no CMD. Se não estiver instalado, faça o download e instale a versão mais recente do JDK.

  2. Python: O Spark suporta Python, então ter o Python instalado é útil. Verifique a instalação com python --version.

  3. Hadoop Winutils: Embora o Hadoop não seja necessário para executar o Spark, o Spark no Windows requer winutils.exe. Baixe o arquivo winutils.exe correspondente à versão do Hadoop que você deseja usar e coloque-o em um diretório, por exemplo, C:\hadoop\bin.

Passos para Instalação:

  1. Baixar o Apache Spark:

    • Acesse o site oficial do Apache Spark e baixe a versão desejada. É recomendado baixar a versão pré-compilada com Hadoop.
  2. Configurar Variáveis de Ambiente:

    • Extraia o conteúdo do arquivo baixado para um diretório, por exemplo, C:\spark.
    • Adicione o caminho C:\spark\bin ao seu PATH do sistema.
    • Crie uma variável de ambiente SPARK_HOME apontando para o diretório do Spark, por exemplo, C:\spark.
    • Crie uma variável de ambiente HADOOP_HOME apontando para o diretório onde você colocou winutils.exe, por exemplo, C:\hadoop.
  3. Verificar a Instalação:

    • Abra o CMD e execute spark-shell. Isso deve iniciar o shell do Spark, indicando que a instalação foi bem-sucedida.

Exemplos Práticos:

  1. Executar um Script PySpark:

    • Crie um arquivo Python, por exemplo, example.py:

      from pyspark.sql import SparkSession
      
      spark = SparkSession.builder.appName("Example").getOrCreate()
      data = [("Alice", 1), ("Bob", 2), ("Cathy", 3)]
      df = spark.createDataFrame(data, ["Name", "Id"])
      df.show()
      spark.stop()
    • Execute o script usando o comando:
      pyspark example.py
  2. Usar o Spark no Jupyter Notebook:

    • Instale o Jupyter Notebook se ainda não o tiver:
      pip install jupyter
    • Configure o PySpark para ser usado com o Jupyter:
      pip install findspark
    • Inicie o Jupyter Notebook:
      jupyter notebook
    • No notebook, configure o ambiente do Spark:
      import findspark
      findspark.init()

To share Download PDF

Gostou do artigo? Deixe sua avaliação!
Sua opinião é muito importante para nós. Clique em um dos botões abaixo para nos dizer o que achou deste conteúdo.