Berikut tujuh langkah untuk menginstal spark di windows 10 dan menjalankannya dari python:
Langkah 1: unduh file spark 2.2.0 tar (tape Archive) gz ke sembarang folder F dari tautan ini - https://spark.apache.org/downloads.html . Buka zip dan salin folder yang telah dibuka ke folder A. Ubah nama folder spark-2.2.0-bin-hadoop2.7 menjadi spark.
Biarkan path ke folder spark menjadi C: \ Users \ Desktop \ A \ spark
Langkah 2: unduh file hardoop 2.7.3 tar gz ke folder yang sama F dari tautan ini - https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.3/hadoop-2.7 .3.tar.gz . Buka zip dan salin folder yang telah dibuka ke folder yang sama A. Ubah nama folder dari Hadoop-2.7.3.tar menjadi hadoop. Biarkan path ke folder hadoop menjadi C: \ Users \ Desktop \ A \ hadoop
Langkah 3: Buat file teks notepad baru. Simpan file notepad kosong ini sebagai winutils.exe (dengan Save as type: All files). Salin file winutils.exe O KB ini ke folder bin Anda di spark - C: \ Users \ Desktop \ A \ spark \ bin
Langkah 4: Sekarang, kita harus menambahkan folder ini ke lingkungan Sistem.
4a: Buat variabel sistem (bukan variabel pengguna karena variabel pengguna akan mewarisi semua properti variabel sistem) Nama variabel: SPARK_HOME Nilai variabel: C: \ Users \ Desktop \ A \ spark
Temukan variabel sistem Path dan klik edit. Anda akan melihat banyak jalur. Jangan hapus jalur mana pun. Tambahkan nilai variabel ini -; C: \ Users \ Desktop \ A \ spark \ bin
4b: Buat variabel sistem
Nama variabel: HADOOP_HOME Nilai variabel: C: \ Users \ Desktop \ A \ hadoop
Temukan variabel sistem Path dan klik edit. Tambahkan nilai variabel ini -; C: \ Users \ Desktop \ A \ hadoop \ bin
4c: Buat variabel sistem Nama variabel: JAVA_HOME Cari Java di windows. Klik kanan dan klik buka lokasi file. Anda harus sekali lagi mengklik kanan pada salah satu file java dan mengklik lokasi file yang terbuka. Anda akan menggunakan jalur folder ini. ATAU Anda dapat mencari C: \ Program Files \ Java. Versi Java saya yang terinstal di sistem adalah jre1.8.0_131. Nilai variabel: C: \ Program Files \ Java \ jre1.8.0_131 \ bin
Temukan variabel sistem Path dan klik edit. Tambahkan nilai variabel ini -; C: \ Program Files \ Java \ jre1.8.0_131 \ bin
Langkah 5: Buka command prompt dan masuk ke folder spark bin Anda (ketik cd C: \ Users \ Desktop \ A \ spark \ bin). Ketik spark-shell.
C:\Users\Desktop\A\spark\bin>spark-shell
Mungkin perlu waktu dan memberikan beberapa peringatan. Terakhir, ini akan menampilkan selamat datang di spark versi 2.2.0
Langkah 6: Ketik exit () atau mulai ulang prompt perintah dan buka folder spark bin lagi. Ketik pyspark:
C:\Users\Desktop\A\spark\bin>pyspark
Ini akan menampilkan beberapa peringatan dan kesalahan tetapi abaikan. Berhasil.
Langkah 7: Unduhan Anda selesai. Jika Anda ingin langsung menjalankan spark dari shell python maka: buka Scripts di folder python Anda dan ketik
pip install findspark
di command prompt.
Di shell python
import findspark
findspark.init()
impor modul yang diperlukan
from pyspark import SparkContext
from pyspark import SparkConf
Jika Anda ingin melewatkan langkah-langkah untuk mengimpor findspark dan memulainya, silakan ikuti prosedur yang diberikan dalam
mengimpor pyspark di shell python