Saya membuat Spark 1.4 dari master pengembangan GH, dan pembuatannya berjalan dengan baik. Tetapi ketika saya melakukannya, bin/pyspark
saya mendapatkan versi Python 2.7.9. Bagaimana saya bisa mengubahnya?
Saya membuat Spark 1.4 dari master pengembangan GH, dan pembuatannya berjalan dengan baik. Tetapi ketika saya melakukannya, bin/pyspark
saya mendapatkan versi Python 2.7.9. Bagaimana saya bisa mengubahnya?
Jawaban:
Cukup atur variabel lingkungan:
export PYSPARK_PYTHON=python3
jika Anda ingin ini menjadi perubahan permanen tambahkan baris ini ke skrip pyspark.
export PYSPARK_PYTHON=python3.5
untuk Python 3.5
$SPARK_HOME/conf/spark-env.sh
jadi spark-submit
gunakan interpreter yang sama juga.
PYSPARK_PYTHON=python3
./bin/pyspark
Jika Anda ingin menjalankan di Notebook IPython, tulis:
PYSPARK_PYTHON=python3
PYSPARK_DRIVER_PYTHON=ipython
PYSPARK_DRIVER_PYTHON_OPTS="notebook"
./bin/pyspark
Jika python3
tidak dapat diakses, Anda harus meneruskan jalur ke sana.
Ingatlah bahwa dokumentasi saat ini (mulai 1.4.1) memiliki instruksi yang sudah ketinggalan zaman. Untungnya, itu telah ditambal .
Lihat file tersebut. Garis shebang mungkin menunjuk ke biner 'env' yang mencari jalur untuk executable pertama yang kompatibel.
Anda dapat mengubah python menjadi python3. Ubah env untuk langsung menggunakan hardcode biner python3. Atau jalankan biner secara langsung dengan python3 dan hilangkan baris shebang.
PYSPARK_PYTHON
variabel lingkungan.
Untuk Jupyter Notebook, edit spark-env.sh
file seperti yang ditunjukkan di bawah ini dari baris perintah
$ vi $SPARK_HOME/conf/spark-env.sh
Goto bagian bawah file dan salin tempel baris ini
export PYSPARK_PYTHON=python3
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS="notebook"
Kemudian, jalankan perintah berikut untuk memulai pyspark di notebook
$ pyspark
PYSPARK_DRIVER_PYTHON=ipython3 PYSPARK_DRIVER_PYTHON_OPTS="notebook" ./bin/pyspark
:, dalam hal ini menjalankan notebook IPython 3.