Dari Spark UI saya. Apa yang dimaksud dengan dilewati?
Jawaban:
Biasanya ini berarti bahwa data telah diambil dari cache dan tidak perlu menjalankan ulang tahapan yang diberikan. Ini konsisten dengan DAG Anda yang menunjukkan bahwa tahap berikutnya membutuhkan pengocokan ( reduceByKey
). Setiap kali ada pengacakan yang terlibat, Spark secara otomatis menyimpan data yang dihasilkan dalam cache :
Acak juga menghasilkan sejumlah besar file perantara pada disk. Mulai Spark 1.3, file-file ini disimpan hingga RDD yang sesuai tidak lagi digunakan dan sampah dikumpulkan. Ini dilakukan agar file acak tidak perlu dibuat ulang jika garis keturunan dihitung ulang.