1
Apache Spark: dampak partisi ulang, penyortiran, dan caching pada suatu join
Saya menjelajahi perilaku Spark ketika bergabung dengan tabel untuk dirinya sendiri. Saya menggunakan Databricks. Skenario boneka saya adalah: Baca tabel eksternal sebagai dataframe A (file yang mendasarinya dalam format delta) Definisikan dataframe B sebagai dataframe A dengan hanya kolom tertentu yang dipilih Bergabunglah dengan dataframe A dan B pada kolom1 …