Pemrograman rdd

15

Perbedaan antara DataFrame, Dataset, dan RDD di Spark

Saya hanya ingin tahu apa perbedaan antara sebuah RDDdan DataFrame (Spark 2.0.0 DataFrame adalah tipe alias untuk Dataset[Row]) di Apache Spark? Bisakah Anda mengonversi satu ke yang lain?

257 dataframe apache-spark apache-spark-sql rdd apache-spark-dataset

13

Spark - partisi ulang () vs coalesce ()

Menurut Learning Spark Ingatlah bahwa mempartisi ulang data Anda adalah operasi yang cukup mahal. Spark juga memiliki versi yang repartition()dipanggil coalesce()yang dioptimalkan yang memungkinkan menghindari perpindahan data, tetapi hanya jika Anda mengurangi jumlah partisi RDD. Satu perbedaan yang saya dapatkan adalah bahwa dengan repartition()jumlah partisi dapat ditingkatkan / dikurangi, tetapi …

254 apache-spark distributed-computing rdd

5

Apa perbedaan antara cache dan bertahan?

Dalam hal RDDketekunan, apa perbedaan antara cache()dan persist()dalam percikan?

202 apache-spark distributed-computing rdd

2

Kinerja Spark untuk Scala vs Python

Saya lebih suka Python daripada Scala. Tetapi, karena Spark secara asli ditulis dalam Scala, saya mengharapkan kode saya berjalan lebih cepat di Scala daripada versi Python karena alasan yang jelas. Dengan asumsi itu, saya berpikir untuk belajar & menulis versi Scala dari beberapa kode preprocessing yang sangat umum untuk sekitar …

178 scala performance apache-spark pyspark rdd

5

(Mengapa) kita perlu memanggil cache atau tetap menggunakan RDD

Ketika dataset didistribusikan (RDD) yang tangguh dibuat dari file teks atau koleksi (atau dari RDD lain), apakah kita perlu memanggil "cache" atau "bertahan" secara eksplisit untuk menyimpan data RDD ke dalam memori? Atau apakah data RDD disimpan secara terdistribusi dalam memori secara default? val textFile = sc.textFile("/user/emp.txt") Sesuai pemahaman saya, …

171 scala apache-spark rdd

11

Bagaimana mengkonversi objek rdd ke dataframe di spark

Bagaimana saya bisa mengubah RDD ( org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) ke Dataframe org.apache.spark.sql.DataFrame. Saya mengkonversi dataframe menjadi rdd menggunakan .rdd. Setelah mengolahnya, saya ingin kembali dalam bingkai data. Bagaimana saya bisa melakukan ini?

139 scala apache-spark apache-spark-sql rdd

3

Apache Spark: map vs mapPartitions?

Apa perbedaan antara RDD map dan mapPartitionsmetode? Dan apakah flatMapberperilaku suka mapatau suka mapPartitions? Terima kasih. (Sunting) yaitu apa perbedaan (baik secara semantik atau dalam hal eksekusi) antara def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = { rdd.mapPartitions({ iter: Iterator[A] => for (i …

133 performance scala apache-spark rdd

1

Apa yang dimaksud dengan "Tahap yang Dilewati" di UI web Apache Spark?

Dari Spark UI saya. Apa yang dimaksud dengan dilewati?

88 apache-spark rdd

Pertanyaan yang diberi tag «rdd»