Pemrograman apache-spark

15

Perbedaan antara DataFrame, Dataset, dan RDD di Spark

Saya hanya ingin tahu apa perbedaan antara sebuah RDDdan DataFrame (Spark 2.0.0 DataFrame adalah tipe alias untuk Dataset[Row]) di Apache Spark? Bisakah Anda mengonversi satu ke yang lain?

257 dataframe apache-spark apache-spark-sql rdd apache-spark-dataset

13

Spark - partisi ulang () vs coalesce ()

Menurut Learning Spark Ingatlah bahwa mempartisi ulang data Anda adalah operasi yang cukup mahal. Spark juga memiliki versi yang repartition()dipanggil coalesce()yang dioptimalkan yang memungkinkan menghindari perpindahan data, tetapi hanya jika Anda mengurangi jumlah partisi RDD. Satu perbedaan yang saya dapatkan adalah bahwa dengan repartition()jumlah partisi dapat ditingkatkan / dikurangi, tetapi …

254 apache-spark distributed-computing rdd

16

Apa perbedaan antara peta dan flatMap dan kasus penggunaan yang baik untuk masing-masing?

Dapatkah seseorang menjelaskan kepada saya perbedaan antara peta dan flatMap dan apa gunanya kasus yang baik untuk masing-masing? Apa yang dimaksud dengan "meratakan hasil"? Apa gunanya?

249 apache-spark

12

Spark java.lang.OutOfMemoryError: Java heap space

Cluster saya: 1 master, 11 slave, setiap node memiliki memori 6 GB. Pengaturan saya: spark.executor.memory=4g, Dspark.akka.frameSize=512 Inilah masalahnya: Pertama , saya membaca beberapa data (2,19 GB) dari HDFS ke RDD: val imageBundleRDD = sc.newAPIHadoopFile(...) Kedua , lakukan sesuatu pada RDD ini: val res = imageBundleRDD.map(data => { val desPoints = …

228 out-of-memory apache-spark

7

Tugas tidak serializable: java.io.NotSerializableException saat memanggil fungsi penutupan luar hanya pada kelas bukan objek

Mendapatkan perilaku aneh saat memanggil fungsi di luar penutupan: ketika fungsi dalam suatu objek semuanya berfungsi ketika fungsi di kelas dapatkan: Tugas tidak serializable: java.io.NotSerializableException: pengujian Masalahnya adalah saya perlu kode saya di kelas dan bukan objek. Tahu mengapa hal ini terjadi? Apakah objek Scala diserialisasi (default?)? Ini adalah contoh …

224 scala serialization apache-spark typesafe

2

Apa yang dimaksud dengan pekerja, pelaksana, inti dalam kluster Spark Standalone?

Saya membaca Ikhtisar Mode Cluster dan saya masih tidak dapat memahami proses yang berbeda di cluster Standalone Spark dan paralelisme. Apakah pekerja itu proses JVM atau tidak? Saya menjalankan bin\start-slave.shdan menemukan bahwa itu memunculkan pekerja, yang sebenarnya adalah JVM. Sesuai tautan di atas, pelaksana adalah proses yang diluncurkan untuk aplikasi …

219 apache-spark distributed-computing

5

Apa perbedaan antara cache dan bertahan?

Dalam hal RDDketekunan, apa perbedaan antara cache()dan persist()dalam percikan?

202 apache-spark distributed-computing rdd

13

Bagaimana cara menampilkan konten kolom lengkap dalam Spark Dataframe?

Saya menggunakan spark-csv untuk memuat data ke dalam DataFrame. Saya ingin melakukan kueri sederhana dan menampilkan konten: val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv") df.registerTempTable("tasks") results = sqlContext.sql("select col from tasks"); results.show() Col tampaknya terpotong: scala> results.show(); +--------------------+ | col| +--------------------+ |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 …

201 apache-spark dataframe spark-csv output-formatting

13

Bagaimana cara mengubah nama kolom dataframe di pyspark?

Saya berasal dari latar belakang panda dan terbiasa membaca data dari file CSV ke dalam kerangka data dan kemudian hanya mengubah nama kolom menjadi sesuatu yang berguna menggunakan perintah sederhana: df.columns = new_column_name_list Namun, hal yang sama tidak berfungsi di pyspark dataframe yang dibuat menggunakan sqlContext. Satu-satunya solusi yang saya …

201 python apache-spark pyspark pyspark-sql

8

Apache Spark: Jumlah inti vs jumlah pelaksana

Saya mencoba memahami hubungan jumlah core dan jumlah eksekutor ketika menjalankan pekerjaan Spark di BENANG. Lingkungan pengujian adalah sebagai berikut: Jumlah node data: 3 Spesifikasi mesin simpul data: CPU: Core i7-4790 (# core: 4, # utas: 8) RAM: 32GB (8GB x 4) HDD: 8TB (2TB x 4) Jaringan: 1Gb Versi …

193 hadoop apache-spark yarn

20

Bagaimana cara menghentikan pesan INFO yang ditampilkan pada konsol percikan?

Saya ingin menghentikan berbagai pesan yang datang pada cangkang percikan. Saya mencoba mengedit log4j.propertiesfile untuk menghentikan pesan ini. Berikut isinya log4j.properties # Define the root logger with appender file log4j.rootCategory=WARN, console log4j.appender.console=org.apache.log4j.ConsoleAppender log4j.appender.console.target=System.err log4j.appender.console.layout=org.apache.log4j.PatternLayout log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n # Settings to quiet third party logs that are too verbose …

181 apache-spark log4j spark-submit

10

Bagaimana cara membaca banyak file teks menjadi satu RDD?

Saya ingin membaca banyak file teks dari lokasi HDFS dan melakukan pemetaan pada iterasi menggunakan percikan. JavaRDD<String> records = ctx.textFile(args[1], 1); mampu membaca hanya satu file pada satu waktu. Saya ingin membaca lebih dari satu file dan memprosesnya sebagai RDD tunggal. Bagaimana?

179 apache-spark

2

Kinerja Spark untuk Scala vs Python

Saya lebih suka Python daripada Scala. Tetapi, karena Spark secara asli ditulis dalam Scala, saya mengharapkan kode saya berjalan lebih cepat di Scala daripada versi Python karena alasan yang jelas. Dengan asumsi itu, saya berpikir untuk belajar & menulis versi Scala dari beberapa kode preprocessing yang sangat umum untuk sekitar …

178 scala performance apache-spark pyspark rdd

5

(Mengapa) kita perlu memanggil cache atau tetap menggunakan RDD

Ketika dataset didistribusikan (RDD) yang tangguh dibuat dari file teks atau koleksi (atau dari RDD lain), apakah kita perlu memanggil "cache" atau "bertahan" secara eksplisit untuk menyimpan data RDD ke dalam memori? Atau apakah data RDD disimpan secara terdistribusi dalam memori secara default? val textFile = sc.textFile("/user/emp.txt") Sesuai pemahaman saya, …

171 scala apache-spark rdd

6

Tambahkan toples ke Spark Job - spark-submit

Benar ... sudah banyak dibahas. Namun ada banyak ambiguitas dan beberapa jawaban yang diberikan ... termasuk duplikat referensi jar di guci / pelaksana / konfigurasi driver atau opsi. Detail yang ambigu dan / atau dihilangkan Rincian ambiguitas, tidak jelas, dan / atau dihilangkan berikut ini harus diklarifikasi untuk setiap opsi: …

158 java scala apache-spark jar spark-submit

Pertanyaan yang diberi tag «apache-spark»