Pertanyaan yang diberi tag «apache-spark»

Apache Spark adalah mesin pengolah data terdistribusi open source yang ditulis dalam Scala yang menyediakan API terpadu dan set data terdistribusi kepada pengguna. Gunakan Kasus untuk Apache Spark sering terkait dengan pembelajaran mesin / dalam, pemrosesan grafik.


13
Spark - partisi ulang () vs coalesce ()
Menurut Learning Spark Ingatlah bahwa mempartisi ulang data Anda adalah operasi yang cukup mahal. Spark juga memiliki versi yang repartition()dipanggil coalesce()yang dioptimalkan yang memungkinkan menghindari perpindahan data, tetapi hanya jika Anda mengurangi jumlah partisi RDD. Satu perbedaan yang saya dapatkan adalah bahwa dengan repartition()jumlah partisi dapat ditingkatkan / dikurangi, tetapi …


12
Spark java.lang.OutOfMemoryError: Java heap space
Cluster saya: 1 master, 11 slave, setiap node memiliki memori 6 GB. Pengaturan saya: spark.executor.memory=4g, Dspark.akka.frameSize=512 Inilah masalahnya: Pertama , saya membaca beberapa data (2,19 GB) dari HDFS ke RDD: val imageBundleRDD = sc.newAPIHadoopFile(...) Kedua , lakukan sesuatu pada RDD ini: val res = imageBundleRDD.map(data => { val desPoints = …

7
Tugas tidak serializable: java.io.NotSerializableException saat memanggil fungsi penutupan luar hanya pada kelas bukan objek
Mendapatkan perilaku aneh saat memanggil fungsi di luar penutupan: ketika fungsi dalam suatu objek semuanya berfungsi ketika fungsi di kelas dapatkan: Tugas tidak serializable: java.io.NotSerializableException: pengujian Masalahnya adalah saya perlu kode saya di kelas dan bukan objek. Tahu mengapa hal ini terjadi? Apakah objek Scala diserialisasi (default?)? Ini adalah contoh …



13
Bagaimana cara menampilkan konten kolom lengkap dalam Spark Dataframe?
Saya menggunakan spark-csv untuk memuat data ke dalam DataFrame. Saya ingin melakukan kueri sederhana dan menampilkan konten: val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv") df.registerTempTable("tasks") results = sqlContext.sql("select col from tasks"); results.show() Col tampaknya terpotong: scala> results.show(); +--------------------+ | col| +--------------------+ |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 …

13
Bagaimana cara mengubah nama kolom dataframe di pyspark?
Saya berasal dari latar belakang panda dan terbiasa membaca data dari file CSV ke dalam kerangka data dan kemudian hanya mengubah nama kolom menjadi sesuatu yang berguna menggunakan perintah sederhana: df.columns = new_column_name_list Namun, hal yang sama tidak berfungsi di pyspark dataframe yang dibuat menggunakan sqlContext. Satu-satunya solusi yang saya …

8
Apache Spark: Jumlah inti vs jumlah pelaksana
Saya mencoba memahami hubungan jumlah core dan jumlah eksekutor ketika menjalankan pekerjaan Spark di BENANG. Lingkungan pengujian adalah sebagai berikut: Jumlah node data: 3 Spesifikasi mesin simpul data: CPU: Core i7-4790 (# core: 4, # utas: 8) RAM: 32GB (8GB x 4) HDD: 8TB (2TB x 4) Jaringan: 1Gb Versi …

20
Bagaimana cara menghentikan pesan INFO yang ditampilkan pada konsol percikan?
Saya ingin menghentikan berbagai pesan yang datang pada cangkang percikan. Saya mencoba mengedit log4j.propertiesfile untuk menghentikan pesan ini. Berikut isinya log4j.properties # Define the root logger with appender file log4j.rootCategory=WARN, console log4j.appender.console=org.apache.log4j.ConsoleAppender log4j.appender.console.target=System.err log4j.appender.console.layout=org.apache.log4j.PatternLayout log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n # Settings to quiet third party logs that are too verbose …

10
Bagaimana cara membaca banyak file teks menjadi satu RDD?
Saya ingin membaca banyak file teks dari lokasi HDFS dan melakukan pemetaan pada iterasi menggunakan percikan. JavaRDD<String> records = ctx.textFile(args[1], 1); mampu membaca hanya satu file pada satu waktu. Saya ingin membaca lebih dari satu file dan memprosesnya sebagai RDD tunggal. Bagaimana?
179 apache-spark 

2
Kinerja Spark untuk Scala vs Python
Saya lebih suka Python daripada Scala. Tetapi, karena Spark secara asli ditulis dalam Scala, saya mengharapkan kode saya berjalan lebih cepat di Scala daripada versi Python karena alasan yang jelas. Dengan asumsi itu, saya berpikir untuk belajar & menulis versi Scala dari beberapa kode preprocessing yang sangat umum untuk sekitar …

5
(Mengapa) kita perlu memanggil cache atau tetap menggunakan RDD
Ketika dataset didistribusikan (RDD) yang tangguh dibuat dari file teks atau koleksi (atau dari RDD lain), apakah kita perlu memanggil "cache" atau "bertahan" secara eksplisit untuk menyimpan data RDD ke dalam memori? Atau apakah data RDD disimpan secara terdistribusi dalam memori secara default? val textFile = sc.textFile("/user/emp.txt") Sesuai pemahaman saya, …
171 scala  apache-spark  rdd 

6
Tambahkan toples ke Spark Job - spark-submit
Benar ... sudah banyak dibahas. Namun ada banyak ambiguitas dan beberapa jawaban yang diberikan ... termasuk duplikat referensi jar di guci / pelaksana / konfigurasi driver atau opsi. Detail yang ambigu dan / atau dihilangkan Rincian ambiguitas, tidak jelas, dan / atau dihilangkan berikut ini harus diklarifikasi untuk setiap opsi: …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.