Pertanyaan yang diberi tag «apache-spark»

Apache Spark adalah mesin pengolah data terdistribusi open source yang ditulis dalam Scala yang menyediakan API terpadu dan set data terdistribusi kepada pengguna. Gunakan Kasus untuk Apache Spark sering terkait dengan pembelajaran mesin / dalam, pemrosesan grafik.

19
mengimpor pyspark di shell python
Ini adalah salinan pertanyaan orang lain di forum lain yang tidak pernah dijawab, jadi saya pikir saya akan menanyakannya kembali di sini, karena saya memiliki masalah yang sama. (Lihat http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 ) Saya telah menginstal Spark dengan benar di mesin saya dan saya dapat menjalankan program python dengan modul pyspark tanpa …

12
Muat file CSV dengan Spark
Saya baru mengenal Spark dan saya mencoba membaca data CSV dari file dengan Spark. Inilah yang saya lakukan: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() Saya berharap panggilan ini memberi saya daftar dari dua kolom pertama file saya tetapi saya mendapatkan kesalahan ini: File "<ipython-input-60-73ea98550983>", line 1, in <lambda> IndexError: list …


8
Bagaimana menimpa direktori keluaran di spark
Saya memiliki aplikasi streaming percikan yang menghasilkan kumpulan data untuk setiap menit. Saya perlu menyimpan / menimpa hasil dari data yang diproses. Ketika saya mencoba menimpa dataset org.apache.hadoop.mapred.FileAlreadyExistsException menghentikan eksekusi. Saya mengatur properti Spark set("spark.files.overwrite","true"), tetapi tidak berhasil. Bagaimana cara menimpa atau menghapus file dari percikan?
107 apache-spark 


5
bagaimana mengubah kolom Dataframe dari tipe String ke tipe Double di pyspark
Saya memiliki dataframe dengan kolom sebagai String. Saya ingin mengubah tipe kolom menjadi tipe Double di PySpark. Berikut caranya, saya lakukan: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Hanya ingin tahu, apakah ini cara yang tepat untuk melakukannya karena saat menjalankan Regresi Logistik, saya mendapatkan beberapa kesalahan, jadi saya …


4
Aplikasi Menjalankan Spark Kill
Saya memiliki aplikasi Spark yang sedang berjalan yang menempati semua inti di mana aplikasi saya yang lain tidak akan dialokasikan sumber daya apa pun. Saya melakukan beberapa penelitian cepat dan orang menyarankan menggunakan YARN kill atau / bin / spark-class untuk mematikan perintah. Namun, saya menggunakan versi CDH dan / …

14
Cara memuat file lokal di sc.textFile, alih-alih HDFS
Saya mengikuti tutorial percikan hebat jadi saya mencoba pada 46m: 00s untuk memuat README.mdtetapi gagal untuk apa yang saya lakukan adalah ini: $ sudo docker run -i -t -h sandbox sequenceiq/spark:1.1.0 /etc/bootstrap.sh -bash bash-4.1# cd /usr/local/spark-1.1.0-bin-hadoop2.4 bash-4.1# ls README.md README.md bash-4.1# ./bin/spark-shell scala> val f = sc.textFile("README.md") 14/12/04 12:11:14 INFO …


16
Spark - Kesalahan "URL master harus disetel dalam konfigurasi Anda" saat mengirimkan aplikasi
Saya memiliki aplikasi Spark yang berjalan tanpa masalah dalam mode lokal, tetapi mengalami beberapa masalah saat mengirimkan ke cluster Spark. Pesan kesalahannya adalah sebagai berikut: 16/06/24 15:42:06 WARN scheduler.TaskSetManager: Lost task 2.0 in stage 0.0 (TID 2, cluster-node-02): java.lang.ExceptionInInitializerError at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579) at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579) at scala.collection.Iterator$$anon$14.hasNext(Iterator.scala:390) at org.apache.spark.util.Utils$.getIteratorSize(Utils.scala:1595) at org.apache.spark.rdd.RDD$$anonfun$count$1.apply(RDD.scala:1157) at …



10
Bagaimana cara mengatur Spark di Windows?
Saya mencoba mengatur Apache Spark di Windows. Setelah mencari sedikit, saya memahami bahwa mode mandiri adalah yang saya inginkan. Binari mana yang saya unduh untuk menjalankan Apache spark di windows? Saya melihat distribusi dengan hadoop dan cdh di halaman download spark. Saya tidak memiliki referensi di web untuk ini. Panduan …


Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.