Pertanyaan yang diberi tag «apache-spark»

Apache Spark adalah mesin pengolah data terdistribusi open source yang ditulis dalam Scala yang menyediakan API terpadu dan set data terdistribusi kepada pengguna. Gunakan Kasus untuk Apache Spark sering terkait dengan pembelajaran mesin / dalam, pemrosesan grafik.

23
Bagaimana saya bisa mengubah tipe kolom di DataFrame Spark SQL?
Misalkan saya melakukan sesuatu seperti: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |-- comment: string (nullable = true) |-- blank: string (nullable = true) df.show() year make …


3
Bagaimana tahapan dibagi menjadi beberapa tugas di Spark?
Mari kita asumsikan sebagai berikut bahwa hanya satu tugas Spark yang berjalan di setiap titik waktu. Apa yang saya dapatkan sejauh ini Inilah yang saya pahami tentang apa yang terjadi di Spark: Saat a SparkContextdibuat, setiap node pekerja memulai eksekutor. Pelaksana adalah proses terpisah (JVM), yang menghubungkan kembali ke program …
149 apache-spark 

14
Spark - memuat file CSV sebagai DataFrame?
Saya ingin membaca CSV dalam percikan dan mengubahnya sebagai DataFrame dan menyimpannya dalam HDFS dengan df.registerTempTable("table_name") Saya telah mencoba: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") Kesalahan yang saya dapatkan: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [49, 59, 54, 10] …

15
Bagaimana cara mematikan info INFO di Spark?
Saya menginstal Spark menggunakan panduan AWS EC2 dan saya dapat meluncurkan program dengan baik menggunakan bin/pysparkscript untuk sampai ke percikan percikan dan juga dapat melakukan Quick Start quide berhasil. Namun, saya tidak bisa selama hidup saya mencari cara untuk menghentikan semua INFOlogging verbose setelah setiap perintah. Saya telah mencoba hampir …

8
Bagaimana cara memilih baris pertama dari setiap grup?
Saya memiliki DataFrame yang dihasilkan sebagai berikut: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Hasilnya terlihat seperti: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| 12.6| | 1| …


2
Bagaimana cara menambahkan kolom konstan dalam Spark DataFrame?
Saya ingin menambahkan kolom dalam DataFramedengan nilai arbitrer (sama untuk setiap baris). Saya mendapatkan kesalahan saat menggunakan withColumnsebagai berikut: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc in withColumn(self, colName, col) 1166 [Row(age=2, …


3
Apache Spark: map vs mapPartitions?
Apa perbedaan antara RDD map dan mapPartitionsmetode? Dan apakah flatMapberperilaku suka mapatau suka mapPartitions? Terima kasih. (Sunting) yaitu apa perbedaan (baik secara semantik atau dalam hal eksekusi) antara def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = { rdd.mapPartitions({ iter: Iterator[A] => for (i …


9
Bagaimana cara menambahkan kolom baru ke Spark DataFrame (menggunakan PySpark)?
Saya memiliki Spark DataFrame (menggunakan PySpark 1.5.1) dan ingin menambahkan kolom baru. Saya telah mencoba yang berikut ini tetapi tidak berhasil: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) Juga mendapat kesalahan menggunakan ini: my_df_spark.withColumn("hours", sc.parallelize(randomed_hours)) Jadi …

12
Cara mengatur memori Apache Spark Executor
Bagaimana saya dapat meningkatkan memori yang tersedia untuk node eksekutor percikan Apache? Saya memiliki file 2 GB yang cocok untuk memuat ke Apache Spark. Saya menjalankan percikan apache untuk saat ini pada 1 mesin, sehingga driver dan eksekutor berada pada mesin yang sama. Mesin ini memiliki memori 8 GB. Ketika …

10
Bagaimana cara mencetak konten RDD?
Saya mencoba mencetak konten koleksi ke konsol Spark. Saya punya tipe: linesWithSessionId: org.apache.spark.rdd.RDD[String] = FilteredRDD[3] Dan saya menggunakan perintah: scala> linesWithSessionId.map(line => println(line)) Tapi ini dicetak: res1: org.apache.spark.rdd.RDD [Unit] = MappedRDD [4] di peta pada: 19 Bagaimana cara menulis RDD ke konsol atau menyimpannya ke disk sehingga saya dapat melihat …


Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.