Pemrograman apache-spark

23

Bagaimana saya bisa mengubah tipe kolom di DataFrame Spark SQL?

Misalkan saya melakukan sesuatu seperti: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |-- comment: string (nullable = true) |-- blank: string (nullable = true) df.show() year make …

152 scala apache-spark apache-spark-sql

8

Bagaimana cara menyimpan objek khusus di Dataset?

Menurut Introducing Spark Datasets : Saat kami menantikan Spark 2.0, kami merencanakan beberapa peningkatan yang menarik pada Kumpulan Data, khususnya: ... Penyandi khusus - sementara kami saat ini membuat penyandiaksaraan otomatis untuk berbagai jenis, kami ingin membuka API untuk objek khusus. dan upaya untuk menyimpan jenis khusus dalam Datasetarahan ke …

149 scala apache-spark apache-spark-dataset apache-spark-encoders

3

Bagaimana tahapan dibagi menjadi beberapa tugas di Spark?

Mari kita asumsikan sebagai berikut bahwa hanya satu tugas Spark yang berjalan di setiap titik waktu. Apa yang saya dapatkan sejauh ini Inilah yang saya pahami tentang apa yang terjadi di Spark: Saat a SparkContextdibuat, setiap node pekerja memulai eksekutor. Pelaksana adalah proses terpisah (JVM), yang menghubungkan kembali ke program …

149 apache-spark

14

Spark - memuat file CSV sebagai DataFrame?

Saya ingin membaca CSV dalam percikan dan mengubahnya sebagai DataFrame dan menyimpannya dalam HDFS dengan df.registerTempTable("table_name") Saya telah mencoba: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") Kesalahan yang saya dapatkan: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [49, 59, 54, 10] …

147 scala apache-spark hadoop apache-spark-sql hdfs

15

Bagaimana cara mematikan info INFO di Spark?

Saya menginstal Spark menggunakan panduan AWS EC2 dan saya dapat meluncurkan program dengan baik menggunakan bin/pysparkscript untuk sampai ke percikan percikan dan juga dapat melakukan Quick Start quide berhasil. Namun, saya tidak bisa selama hidup saya mencari cara untuk menghentikan semua INFOlogging verbose setelah setiap perintah. Saya telah mencoba hampir …

144 python scala apache-spark hadoop pyspark

8

Bagaimana cara memilih baris pertama dari setiap grup?

Saya memiliki DataFrame yang dihasilkan sebagai berikut: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Hasilnya terlihat seperti: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| 12.6| | 1| …

143 sql scala apache-spark dataframe apache-spark-sql

11

Bagaimana mengkonversi objek rdd ke dataframe di spark

Bagaimana saya bisa mengubah RDD ( org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) ke Dataframe org.apache.spark.sql.DataFrame. Saya mengkonversi dataframe menjadi rdd menggunakan .rdd. Setelah mengolahnya, saya ingin kembali dalam bingkai data. Bagaimana saya bisa melakukan ini?

139 scala apache-spark apache-spark-sql rdd

2

Bagaimana cara menambahkan kolom konstan dalam Spark DataFrame?

Saya ingin menambahkan kolom dalam DataFramedengan nilai arbitrer (sama untuk setiap baris). Saya mendapatkan kesalahan saat menggunakan withColumnsebagai berikut: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc in withColumn(self, colName, col) 1166 [Row(age=2, …

137 python apache-spark dataframe pyspark apache-spark-sql

6

Bagaimana cara mengurutkan berdasarkan kolom dalam urutan menurun di Spark SQL?

Saya mencoba df.orderBy("col1").show(10)tetapi diurutkan dalam urutan menaik. df.sort("col1").show(10)juga memilah dalam urutan menurun. Saya melihat stackoverflow dan jawaban yang saya temukan sudah ketinggalan jaman atau disebut RDD . Saya ingin menggunakan bingkai data asli di percikan.

137 scala apache-spark apache-spark-sql

3

Apache Spark: map vs mapPartitions?

Apa perbedaan antara RDD map dan mapPartitionsmetode? Dan apakah flatMapberperilaku suka mapatau suka mapPartitions? Terima kasih. (Sunting) yaitu apa perbedaan (baik secara semantik atau dalam hal eksekusi) antara def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = { rdd.mapPartitions({ iter: Iterator[A] => for (i …

133 performance scala apache-spark rdd

5

Bagaimana cara mendefinisikan partisi DataFrame?

Saya sudah mulai menggunakan Spark SQL dan DataFrames di Spark 1.4.0. Saya ingin mendefinisikan pemartisi khusus di DataFrames, di Scala, tetapi tidak melihat cara melakukan ini. Salah satu tabel data yang saya kerjakan berisi daftar transaksi, berdasarkan akun, silimar ke contoh berikut. Account Date Type Amount 1001 2014-04-01 Purchase 100.00 …

129 scala apache-spark dataframe apache-spark-sql partitioning

9

Bagaimana cara menambahkan kolom baru ke Spark DataFrame (menggunakan PySpark)?

Saya memiliki Spark DataFrame (menggunakan PySpark 1.5.1) dan ingin menambahkan kolom baru. Saya telah mencoba yang berikut ini tetapi tidak berhasil: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) Juga mendapat kesalahan menggunakan ini: my_df_spark.withColumn("hours", sc.parallelize(randomed_hours)) Jadi …

129 python apache-spark dataframe pyspark apache-spark-sql

12

Cara mengatur memori Apache Spark Executor

Bagaimana saya dapat meningkatkan memori yang tersedia untuk node eksekutor percikan Apache? Saya memiliki file 2 GB yang cocok untuk memuat ke Apache Spark. Saya menjalankan percikan apache untuk saat ini pada 1 mesin, sehingga driver dan eksekutor berada pada mesin yang sama. Mesin ini memiliki memori 8 GB. Ketika …

127 memory apache-spark

10

Bagaimana cara mencetak konten RDD?

Saya mencoba mencetak konten koleksi ke konsol Spark. Saya punya tipe: linesWithSessionId: org.apache.spark.rdd.RDD[String] = FilteredRDD[3] Dan saya menggunakan perintah: scala> linesWithSessionId.map(line => println(line)) Tapi ini dicetak: res1: org.apache.spark.rdd.RDD [Unit] = MappedRDD [4] di peta pada: 19 Bagaimana cara menulis RDD ke konsol atau menyimpannya ke disk sehingga saya dapat melihat …

124 scala apache-spark

14

Kolom gabungan di Apache Spark DataFrame

Bagaimana kita menggabungkan dua kolom di Apache Spark DataFrame? Apakah ada fungsi di Spark SQL yang dapat kita gunakan?

116 sql apache-spark dataframe apache-spark-sql

Pertanyaan yang diberi tag «apache-spark»