Pemrograman apache-spark-sql

15

Perbedaan antara DataFrame, Dataset, dan RDD di Spark

Saya hanya ingin tahu apa perbedaan antara sebuah RDDdan DataFrame (Spark 2.0.0 DataFrame adalah tipe alias untuk Dataset[Row]) di Apache Spark? Bisakah Anda mengonversi satu ke yang lain?

257 dataframe apache-spark apache-spark-sql rdd apache-spark-dataset

23

Bagaimana saya bisa mengubah tipe kolom di DataFrame Spark SQL?

Misalkan saya melakukan sesuatu seperti: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |-- comment: string (nullable = true) |-- blank: string (nullable = true) df.show() year make …

152 scala apache-spark apache-spark-sql

14

Spark - memuat file CSV sebagai DataFrame?

Saya ingin membaca CSV dalam percikan dan mengubahnya sebagai DataFrame dan menyimpannya dalam HDFS dengan df.registerTempTable("table_name") Saya telah mencoba: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") Kesalahan yang saya dapatkan: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [49, 59, 54, 10] …

147 scala apache-spark hadoop apache-spark-sql hdfs

8

Bagaimana cara memilih baris pertama dari setiap grup?

Saya memiliki DataFrame yang dihasilkan sebagai berikut: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Hasilnya terlihat seperti: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| 12.6| | 1| …

143 sql scala apache-spark dataframe apache-spark-sql

11

Bagaimana mengkonversi objek rdd ke dataframe di spark

Bagaimana saya bisa mengubah RDD ( org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) ke Dataframe org.apache.spark.sql.DataFrame. Saya mengkonversi dataframe menjadi rdd menggunakan .rdd. Setelah mengolahnya, saya ingin kembali dalam bingkai data. Bagaimana saya bisa melakukan ini?

139 scala apache-spark apache-spark-sql rdd

2

Bagaimana cara menambahkan kolom konstan dalam Spark DataFrame?

Saya ingin menambahkan kolom dalam DataFramedengan nilai arbitrer (sama untuk setiap baris). Saya mendapatkan kesalahan saat menggunakan withColumnsebagai berikut: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc in withColumn(self, colName, col) 1166 [Row(age=2, …

137 python apache-spark dataframe pyspark apache-spark-sql

6

Bagaimana cara mengurutkan berdasarkan kolom dalam urutan menurun di Spark SQL?

Saya mencoba df.orderBy("col1").show(10)tetapi diurutkan dalam urutan menaik. df.sort("col1").show(10)juga memilah dalam urutan menurun. Saya melihat stackoverflow dan jawaban yang saya temukan sudah ketinggalan jaman atau disebut RDD . Saya ingin menggunakan bingkai data asli di percikan.

137 scala apache-spark apache-spark-sql

5

Bagaimana cara mendefinisikan partisi DataFrame?

Saya sudah mulai menggunakan Spark SQL dan DataFrames di Spark 1.4.0. Saya ingin mendefinisikan pemartisi khusus di DataFrames, di Scala, tetapi tidak melihat cara melakukan ini. Salah satu tabel data yang saya kerjakan berisi daftar transaksi, berdasarkan akun, silimar ke contoh berikut. Account Date Type Amount 1001 2014-04-01 Purchase 100.00 …

129 scala apache-spark dataframe apache-spark-sql partitioning

9

Bagaimana cara menambahkan kolom baru ke Spark DataFrame (menggunakan PySpark)?

Saya memiliki Spark DataFrame (menggunakan PySpark 1.5.1) dan ingin menambahkan kolom baru. Saya telah mencoba yang berikut ini tetapi tidak berhasil: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) Juga mendapat kesalahan menggunakan ini: my_df_spark.withColumn("hours", sc.parallelize(randomed_hours)) Jadi …

129 python apache-spark dataframe pyspark apache-spark-sql

14

Kolom gabungan di Apache Spark DataFrame

Bagaimana kita menggabungkan dua kolom di Apache Spark DataFrame? Apakah ada fungsi di Spark SQL yang dapat kita gunakan?

116 sql apache-spark dataframe apache-spark-sql

5

bagaimana mengubah kolom Dataframe dari tipe String ke tipe Double di pyspark

Saya memiliki dataframe dengan kolom sebagai String. Saya ingin mengubah tipe kolom menjadi tipe Double di PySpark. Berikut caranya, saya lakukan: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Hanya ingin tahu, apakah ini cara yang tepat untuk melakukannya karena saat menjalankan Regresi Logistik, saya mendapatkan beberapa kesalahan, jadi saya …

103 python apache-spark dataframe pyspark apache-spark-sql

14

Bagaimana cara memeriksa apakah spark dataframe kosong?

Sekarang, saya harus menggunakan df.count > 0untuk memeriksa apakah DataFramekosong atau tidak. Tapi ini agak tidak efisien. Apakah ada cara yang lebih baik untuk melakukan itu? Terima kasih. PS: Saya mau cek kalau kosong jadi saya simpan saja DataFramekalau tidak kosong

102 apache-spark apache-spark-sql

8

Bagaimana cara membuat DataFrame kosong dengan skema tertentu?

Saya ingin membuat DataFramedengan skema tertentu di Scala. Saya telah mencoba menggunakan JSON read (maksud saya membaca file kosong) tetapi menurut saya itu bukan praktik terbaik.

94 scala apache-spark dataframe apache-spark-sql

6

Mengganti nama kolom DataFrame di Spark Scala

Saya mencoba untuk mengonversi semua nama header / kolom a DataFramedi Spark-Scala. sampai sekarang saya datang dengan kode berikut yang hanya menggantikan satu nama kolom. for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }

93 scala apache-spark dataframe apache-spark-sql

5

Spark DataFrame groupBy dan urutkan dalam urutan menurun (pyspark)

Saya menggunakan pyspark (Python 2.7.9 / Spark 1.3.1) dan memiliki GroupObject dataframe yang perlu saya filter & urutkan dalam urutan menurun. Mencoba mencapainya melalui potongan kode ini. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Tapi itu melempar kesalahan berikut. sort() got an unexpected keyword argument 'ascending'

90 python apache-spark dataframe pyspark apache-spark-sql

Pertanyaan yang diberi tag «apache-spark-sql»