Pertanyaan yang diberi tag «apache-spark-sql»

Apache Spark SQL adalah fitur untuk "SQL dan pemrosesan data terstruktur" di Spark, sistem komputasi cluster yang cepat dan serbaguna. Ini dapat digunakan untuk mengambil data dari Hive, Parquet, dll. Dan menjalankan kueri SQL melalui RDD dan Dataset yang ada.


23
Bagaimana saya bisa mengubah tipe kolom di DataFrame Spark SQL?
Misalkan saya melakukan sesuatu seperti: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |-- comment: string (nullable = true) |-- blank: string (nullable = true) df.show() year make …

14
Spark - memuat file CSV sebagai DataFrame?
Saya ingin membaca CSV dalam percikan dan mengubahnya sebagai DataFrame dan menyimpannya dalam HDFS dengan df.registerTempTable("table_name") Saya telah mencoba: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") Kesalahan yang saya dapatkan: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [49, 59, 54, 10] …

8
Bagaimana cara memilih baris pertama dari setiap grup?
Saya memiliki DataFrame yang dihasilkan sebagai berikut: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Hasilnya terlihat seperti: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| 12.6| | 1| …


2
Bagaimana cara menambahkan kolom konstan dalam Spark DataFrame?
Saya ingin menambahkan kolom dalam DataFramedengan nilai arbitrer (sama untuk setiap baris). Saya mendapatkan kesalahan saat menggunakan withColumnsebagai berikut: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc in withColumn(self, colName, col) 1166 [Row(age=2, …



9
Bagaimana cara menambahkan kolom baru ke Spark DataFrame (menggunakan PySpark)?
Saya memiliki Spark DataFrame (menggunakan PySpark 1.5.1) dan ingin menambahkan kolom baru. Saya telah mencoba yang berikut ini tetapi tidak berhasil: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) Juga mendapat kesalahan menggunakan ini: my_df_spark.withColumn("hours", sc.parallelize(randomed_hours)) Jadi …


5
bagaimana mengubah kolom Dataframe dari tipe String ke tipe Double di pyspark
Saya memiliki dataframe dengan kolom sebagai String. Saya ingin mengubah tipe kolom menjadi tipe Double di PySpark. Berikut caranya, saya lakukan: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Hanya ingin tahu, apakah ini cara yang tepat untuk melakukannya karena saat menjalankan Regresi Logistik, saya mendapatkan beberapa kesalahan, jadi saya …




5
Spark DataFrame groupBy dan urutkan dalam urutan menurun (pyspark)
Saya menggunakan pyspark (Python 2.7.9 / Spark 1.3.1) dan memiliki GroupObject dataframe yang perlu saya filter & urutkan dalam urutan menurun. Mencoba mencapainya melalui potongan kode ini. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Tapi itu melempar kesalahan berikut. sort() got an unexpected keyword argument 'ascending'

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.