Pertanyaan yang diberi tag «pyspark»

Spark Python API (PySpark) mengekspos model pemrograman apache-spark ke Python.

13
Bagaimana cara mengubah nama kolom dataframe di pyspark?
Saya berasal dari latar belakang panda dan terbiasa membaca data dari file CSV ke dalam kerangka data dan kemudian hanya mengubah nama kolom menjadi sesuatu yang berguna menggunakan perintah sederhana: df.columns = new_column_name_list Namun, hal yang sama tidak berfungsi di pyspark dataframe yang dibuat menggunakan sqlContext. Satu-satunya solusi yang saya …

2
Kinerja Spark untuk Scala vs Python
Saya lebih suka Python daripada Scala. Tetapi, karena Spark secara asli ditulis dalam Scala, saya mengharapkan kode saya berjalan lebih cepat di Scala daripada versi Python karena alasan yang jelas. Dengan asumsi itu, saya berpikir untuk belajar & menulis versi Scala dari beberapa kode preprocessing yang sangat umum untuk sekitar …

15
Bagaimana cara mematikan info INFO di Spark?
Saya menginstal Spark menggunakan panduan AWS EC2 dan saya dapat meluncurkan program dengan baik menggunakan bin/pysparkscript untuk sampai ke percikan percikan dan juga dapat melakukan Quick Start quide berhasil. Namun, saya tidak bisa selama hidup saya mencari cara untuk menghentikan semua INFOlogging verbose setelah setiap perintah. Saya telah mencoba hampir …

2
Bagaimana cara menambahkan kolom konstan dalam Spark DataFrame?
Saya ingin menambahkan kolom dalam DataFramedengan nilai arbitrer (sama untuk setiap baris). Saya mendapatkan kesalahan saat menggunakan withColumnsebagai berikut: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc in withColumn(self, colName, col) 1166 [Row(age=2, …

9
Bagaimana cara menambahkan kolom baru ke Spark DataFrame (menggunakan PySpark)?
Saya memiliki Spark DataFrame (menggunakan PySpark 1.5.1) dan ingin menambahkan kolom baru. Saya telah mencoba yang berikut ini tetapi tidak berhasil: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) Juga mendapat kesalahan menggunakan ini: my_df_spark.withColumn("hours", sc.parallelize(randomed_hours)) Jadi …

19
mengimpor pyspark di shell python
Ini adalah salinan pertanyaan orang lain di forum lain yang tidak pernah dijawab, jadi saya pikir saya akan menanyakannya kembali di sini, karena saya memiliki masalah yang sama. (Lihat http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 ) Saya telah menginstal Spark dengan benar di mesin saya dan saya dapat menjalankan program python dengan modul pyspark tanpa …

12
Muat file CSV dengan Spark
Saya baru mengenal Spark dan saya mencoba membaca data CSV dari file dengan Spark. Inilah yang saya lakukan: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() Saya berharap panggilan ini memberi saya daftar dari dua kolom pertama file saya tetapi saya mendapatkan kesalahan ini: File "<ipython-input-60-73ea98550983>", line 1, in <lambda> IndexError: list …


5
bagaimana mengubah kolom Dataframe dari tipe String ke tipe Double di pyspark
Saya memiliki dataframe dengan kolom sebagai String. Saya ingin mengubah tipe kolom menjadi tipe Double di PySpark. Berikut caranya, saya lakukan: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Hanya ingin tahu, apakah ini cara yang tepat untuk melakukannya karena saat menjalankan Regresi Logistik, saya mendapatkan beberapa kesalahan, jadi saya …

4
Aplikasi Menjalankan Spark Kill
Saya memiliki aplikasi Spark yang sedang berjalan yang menempati semua inti di mana aplikasi saya yang lain tidak akan dialokasikan sumber daya apa pun. Saya melakukan beberapa penelitian cepat dan orang menyarankan menggunakan YARN kill atau / bin / spark-class untuk mematikan perintah. Namun, saya menggunakan versi CDH dan / …

5
Spark DataFrame groupBy dan urutkan dalam urutan menurun (pyspark)
Saya menggunakan pyspark (Python 2.7.9 / Spark 1.3.1) dan memiliki GroupObject dataframe yang perlu saya filter & urutkan dalam urutan menurun. Mencoba mencapainya melalui potongan kode ini. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Tapi itu melempar kesalahan berikut. sort() got an unexpected keyword argument 'ascending'

18
Bagaimana cara mengatur versi python pengemudi di spark?
Saya menggunakan spark 1.4.0-rc2 jadi saya bisa menggunakan python 3 dengan spark. Jika saya menambahkan export PYSPARK_PYTHON=python3ke file .bashrc saya, saya dapat menjalankan spark secara interaktif dengan python 3. Namun, jika saya ingin menjalankan program mandiri dalam mode lokal, saya mendapatkan kesalahan: Exception: Python in worker has different version 3.4 …

2
Spark: Mengapa Python secara signifikan mengungguli Scala dalam kasus penggunaan saya?
Untuk membandingkan kinerja Spark ketika menggunakan Python dan Scala saya menciptakan pekerjaan yang sama di kedua bahasa dan membandingkan runtime. Saya berharap kedua pekerjaan akan memakan waktu yang kira-kira sama, tetapi pekerjaan Python hanya memakan waktu 27min, sementara pekerjaan Scala memakan waktu 37min(hampir 40% lebih lama!). Saya menerapkan pekerjaan yang …


3
Cara memperbaiki kesalahan 'TypeError: integer diperlukan (mendapat byte tipe)' ketika mencoba menjalankan pyspark setelah menginstal percikan 2.4.4
Saya telah menginstal OpenJDK 13.0.1 dan python 3.8 dan spark 2.4.4. Petunjuk untuk menguji instalasi adalah untuk menjalankan. \ Bin \ pyspark dari akar instalasi percikan. Saya tidak yakin apakah saya melewatkan langkah dalam instalasi percikan, seperti mengatur beberapa variabel lingkungan, tetapi saya tidak dapat menemukan petunjuk lebih lanjut. Saya …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.