Pertanyaan yang diberi tag «apache-spark»

Apache Spark adalah mesin pengolah data terdistribusi open source yang ditulis dalam Scala yang menyediakan API terpadu dan set data terdistribusi kepada pengguna. Gunakan Kasus untuk Apache Spark sering terkait dengan pembelajaran mesin / dalam, pemrosesan grafik.

12
java.io.IOException: Tidak dapat menemukan null \ bin \ winutils.exe yang dapat dieksekusi di binari Hadoop. percikan Eclipse di windows 7
Saya tidak dapat menjalankan sparkpekerjaan sederhana di Scala IDE(proyek percikan Maven) yang diinstalWindows 7 Ketergantungan inti percikan telah ditambahkan. val conf = new SparkConf().setAppName("DemoDF").setMaster("local") val sc = new SparkContext(conf) val logData = sc.textFile("File.txt") logData.count() Kesalahan: 16/02/26 18:29:33 INFO SparkContext: Created broadcast 0 from textFile at FrameDemo.scala:13 16/02/26 18:29:34 ERROR Shell: …


5
Spark DataFrame groupBy dan urutkan dalam urutan menurun (pyspark)
Saya menggunakan pyspark (Python 2.7.9 / Spark 1.3.1) dan memiliki GroupObject dataframe yang perlu saya filter & urutkan dalam urutan menurun. Mencoba mencapainya melalui potongan kode ini. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Tapi itu melempar kesalahan berikut. sort() got an unexpected keyword argument 'ascending'

12
Mac spark-shell Terjadi kesalahan saat memulai SparkContext
Saya mencoba menjalankan spark 1.6.0 (spark-1.6.0-bin-hadoop2.4) di Mac OS Yosemite 10.10.5 menggunakan "./bin/spark-shell". Ada kesalahan di bawah ini. Saya juga mencoba menginstal versi Spark yang berbeda tetapi semuanya memiliki kesalahan yang sama. Ini adalah kedua kalinya saya menjalankan Spark. Lari saya sebelumnya bekerja dengan baik. log4j:WARN No appenders could be …


18
Bagaimana cara mengatur versi python pengemudi di spark?
Saya menggunakan spark 1.4.0-rc2 jadi saya bisa menggunakan python 3 dengan spark. Jika saya menambahkan export PYSPARK_PYTHON=python3ke file .bashrc saya, saya dapat menjalankan spark secara interaktif dengan python 3. Namun, jika saya ingin menjalankan program mandiri dalam mode lokal, saya mendapatkan kesalahan: Exception: Python in worker has different version 3.4 …


5
Hitung kecepatan rata-rata jalan [ditutup]
Ditutup . Pertanyaan ini perlu lebih fokus . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga berfokus pada satu masalah hanya dengan mengedit posting ini . Ditutup 4 hari yang lalu . Saya pergi ke wawancara pekerjaan insinyur data. Pewawancara bertanya kepada saya. Dia memberi saya …

2
Jalan buntu ketika banyak pekerjaan percikan dijadwalkan secara bersamaan
Menggunakan percikan 2.4.4 yang berjalan dalam mode gugus BENANG dengan penjadwal FIFO percikan. Saya mengirimkan beberapa operasi dataframe percikan (yaitu menulis data ke S3) menggunakan pelaksana kumpulan thread dengan sejumlah variabel utas. Ini berfungsi dengan baik jika saya memiliki ~ 10 utas, tetapi jika saya menggunakan ratusan utas, tampaknya ada …

2
Spark: Mengapa Python secara signifikan mengungguli Scala dalam kasus penggunaan saya?
Untuk membandingkan kinerja Spark ketika menggunakan Python dan Scala saya menciptakan pekerjaan yang sama di kedua bahasa dan membandingkan runtime. Saya berharap kedua pekerjaan akan memakan waktu yang kira-kira sama, tetapi pekerjaan Python hanya memakan waktu 27min, sementara pekerjaan Scala memakan waktu 37min(hampir 40% lebih lama!). Saya menerapkan pekerjaan yang …


3
Cara memperbaiki kesalahan 'TypeError: integer diperlukan (mendapat byte tipe)' ketika mencoba menjalankan pyspark setelah menginstal percikan 2.4.4
Saya telah menginstal OpenJDK 13.0.1 dan python 3.8 dan spark 2.4.4. Petunjuk untuk menguji instalasi adalah untuk menjalankan. \ Bin \ pyspark dari akar instalasi percikan. Saya tidak yakin apakah saya melewatkan langkah dalam instalasi percikan, seperti mengatur beberapa variabel lingkungan, tetapi saya tidak dapat menemukan petunjuk lebih lanjut. Saya …

1
pandasUDF dan pyarrow 0.15.0
Saya baru-baru ini mulai mendapatkan banyak kesalahan pada sejumlah pysparkpekerjaan yang berjalan pada cluster ESDM. Para erro adalah java.lang.IllegalArgumentException at java.nio.ByteBuffer.allocate(ByteBuffer.java:334) at org.apache.arrow.vector.ipc.message.MessageSerializer.readMessage(MessageSerializer.java:543) at org.apache.arrow.vector.ipc.message.MessageChannelReader.readNext(MessageChannelReader.java:58) at org.apache.arrow.vector.ipc.ArrowStreamReader.readSchema(ArrowStreamReader.java:132) at org.apache.arrow.vector.ipc.ArrowReader.initialize(ArrowReader.java:181) at org.apache.arrow.vector.ipc.ArrowReader.ensureInitialized(ArrowReader.java:172) at org.apache.arrow.vector.ipc.ArrowReader.getVectorSchemaRoot(ArrowReader.java:65) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:162) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:122) at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.hasNext(PythonRunner.scala:406) at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:37) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec$$anon$2.<init>(ArrowEvalPythonExec.scala:98) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec.evaluate(ArrowEvalPythonExec.scala:96) at org.apache.spark.sql.execution.python.EvalPythonExec$$anonfun$doExecute$1.apply(EvalPythonExec.scala:127)... Semua itu tampaknya …

1
Apache Spark: dampak partisi ulang, penyortiran, dan caching pada suatu join
Saya menjelajahi perilaku Spark ketika bergabung dengan tabel untuk dirinya sendiri. Saya menggunakan Databricks. Skenario boneka saya adalah: Baca tabel eksternal sebagai dataframe A (file yang mendasarinya dalam format delta) Definisikan dataframe B sebagai dataframe A dengan hanya kolom tertentu yang dipilih Bergabunglah dengan dataframe A dan B pada kolom1 …

3
Menerapkan fungsi Python ke Pandas mengelompokkan DataFrame - apa pendekatan yang paling efisien untuk mempercepat perhitungan?
Saya berurusan dengan Pandas DataFrame yang cukup besar - dataset saya menyerupai dfpengaturan berikut : import pandas as pd import numpy as np #--------------------------------------------- SIZING PARAMETERS : R1 = 20 # .repeat( repeats = R1 ) R2 = 10 # .repeat( repeats = R2 ) R3 = 541680 # .repeat( …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.