Pemrograman apache-spark

12

java.io.IOException: Tidak dapat menemukan null \ bin \ winutils.exe yang dapat dieksekusi di binari Hadoop. percikan Eclipse di windows 7

Saya tidak dapat menjalankan sparkpekerjaan sederhana di Scala IDE(proyek percikan Maven) yang diinstalWindows 7 Ketergantungan inti percikan telah ditambahkan. val conf = new SparkConf().setAppName("DemoDF").setMaster("local") val sc = new SparkContext(conf) val logData = sc.textFile("File.txt") logData.count() Kesalahan: 16/02/26 18:29:33 INFO SparkContext: Created broadcast 0 from textFile at FrameDemo.scala:13 16/02/26 18:29:34 ERROR Shell: …

92 eclipse scala apache-spark

10

Bisakah Apache Spark berjalan tanpa hadoop?

Apakah ada ketergantungan antara Spark dan Hadoop ? Jika tidak, apakah ada fitur yang akan saya lewatkan saat menjalankan Spark tanpa Hadoop ?

91 hadoop amazon-s3 apache-spark mapreduce mesos

5

Spark DataFrame groupBy dan urutkan dalam urutan menurun (pyspark)

Saya menggunakan pyspark (Python 2.7.9 / Spark 1.3.1) dan memiliki GroupObject dataframe yang perlu saya filter & urutkan dalam urutan menurun. Mencoba mencapainya melalui potongan kode ini. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Tapi itu melempar kesalahan berikut. sort() got an unexpected keyword argument 'ascending'

90 python apache-spark dataframe pyspark apache-spark-sql

12

Mac spark-shell Terjadi kesalahan saat memulai SparkContext

Saya mencoba menjalankan spark 1.6.0 (spark-1.6.0-bin-hadoop2.4) di Mac OS Yosemite 10.10.5 menggunakan "./bin/spark-shell". Ada kesalahan di bawah ini. Saya juga mencoba menginstal versi Spark yang berbeda tetapi semuanya memiliki kesalahan yang sama. Ini adalah kedua kalinya saya menjalankan Spark. Lari saya sebelumnya bekerja dengan baik. log4j:WARN No appenders could be …

89 apache-spark

1

Apa yang dimaksud dengan "Tahap yang Dilewati" di UI web Apache Spark?

Dari Spark UI saya. Apa yang dimaksud dengan dilewati?

88 apache-spark rdd

18

Bagaimana cara mengatur versi python pengemudi di spark?

Saya menggunakan spark 1.4.0-rc2 jadi saya bisa menggunakan python 3 dengan spark. Jika saya menambahkan export PYSPARK_PYTHON=python3ke file .bashrc saya, saya dapat menjalankan spark secara interaktif dengan python 3. Namun, jika saya ingin menjalankan program mandiri dalam mode lokal, saya mendapatkan kesalahan: Exception: Python in worker has different version 3.4 …

88 apache-spark pyspark

10

Ekstrak nilai kolom Dataframe sebagai List di Apache Spark

Saya ingin mengubah kolom string dari bingkai data menjadi daftar. Yang bisa saya temukan dari DataframeAPI adalah RDD, jadi saya mencoba mengubahnya kembali menjadi RDD terlebih dahulu, lalu menerapkan toArrayfungsi ke RDD. Dalam hal ini, panjang dan SQL berfungsi dengan baik. Namun, hasil yang saya dapat dari RDD memiliki tanda …

87 scala apache-spark apache-spark-sql

5

Hitung kecepatan rata-rata jalan [ditutup]

Ditutup . Pertanyaan ini perlu lebih fokus . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga berfokus pada satu masalah hanya dengan mengedit posting ini . Ditutup 4 hari yang lalu . Saya pergi ke wawancara pekerjaan insinyur data. Pewawancara bertanya kepada saya. Dia memberi saya …

20 apache-spark apache-kafka stream-processing

2

Jalan buntu ketika banyak pekerjaan percikan dijadwalkan secara bersamaan

Menggunakan percikan 2.4.4 yang berjalan dalam mode gugus BENANG dengan penjadwal FIFO percikan. Saya mengirimkan beberapa operasi dataframe percikan (yaitu menulis data ke S3) menggunakan pelaksana kumpulan thread dengan sejumlah variabel utas. Ini berfungsi dengan baik jika saya memiliki ~ 10 utas, tetapi jika saya menggunakan ratusan utas, tampaknya ada …

17 apache-spark

2

Spark: Mengapa Python secara signifikan mengungguli Scala dalam kasus penggunaan saya?

Untuk membandingkan kinerja Spark ketika menggunakan Python dan Scala saya menciptakan pekerjaan yang sama di kedua bahasa dan membandingkan runtime. Saya berharap kedua pekerjaan akan memakan waktu yang kira-kira sama, tetapi pekerjaan Python hanya memakan waktu 27min, sementara pekerjaan Scala memakan waktu 37min(hampir 40% lebih lama!). Saya menerapkan pekerjaan yang …

16 python scala apache-spark pyspark

1

Menulis lebih dari 50 juta dari Pyspark df ke PostgresSQL, pendekatan efisien terbaik

Apa yang akan menjadi cara paling efisien untuk menyisipkan jutaan catatan katakan 50 juta dari bingkai data Spark ke Postgres Tables. Saya telah melakukan ini dari percikan ke MSSQL di masa lalu dengan memanfaatkan salinan massal dan opsi ukuran batch yang berhasil juga. Adakah sesuatu yang serupa yang bisa ada …

16 postgresql apache-spark pyspark apache-spark-sql bigdata

3

Cara memperbaiki kesalahan 'TypeError: integer diperlukan (mendapat byte tipe)' ketika mencoba menjalankan pyspark setelah menginstal percikan 2.4.4

Saya telah menginstal OpenJDK 13.0.1 dan python 3.8 dan spark 2.4.4. Petunjuk untuk menguji instalasi adalah untuk menjalankan. \ Bin \ pyspark dari akar instalasi percikan. Saya tidak yakin apakah saya melewatkan langkah dalam instalasi percikan, seperti mengatur beberapa variabel lingkungan, tetapi saya tidak dapat menemukan petunjuk lebih lanjut. Saya …

16 apache-spark pyspark

1

pandasUDF dan pyarrow 0.15.0

Saya baru-baru ini mulai mendapatkan banyak kesalahan pada sejumlah pysparkpekerjaan yang berjalan pada cluster ESDM. Para erro adalah java.lang.IllegalArgumentException at java.nio.ByteBuffer.allocate(ByteBuffer.java:334) at org.apache.arrow.vector.ipc.message.MessageSerializer.readMessage(MessageSerializer.java:543) at org.apache.arrow.vector.ipc.message.MessageChannelReader.readNext(MessageChannelReader.java:58) at org.apache.arrow.vector.ipc.ArrowStreamReader.readSchema(ArrowStreamReader.java:132) at org.apache.arrow.vector.ipc.ArrowReader.initialize(ArrowReader.java:181) at org.apache.arrow.vector.ipc.ArrowReader.ensureInitialized(ArrowReader.java:172) at org.apache.arrow.vector.ipc.ArrowReader.getVectorSchemaRoot(ArrowReader.java:65) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:162) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:122) at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.hasNext(PythonRunner.scala:406) at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:37) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec$$anon$2.<init>(ArrowEvalPythonExec.scala:98) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec.evaluate(ArrowEvalPythonExec.scala:96) at org.apache.spark.sql.execution.python.EvalPythonExec$$anonfun$doExecute$1.apply(EvalPythonExec.scala:127)... Semua itu tampaknya …

12 pandas apache-spark pyspark pyarrow

1

Apache Spark: dampak partisi ulang, penyortiran, dan caching pada suatu join

Saya menjelajahi perilaku Spark ketika bergabung dengan tabel untuk dirinya sendiri. Saya menggunakan Databricks. Skenario boneka saya adalah: Baca tabel eksternal sebagai dataframe A (file yang mendasarinya dalam format delta) Definisikan dataframe B sebagai dataframe A dengan hanya kolom tertentu yang dipilih Bergabunglah dengan dataframe A dan B pada kolom1 …

10 apache-spark pyspark bigdata azure-databricks delta-lake

3

Menerapkan fungsi Python ke Pandas mengelompokkan DataFrame - apa pendekatan yang paling efisien untuk mempercepat perhitungan?

Saya berurusan dengan Pandas DataFrame yang cukup besar - dataset saya menyerupai dfpengaturan berikut : import pandas as pd import numpy as np #--------------------------------------------- SIZING PARAMETERS : R1 = 20 # .repeat( repeats = R1 ) R2 = 10 # .repeat( repeats = R2 ) R3 = 541680 # .repeat( …

9 python pandas apache-spark parallel-processing dask

Pertanyaan yang diberi tag «apache-spark»