Pertanyaan yang diberi tag «apache-spark»

Apache Spark adalah mesin pengolah data terdistribusi open source yang ditulis dalam Scala yang menyediakan API terpadu dan set data terdistribusi kepada pengguna. Gunakan Kasus untuk Apache Spark sering terkait dengan pembelajaran mesin / dalam, pemrosesan grafik.

1
Spark: UDF dieksekusi berkali-kali
Saya memiliki kerangka data dengan kode berikut: def test(lat: Double, lon: Double) = { println(s"testing ${lat / lon}") Map("one" -> "one", "two" -> "two") } val testUDF = udf(test _) df.withColumn("test", testUDF(col("lat"), col("lon"))) .withColumn("test1", col("test.one")) .withColumn("test2", col("test.two")) Sekarang memeriksa log, saya menemukan bahwa untuk setiap baris UDF dieksekusi 3 kali. …
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.