Pertanyaan yang diberi tag «apache-spark-sql»

Apache Spark SQL adalah fitur untuk "SQL dan pemrosesan data terstruktur" di Spark, sistem komputasi cluster yang cepat dan serbaguna. Ini dapat digunakan untuk mengambil data dari Hive, Parquet, dll. Dan menjalankan kueri SQL melalui RDD dan Dataset yang ada.



1
Spark: UDF dieksekusi berkali-kali
Saya memiliki kerangka data dengan kode berikut: def test(lat: Double, lon: Double) = { println(s"testing ${lat / lon}") Map("one" -> "one", "two" -> "two") } val testUDF = udf(test _) df.withColumn("test", testUDF(col("lat"), col("lon"))) .withColumn("test1", col("test.one")) .withColumn("test2", col("test.two")) Sekarang memeriksa log, saya menemukan bahwa untuk setiap baris UDF dieksekusi 3 kali. …
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.