Bagaimana saya bisa mengimpor file .csv ke dalam dataframe pyspark? Saya bahkan mencoba membaca file csv di Pandas dan kemudian mengubahnya menjadi dataframe percikan menggunakan createDataFrame, tetapi masih menunjukkan beberapa kesalahan. Bisakah seseorang membimbing saya melalui ini? Juga, tolong beri tahu saya bagaimana cara mengimpor file xlsx? Saya mencoba mengimpor konten csv ke dalam kerangka data panda dan kemudian mengonversinya menjadi bingkai data percikan, tetapi menunjukkan kesalahan:
"Py4JJavaError" An error occurred while calling o28.applySchemaToPythonRDD. : java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
Kode saya adalah:
from pyspark import SparkContext
from pyspark.sql import SQLContext
import pandas as pd
sqlc=SQLContext(sc)
df=pd.read_csv(r'D:\BestBuy\train.csv')
sdf=sqlc.createDataFrame(df)