Saya memiliki frame 10 data pyspark.sql.dataframe.DataFrame
, yang diperoleh dari randomSplit
sebagai (td1, td2, td3, td4, td5, td6, td7, td8, td9, td10) = td.randomSplit([.1, .1, .1, .1, .1, .1, .1, .1, .1, .1], seed = 100)
Sekarang saya ingin bergabung 9 td
's ke dalam bingkai data tunggal, bagaimana saya harus melakukan itu?
Saya sudah mencoba unionAll
, tetapi fungsi ini hanya menerima dua argumen.
td1_2 = td1.unionAll(td2)
# this is working fine
td1_2_3 = td1.unionAll(td2, td3)
# error TypeError: unionAll() takes exactly 2 arguments (3 given)
Apakah ada cara untuk menggabungkan lebih dari dua frame data secara bijaksana?
Tujuan melakukan ini adalah bahwa saya melakukan Validasi Silang 10 kali lipat secara manual tanpa menggunakan CrossValidator
metode PySpark , Jadi dengan memasukkan 9 ke dalam pelatihan dan 1 ke dalam data uji dan kemudian saya akan mengulanginya untuk kombinasi lainnya.