Saya memuat beberapa data pembelajaran mesin dari file CSV. 2 kolom pertama adalah observasi dan kolom lainnya adalah fitur.
Saat ini, saya melakukan hal berikut:
data = pandas.read_csv('mydata.csv')
yang memberikan sesuatu seperti:
data = pandas.DataFrame(np.random.rand(10,5), columns = list('abcde'))
Saya ingin mengiris dataframe ini dalam dua dataframes: satu berisi kolom a
dan b
dan satu berisi kolom c
, d
dan e
.
Tidak mungkin menulis sesuatu seperti
observations = data[:'c']
features = data['c':]
Saya tidak yakin apa metode terbaik. Apakah saya perlu pd.Panel
?
By the way, saya menemukan pengindeksan dataframe cukup tidak konsisten: data['a']
diizinkan, tetapi data[0]
tidak. Di sisi lain, data['a':]
tidak diizinkan tetapi data[0:]
. Apakah ada alasan praktis untuk ini? Ini benar-benar membingungkan jika kolom diindeks oleh Int, mengingat hal itudata[0] != data[0:1]
df[5:10]
ditambahkan untuk memilih baris ( pandas.pydata.org/pandas-docs/stable/… )