Saya memiliki dataframe panda berikut Top15
:
Saya membuat kolom yang memperkirakan jumlah dokumen citable per orang:
Top15['PopEst'] = Top15['Energy Supply'] / Top15['Energy Supply per Capita']
Top15['Citable docs per Capita'] = Top15['Citable documents'] / Top15['PopEst']
Saya ingin mengetahui korelasi antara jumlah dokumen citable per kapita dan pasokan energi per kapita. Jadi saya menggunakan .corr()
metode (korelasi Pearson):
data = Top15[['Citable docs per Capita','Energy Supply per Capita']]
correlation = data.corr(method='pearson')
Saya ingin mengembalikan satu angka, tetapi hasilnya adalah:
.corr
langsung ke kerangka data Anda, itu akan mengembalikan semua korelasi berpasangan; itulah mengapa Anda kemudian mengamati 1 di diagonal matriks Anda (setiap kolom berkorelasi sempurna dengan dirinya sendiri). Lihat hasil edit saya di bawah.