Saya pikir saya akan membawa lebih banyak data ke diskusi.
Saya menjalankan serangkaian tes tentang masalah ini.
Dengan menggunakan resource
paket python saya mendapatkan penggunaan memori dari proses saya.
Dan dengan menulis csv ke dalam StringIO
buffer, saya dapat dengan mudah mengukur ukurannya dalam byte.
Saya menjalankan dua eksperimen, masing-masing membuat 20 kerangka data dengan ukuran yang meningkat antara 10.000 baris dan 1.000.000 baris. Keduanya memiliki 10 kolom.
Dalam percobaan pertama saya hanya menggunakan float di dataset saya.
Ini adalah bagaimana memori meningkat dibandingkan dengan file csv sebagai fungsi dari jumlah baris. (Ukuran dalam Megabyte)
Percobaan kedua saya memiliki pendekatan yang sama, tetapi data dalam dataset hanya terdiri dari string pendek.
Tampaknya hubungan ukuran csv dan ukuran dataframe bisa sangat bervariasi, namun ukuran di memori akan selalu lebih besar dengan faktor 2-3 (untuk ukuran frame dalam percobaan ini)
Saya ingin melengkapi jawaban ini dengan lebih banyak eksperimen, beri komentar jika Anda ingin saya mencoba sesuatu yang istimewa.
top
dan kemudianShift + M
memilah penggunaan memori saya.