Tidak ada alasan untuk melihat seluruh output dari kerangka data yang besar. Melihat atau memanipulasi dataframe besar tidak perlu menggunakan sumber daya komputer Anda dalam jumlah besar.
Apa pun yang Anda lakukan dapat dilakukan dalam bentuk mini. Jauh lebih mudah bekerja pada pengkodean dan memanipulasi data ketika bingkai data kecil. Cara terbaik untuk bekerja dengan data besar adalah membuat bingkai data baru yang hanya mengambil sebagian kecil atau sampel kecil dari bingkai data besar. Kemudian Anda dapat menjelajahi data dan melakukan pengkodean pada bingkai data yang lebih kecil. Setelah Anda menjelajahi data dan membuat kode Anda berfungsi, maka gunakan saja kode itu pada bingkai data yang lebih besar.
Cara termudah adalah dengan mengambil n pertama, jumlah baris pertama dari bingkai data menggunakan fungsi head (). Fungsi kepala hanya mencetak n, jumlah baris. Anda dapat membuat bingkai data mini dengan menggunakan fungsi kepala pada bingkai data besar. Di bawah ini saya memilih untuk memilih 50 baris pertama dan meneruskan nilainya ke small_df. Ini mengasumsikan BigData adalah file data yang berasal dari perpustakaan yang Anda buka untuk proyek ini.
library(namedPackage)
df <- data.frame(BigData) # Assign big data to df
small_df <- head(df, 50) # Assign the first 50 rows to small_df
Ini akan bekerja sebagian besar waktu, tetapi kadang-kadang bingkai data besar datang dengan variabel yang sudah ditentukan atau dengan variabel yang sudah dikelompokkan. Jika big data seperti ini, maka Anda perlu mengambil sampel acak dari baris dari big data. Kemudian gunakan kode yang berikut:
df <- data.frame(BigData)
set.seed(1016) # set your own seed
df_small <- df[sample(nrow(df),replace=F,size=.03*nrow(df)),] # samples 3% rows
df_small # much smaller df