Seperti yang saya catat dalam komentar saya , tidak ada cukup detail dalam pertanyaan untuk jawaban nyata untuk dirumuskan. Karena Anda perlu bantuan bahkan menemukan istilah yang tepat dan merumuskan pertanyaan Anda, saya dapat berbicara secara singkat secara umum.
Istilah yang Anda cari adalah pembersihan data . Ini adalah proses mengambil data mentah, tidak diformat (kotor) dan menjadikannya untuk dianalisis. Mengubah dan mengatur format ("dua" ) dan mengatur ulang baris dan kolom adalah tugas pembersihan data yang umum. → 2
Dalam beberapa hal, pembersihan data dapat dilakukan dalam perangkat lunak apa pun dan dapat dilakukan dengan Excel atau dengan R. Akan ada pro dan kontra untuk kedua pilihan:
- Excel: Excel hampir pasti merupakan pilihan paling umum untuk pembersihan data (lihat R fortune # 59 pdf ). Ini juga dianggap pilihan yang buruk oleh ahli statistik. Alasan utamanya adalah sulit untuk memastikan bahwa Anda telah menangkap segalanya, atau bahwa Anda telah memperlakukan semuanya secara identik, dan tidak ada catatan tentang perubahan yang telah Anda buat, sehingga Anda tidak dapat mengunjungi kembali perubahan itu nanti. Keuntungan menggunakan Excel adalah bahwa akan lebih mudah untuk melihat apa yang Anda lakukan, dan Anda tidak perlu tahu banyak untuk melakukan perubahan. (Ahli statistik akan menganggap yang terakhir sebagai con tambahan .)
R: R akan membutuhkan kurva belajar yang curam. Jika Anda tidak terlalu terbiasa dengan R atau pemrograman, hal-hal yang dapat dilakukan dengan cukup cepat dan mudah di Excel akan membuat Anda frustrasi untuk mencoba di R. Di sisi lain, jika Anda harus melakukan ini lagi, pembelajaran itu akan menjadi menghabiskan waktu dengan baik. Selain itu, kemampuan untuk menulis dan menyimpan kode Anda untuk membersihkan data dalam R akan meringankan kontra yang tercantum di atas. Berikut ini adalah beberapa tautan yang akan membantu Anda memulai tugas-tugas ini di R:
Anda bisa mendapatkan banyak informasi bagus tentang Stack Overflow :
Quick-R juga merupakan sumber daya yang berharga:
Memasukkan angka ke mode numerik:
Sumber lain yang tak ternilai untuk belajar tentang R adalah situs web bantuan statistik UCLA :
Terakhir, Anda selalu dapat menemukan banyak informasi dengan Google lama yang baik:
Pembaruan: Ini adalah masalah umum mengenai struktur dataset Anda ketika Anda memiliki beberapa pengukuran per 'unit studi' (dalam kasus Anda, seseorang). Jika Anda memiliki satu baris untuk setiap orang, data Anda dikatakan dalam bentuk 'lebar', tetapi Anda tentu akan memiliki beberapa kolom untuk variabel respons Anda, misalnya. Di sisi lain, Anda dapat memiliki hanya satu kolom untuk variabel respons Anda (tetapi sebagai hasilnya, memiliki beberapa baris per orang), dalam hal ini data Anda dikatakan dalam bentuk 'panjang'. Bergerak di antara dua format ini sering disebut 'membentuk kembali' data Anda, terutama di dunia R.
- Fungsi R standar untuk ini adalah ? Membentuk kembali . Ada panduan untuk menggunakan
reshape()
situs bantuan statistik UCLA.
- Banyak orang berpikir
reshape
sulit untuk diajak bekerja sama. Hadley Wickham telah menyumbang paket yang disebut reshape2 , yang dimaksudkan untuk menyederhanakan proses. Situs web pribadi Hadley untuk reshape2 ada di sini , ikhtisar Quick-R di sini , dan ada tutorial yang terlihat bagus di sini .
- Ada sangat banyak pertanyaan di SO tentang cara membentuk kembali data. Kebanyakan dari mereka adalah tentang pergi dari lebar ke panjang, karena itulah yang biasanya dihadapi oleh analis data. Pertanyaan Anda adalah tentang pergi dari panjang ke lebar, yang jauh lebih jarang, tetapi masih ada banyak utas tentang itu, Anda dapat melihatnya melalui pencarian ini .
- Jika hati Anda mencoba melakukan ini dengan Excel, ada utas tentang menulis makro VBA untuk Excel untuk mereplikasi fungsi membentuk kembali di sini: meleleh / membentuk kembali di Excel menggunakan VBA?
data.table
,dplyr
,plyr
, danreshape2
- saya sarankan menghindari Excel dan tabel pivot jika memungkinkan.