Saya menggarisbawahi semua jawaban yang sudah diberikan, tetapi mari kita sebut kucing kucing: di banyak tempat kerja, hampir tidak mungkin meyakinkan manajemen bahwa investasi dalam perangkat lunak "eksotis" (eksotis bagi mereka, yaitu) diperlukan, apalagi mempekerjakan seseorang yang bisa menetapkan itu dan pertahankan. Saya telah memberi tahu beberapa klien bahwa mereka akan mendapat manfaat besar dari mempekerjakan ahli statistik dengan latar belakang menyeluruh pada perangkat lunak dan database, tetapi "tidak bisa melakukan" adalah jawaban umum.
Jadi selama itu tidak akan terjadi, ada beberapa hal sederhana yang dapat Anda lakukan dengan Excel yang akan membuat hidup lebih mudah. Dan yang pertama dari ini adalah kontrol versi tanpa keraguan. Info lebih lanjut tentang kontrol versi dengan Excel dapat ditemukan di sini .
Beberapa hal tentang penggunaan excel
Orang yang menggunakan EXCEL sangat sering menyukai fitur rumus EXCEL. Namun, ini adalah sumber kesalahan paling penting di dalam lembar EXCEL, dan masalah ketika mencoba membaca dalam file EXCEL sejauh pengalaman saya. Saya menolak bekerja dengan lembar yang berisi formula.
Saya juga memaksa semua orang yang bekerja dengan saya untuk mengirimkan lembar EXCEL dalam format biasa, artinya:
- Baris pertama berisi nama-nama variabel yang berbeda
- Spreadsheet dimulai di sel A1
- Semua data dimasukkan ke dalam kolom, tanpa gangguan dan tanpa format.
- Jika memungkinkan, data juga disimpan dalam format .csv. Tidak sulit untuk menulis skrip VBA yang akan mengekstraksi data, memformat ulang dan meletakkannya dalam file .csv. Ini juga memungkinkan untuk kontrol versi yang lebih baik, karena Anda dapat membuat dump data .csv setiap hari.
Jika ada struktur umum yang selalu dimiliki data, maka mungkin baik untuk mengembangkan template dengan makro VB yang mendasari untuk menambahkan data dan menghasilkan dataset untuk analisis. Ini secara umum akan menghindari bahwa setiap karyawan memiliki sistem penyimpanan data "jenius" sendiri, dan memungkinkan Anda untuk menulis kode Anda dalam fungsi ini.
Ini mengatakan, jika Anda bisa meyakinkan semua orang untuk menggunakan SQL (dan ujung depan untuk memasukkan data), Anda dapat menghubungkan R langsung ke yang itu. Ini akan sangat meningkatkan kinerja.
Struktur dan manajemen data
Sebagai aturan umum, data yang disimpan dalam database (atau lembar EXCEL jika mereka bersikeras) harus minimum absolut, yang berarti bahwa setiap variabel yang dapat dihitung dari beberapa variabel lain tidak boleh terkandung dalam database. Pikiran Anda, kadang-kadang bisa bermanfaat untuk menyimpan variabel-variabel yang diturunkan atau diubah juga, jika perhitungannya membosankan dan memakan waktu lama. Tetapi ini harus disimpan dalam database terpisah, jika perlu dikaitkan dengan yang asli.
Pikiran harus diberikan juga untuk apa yang dianggap sebagai satu kasus (dan karenanya satu baris). Sebagai contoh, orang cenderung menghasilkan deret waktu dengan membuat variabel baru untuk setiap titik waktu. Meskipun hal ini masuk akal dalam EXCEL, membaca data ini menuntut beberapa pembalikan dari matriks data. Sama untuk kelompok pembanding: Harus ada satu indikator kelompok dan satu variabel respons, bukan variabel respons untuk setiap grup. Dengan cara ini struktur data dapat distandarisasi juga.
Hal terakhir yang sering saya temui adalah penggunaan metrik yang berbeda. Panjangnya diberikan dalam meter atau sentimeter, suhu dalam Celcius, Kelvin atau Farenheit, ... Seseorang harus menunjukkan di ujung depan atau templat apa pun unit di mana variabel diukur.
Dan bahkan setelah semua hal ini, Anda masih ingin memiliki langkah kontrol data sebelum Anda benar-benar mulai dengan analisis. Sekali lagi, ini bisa berupa skrip apa pun yang berjalan setiap hari (misalnya semalam) pada entri baru, dan yang menandai masalah segera (di luar jangkauan, tipe yang salah, bidang yang hilang, ...) sehingga dapat diperbaiki secepat mungkin. Jika Anda harus kembali ke entri yang dibuat 2 bulan lalu untuk mencari tahu apa yang salah dan mengapa, Anda lebih baik mendapatkan beberapa "keterampilan Sherlock" yang baik untuk memperbaikinya.
2 sen saya