Nama variabel yang baik adalah:
a) pendek / mudah diketik,
b) mudah diingat,
c) dimengerti / komunikatif.
Apakah saya lupa sesuatu? Konsistensi adalah sesuatu yang harus dicari. Menurut saya, konvensi penamaan yang konsisten berkontribusi pada kualitas di atas. Konsistensi berkontribusi pada (b) kemudahan mengingat dan (c) dapat dimengerti, meskipun faktor-faktor lain seringkali lebih penting. Ada tradeoff yang jelas antara (a) panjang nama / kemudahan mengetik (mis. Semua huruf kecil) dan (c) dapat dimengerti.
Saya berinvestasi sedikit pemikiran dalam masalah ini karena ribuan orang menggunakan data dan saya berharap banyak yang akan menggunakan kode saya untuk menyiapkan data dan memfasilitasi beberapa jenis analisis. Data, dari Studi Longitudinal Kesehatan Remaja, dipecah menjadi beberapa set data. Langkah pertama saya adalah mengambil 227 variabel dalam dataset yang paling umum digunakan, mengode ulangnya, memberi mereka nama yang lebih bermakna. Nama variabel asli adalah hal-hal seperti "bantuan", "s1", "s2", yang saya beri nama "aid2", "age", dan "male.is". Ada ribuan variabel lain dalam dataset lain yang dapat digabungkan tergantung pada apa tujuan peneliti.
Selama saya mengubah nama variabel, saya ingin membuatnya berguna. Inilah beberapa masalah yang saya pertimbangkan. Sejauh ini, saya hanya menggunakan huruf kecil dan menghindari menggunakan tanda hubung atau garis bawah, dan saya hanya menggunakan periode untuk satu tujuan yang sangat spesifik. Ini memiliki sifat kesederhanaan dan konsistensi, dan tidak menyebabkan masalah bagi sebagian besar variabel. Tetapi ketika segala sesuatunya menjadi lebih kompleks, saya tergoda untuk merusak konsistensi saya. Ambil, misalnya, variabel saya "talkprobmsum", akan lebih mudah dibaca sebagai "talkProbMSum" atau lebih baik lagi "talk.prob.m.sum", tetapi jika saya akan menggunakan huruf kapital atau titik untuk memisahkan kata maka tidakkah seharusnya saya melakukannya untuk semua variabel?
Beberapa variabel dicatat pada lebih dari satu kali, misalnya variabel ras jadi saya menambahkan .is atau .ih untuk menunjukkan apakah mereka berasal dari kuesioner di sekolah atau di rumah. Tapi pasti ada beberapa pengulangan yang belum saya sadari, apakah akan lebih baik untuk menambahkan referensi ke dataset dengan nama setiap variabel?
Saya perlu mengelompokkan-pusat dan menstandardisasi banyak variabel, cara saya melakukan itu adalah dengan menambahkan .zms yang berarti z-skor oleh laki-laki dan oleh sekolah.
Setiap pemikiran atau sumber daya umum atau khusus sangat dihargai. Lihat repositori ini untuk beberapa kode saya, dan statistik deskriptif dengan daftar nama variabel. Saya menjelaskan secara singkat alasan untuk membagikan kode ini di sini , dan itu dipublikasikan sedikit di sini , tetapi dua tautan terakhir ini tidak benar-benar relevan dengan masalah konvensi penamaan variabel. Ditambahkan: Saya mengedit ini dengan ringan, sebagian besar hanya memindahkan paragraf, untuk mencoba menghindari beberapa kebingungan yang terlihat dalam komentar. Terima kasih atas pemikirannya!
Ditambahkan 2016-09-05: Nilainya mencatat Hadley Wickham's R Style Guide dan Google R Style Guide ... Hadley mengatakan:
Nama variabel dan fungsi harus huruf kecil. Gunakan garis bawah (_) untuk memisahkan kata dalam nama.
Google mengatakan:
Jangan gunakan garis bawah (_) atau tanda hubung (-) dalam pengidentifikasi. Pengidentifikasi harus diberi nama sesuai dengan konvensi berikut. Bentuk yang disukai untuk nama variabel adalah semua huruf kecil dan kata-kata yang dipisahkan dengan titik (variabel.nama), tetapi variabelName juga diterima; nama fungsi memiliki huruf kapital awal dan tanpa titik (FunctionName); konstanta diberi nama fungsi seperti tetapi dengan k awal.
R
, melainkan tentang praktik yang tepat untuk mendokumentasikan dan menggunakan data.