Ada beberapa masalah di sini.
Biasanya, kami ingin menentukan ukuran sampel minimum untuk mencapai tingkat kekuatan statistik yang dapat diterima secara minimal . Ukuran sampel yang diperlukan adalah fungsi dari beberapa faktor, terutama besarnya efek yang Anda inginkan agar dapat dibedakan dari 0 (atau nol apa pun yang Anda gunakan, tetapi 0 paling umum), dan probabilitas minimum penangkapan yang mempengaruhi Anda ingin memiliki. Bekerja dari perspektif ini, ukuran sampel ditentukan oleh analisis daya.
Pertimbangan lain adalah stabilitas model Anda (seperti catatan @cbeleites). Pada dasarnya, ketika rasio parameter yang diestimasi dengan jumlah data mendekati 1, model Anda akan menjadi jenuh, dan tentu saja akan overfit (kecuali, pada kenyataannya, tidak ada keacakan dalam sistem). Aturan praktis 1 banding 10 berasal dari perspektif ini. Perhatikan bahwa memiliki kekuatan yang memadai umumnya akan mencakup masalah ini untuk Anda, tetapi tidak sebaliknya.
Aturan 1 hingga 10 berasal dari dunia regresi linier, dan penting untuk mengetahui bahwa regresi logistik memiliki kompleksitas tambahan. Satu masalah adalah bahwa regresi logistik bekerja paling baik ketika persentase 1 dan 0 adalah sekitar 50% / 50% (seperti yang dibahas oleh @andrea dan @psj dalam komentar di atas). Masalah lain yang harus diperhatikan adalah pemisahan . Artinya, Anda tidak ingin semua 1 Anda dikumpulkan pada satu ekstrim dari variabel independen (atau kombinasi dari mereka), dan semua 0 di ekstrem lainnya. Meskipun ini akan tampak seperti situasi yang baik, karena itu akan membuat prediksi sempurna menjadi mudah, itu sebenarnya membuat proses estimasi parameter meledak. (@Scortchi memiliki diskusi yang sangat baik tentang bagaimana menghadapi pemisahan dalam regresi logistik di sini:Bagaimana cara mengatasi pemisahan yang sempurna dalam regresi logistik? ) Dengan lebih banyak IV, ini menjadi lebih mungkin, bahkan jika besaran sebenarnya dari efek dijaga konstan, dan terutama jika tanggapan Anda tidak seimbang. Dengan demikian, Anda dapat dengan mudah membutuhkan lebih dari 10 data per IV.
Satu masalah terakhir dengan aturan praktis itu, adalah mengasumsikan IV Anda ortogonal . Ini masuk akal untuk eksperimen yang dirancang, tetapi dengan studi observasional seperti milik Anda, IV Anda hampir tidak akan pernah menjadi hampir orthogonal. Ada strategi untuk menghadapi situasi ini (misalnya, menggabungkan atau menjatuhkan IV, melakukan analisis komponen utama terlebih dahulu, dll.), Tetapi jika tidak ditangani (yang umum), Anda akan memerlukan lebih banyak data.
Maka pertanyaan yang masuk akal, apakah seharusnya N minimum Anda, dan / atau apakah ukuran sampel Anda memadai? Untuk mengatasinya, saya sarankan Anda menggunakan metode yang membahas @cbeleites; mengandalkan aturan 1 hingga 10 tidak akan cukup.
1
's) dan 90 non-kasus (0
' s), maka aturan mengatakan "sertakan hanya 1 prediktor". Tetapi bagaimana jika saya memodelkan0
's bukannya1
' dan kemudian saya mengambil kebalikan dari rasio odds yang diperkirakan? Apakah saya diizinkan memasukkan 9 prediktor? Itu tidak masuk akal bagi saya.