Biasanya dalam penelitian biomedis, kami tidak menggunakan set pelatihan --- kami hanya menerapkan regresi logistik pada dataset lengkap untuk melihat prediktor mana yang merupakan faktor risiko signifikan untuk hasil yang kita lihat; atau untuk melihat satu prediktor minat sambil mengendalikan efek dari kemungkinan prediktor lain pada hasilnya.
Saya tidak yakin apa yang Anda maksud dengan nilai ambang batas, tetapi ada berbagai parameter yang dapat diusahakan untuk dioptimalkan: AUC, nilai batas untuk dikotomi variabel prediktor kontinu, nilai prediktif positif dan negatif, interval kepercayaan dan nilai-p, tingkat positif palsu dan negatif palsu. Regresi logistik melihat pada populasi subjek dan menilai kekuatan dan arah kausal dari faktor-faktor risiko yang berkontribusi pada hasil yang diinginkan pada populasi tersebut. Dimungkinkan juga untuk "menjalankannya secara terbalik," sehingga untuk berbicara, dan menentukan risiko individu dari hasil mengingat faktor risiko yang dimiliki individu. Regresi logistik memberi setiap individu risiko dari hasil, berdasarkan pada faktor risiko masing-masing, dan secara default ini adalah 0,5. Jika subjek ' s probabilitas memiliki hasil (berdasarkan semua data dan subjek dalam model Anda) adalah 0,5 atau lebih, itu memprediksi ia akan memiliki hasilnya; jika di bawah 0,5 maka ia memprediksi ia tidak akan melakukannya. Tetapi Anda dapat menyesuaikan tingkat cutoff ini, misalnya untuk menandai lebih banyak orang yang mungkin berisiko memiliki hasilnya, meskipun pada harga memiliki lebih banyak positif palsu yang diprediksi oleh model. Anda dapat menyesuaikan level cutoff ini untuk mengoptimalkan keputusan skrining untuk memprediksi individu mana yang disarankan untuk menjalani tindak lanjut medis lebih lanjut, misalnya; dan untuk membangun nilai prediksi positif Anda, nilai prediksi negatif, dan tingkat false negative dan false positive untuk tes penyaringan berdasarkan pada model regresi logistik. Anda dapat mengembangkan model pada setengah dataset Anda dan mengujinya pada setengah lainnya, tetapi Anda tidak t benar-benar harus (dan itu akan memotong data 'pelatihan' Anda menjadi dua dan dengan demikian mengurangi kekuatan untuk menemukan prediktor signifikan dalam model). Jadi ya, Anda bisa 'melatih semuanya dari ujung ke ujung'. Tentu saja, dalam penelitian biomedis, Anda ingin memvalidasinya pada populasi lain, kumpulan data lain sebelum mengatakan bahwa hasil Anda dapat digeneralisasikan ke populasi yang lebih luas. Pendekatan lain adalah dengan menggunakan pendekatan tipe bootstrap di mana Anda menjalankan model Anda pada subsampel populasi studi Anda, kemudian ganti subjek-subjek itu kembali ke kolam dan ulangi dengan sampel lain, berkali-kali (biasanya 1000 kali). Jika Anda mendapatkan hasil yang signifikan sebagian besar waktu yang ditentukan (misalnya 95% dari waktu) maka model Anda dapat dianggap divalidasi --- setidaknya pada data Anda sendiri. Tapi sekali lagi, semakin kecil populasi studi tempat Anda menjalankan model Anda, semakin kecil kemungkinannya bahwa beberapa prediktor akan menjadi faktor risiko yang signifikan secara statistik untuk hasilnya. Ini terutama berlaku untuk studi biomedis dengan jumlah peserta yang terbatas.
Menggunakan setengah dari data Anda untuk 'melatih' model Anda dan kemudian 'memvalidasinya' di setengah lainnya adalah beban yang tidak perlu. Anda tidak melakukan itu untuk uji-t atau regresi linier, jadi mengapa melakukannya dalam regresi logistik? Yang paling akan dilakukan adalah membiarkan Anda mengatakan 'yeah it works' tetapi jika Anda menggunakan dataset lengkap Anda maka Anda tetap menentukannya. Memecah data Anda menjadi kumpulan data yang lebih kecil berisiko tidak mendeteksi faktor risiko yang signifikan dalam populasi penelitian (ATAU populasi validasi) ketika mereka sebenarnya hadir, karena ukuran sampel yang kecil, memiliki terlalu banyak prediktor untuk ukuran studi Anda, dan kemungkinan bahwa 'sampel validasi' Anda tidak akan menunjukkan hubungan apa pun hanya dari kebetulan. Logika di balik pendekatan 'train then validate' tampaknya bahwa jika faktor risiko yang Anda identifikasi signifikan tidak cukup kuat, maka mereka tidak akan signifikan secara statistik ketika dimodelkan pada setengah dari data Anda yang dipilih secara acak. Tetapi sampel yang dipilih secara acak itu dapat terjadi untuk menunjukkan tidak ada hubungan hanya secara kebetulan, atau karena terlalu kecil untuk faktor risiko yang signifikan secara statistik. Tetapi besarnya faktor risiko DAN signifikansi statistiknya yang menentukan kepentingan mereka dan untuk alasan itulah yang terbaik adalah menggunakan set data lengkap Anda untuk membangun model Anda. Signifikansi statistik akan menjadi kurang signifikan dengan ukuran sampel yang lebih kecil, seperti halnya dengan sebagian besar tes statistik. Melakukan regresi logistik adalah seni hampir sebanyak ilmu statistik. Ada berbagai pendekatan untuk digunakan dan berbagai parameter untuk dioptimalkan tergantung pada desain studi Anda. t menjadi signifikan secara statistik ketika dimodelkan pada sebagian data Anda yang dipilih secara acak. Tetapi sampel yang dipilih secara acak itu dapat terjadi untuk menunjukkan tidak ada hubungan hanya secara kebetulan, atau karena terlalu kecil untuk faktor risiko yang signifikan secara statistik. Tetapi besarnya faktor risiko DAN signifikansi statistiknya yang menentukan kepentingan mereka dan untuk alasan itulah yang terbaik adalah menggunakan set data lengkap Anda untuk membangun model Anda. Signifikansi statistik akan menjadi kurang signifikan dengan ukuran sampel yang lebih kecil, seperti halnya dengan sebagian besar tes statistik. Melakukan regresi logistik adalah seni hampir sebanyak ilmu statistik. Ada berbagai pendekatan untuk digunakan dan berbagai parameter untuk dioptimalkan tergantung pada desain studi Anda. t menjadi signifikan secara statistik ketika dimodelkan pada sebagian data Anda yang dipilih secara acak. Tetapi sampel yang dipilih secara acak itu dapat terjadi untuk menunjukkan tidak ada hubungan hanya secara kebetulan, atau karena terlalu kecil untuk faktor risiko yang signifikan secara statistik. Tetapi besarnya faktor risiko DAN signifikansi statistiknya yang menentukan kepentingan mereka dan untuk alasan itulah yang terbaik adalah menggunakan set data lengkap Anda untuk membangun model Anda. Signifikansi statistik akan menjadi kurang signifikan dengan ukuran sampel yang lebih kecil, seperti halnya dengan sebagian besar tes statistik. Melakukan regresi logistik adalah seni hampir sebanyak ilmu statistik. Ada berbagai pendekatan untuk digunakan dan berbagai parameter untuk dioptimalkan tergantung pada desain studi Anda. Tetapi sampel yang dipilih secara acak itu dapat terjadi untuk menunjukkan tidak ada hubungan hanya secara kebetulan, atau karena terlalu kecil untuk faktor risiko yang signifikan secara statistik. Tetapi besarnya faktor risiko DAN signifikansi statistiknya yang menentukan kepentingan mereka dan untuk alasan itulah yang terbaik adalah menggunakan set data lengkap Anda untuk membangun model Anda. Signifikansi statistik akan menjadi kurang signifikan dengan ukuran sampel yang lebih kecil, seperti halnya dengan sebagian besar tes statistik. Melakukan regresi logistik adalah seni hampir sebanyak ilmu statistik. Ada berbagai pendekatan untuk digunakan dan berbagai parameter untuk dioptimalkan tergantung pada desain studi Anda. Tetapi sampel yang dipilih secara acak itu dapat terjadi untuk menunjukkan tidak ada hubungan hanya secara kebetulan, atau karena terlalu kecil untuk faktor risiko yang signifikan secara statistik. Tetapi besarnya faktor risiko DAN signifikansi statistiknya yang menentukan kepentingan mereka dan untuk alasan itulah yang terbaik adalah menggunakan set data lengkap Anda untuk membangun model Anda. Signifikansi statistik akan menjadi kurang signifikan dengan ukuran sampel yang lebih kecil, seperti halnya dengan sebagian besar tes statistik. Melakukan regresi logistik adalah seni hampir sebanyak ilmu statistik. Ada berbagai pendekatan untuk digunakan dan berbagai parameter untuk dioptimalkan tergantung pada desain studi Anda. besarnya faktor risiko DAN signifikansi statistiknya yang menentukan kepentingannya dan karena itu, sebaiknya gunakan set data lengkap Anda untuk membangun model Anda. Signifikansi statistik akan menjadi kurang signifikan dengan ukuran sampel yang lebih kecil, seperti halnya dengan sebagian besar tes statistik. Melakukan regresi logistik adalah seni hampir sebanyak ilmu statistik. Ada berbagai pendekatan untuk digunakan dan berbagai parameter untuk dioptimalkan tergantung pada desain studi Anda. besarnya faktor risiko DAN signifikansi statistiknya yang menentukan kepentingannya dan karena itu, sebaiknya gunakan set data lengkap Anda untuk membangun model Anda. Signifikansi statistik akan menjadi kurang signifikan dengan ukuran sampel yang lebih kecil, seperti halnya dengan sebagian besar tes statistik. Melakukan regresi logistik adalah seni hampir sebanyak ilmu statistik. Ada berbagai pendekatan untuk digunakan dan berbagai parameter untuk dioptimalkan tergantung pada desain studi Anda.