Memilih model terbaik dari antara model “terbaik” yang berbeda


28

Bagaimana Anda memilih model dari berbagai model yang dipilih dengan metode yang berbeda (mis. Pemilihan mundur atau maju)?

Juga apa yang dimaksud dengan model pelit?


Saya telah mengedit judul untuk (mudah-mudahan) membuat poin Anda lebih jelas.

Jawaban:


39

Model pelit adalah model yang mencapai tingkat penjelasan atau prediksi yang diinginkan dengan variabel prediktor sesedikit mungkin.

Untuk evaluasi model ada berbagai metode tergantung pada apa yang ingin Anda ketahui. Secara umum ada dua cara mengevaluasi model: Berdasarkan prediksi dan berdasarkan goodness of fit pada data saat ini. Dalam kasus pertama Anda ingin tahu apakah model Anda cukup memprediksi data baru, di kedua Anda ingin tahu apakah model Anda cukup menggambarkan hubungan dalam data Anda saat ini. Itu adalah dua hal yang berbeda.

Mengevaluasi berdasarkan prediksi

Cara terbaik untuk mengevaluasi model yang digunakan untuk prediksi, adalah crossvalidation. Secara singkat, Anda memotong dataset Anda misalnya. 10 buah yang berbeda, gunakan 9 dari mereka untuk membangun model dan memprediksi hasil untuk dataset kesepuluh. Perbedaan kuadrat rata-rata sederhana antara nilai yang diamati dan yang diprediksi memberi Anda ukuran untuk akurasi prediksi. Saat Anda mengulangi ini sepuluh kali, Anda menghitung perbedaan kuadrat rata-rata atas semua iterasi sepuluh untuk mencapai nilai umum dengan standar deviasi. Ini memungkinkan Anda lagi untuk membandingkan dua model pada akurasi prediksi mereka menggunakan teknik statistik standar (uji-t atau ANOVA).

Varian pada tema adalah kriteria PRESS (Prediction Sum of Squares), yang didefinisikan sebagai

saya=1n(Ysaya-Y^saya(-saya))2

Di mana adalah nilai prediksi untuk pengamatan ke-i menggunakan model yang didasarkan pada semua pengamatan dikurangi nilai ke-i. Kriteria ini sangat berguna jika Anda tidak memiliki banyak data. Dalam hal itu, pemisahan data Anda seperti dalam pendekatan crossvalidation dapat menghasilkan subset data yang terlalu kecil untuk pemasangan yang stabil.Y^saya(-saya)

Mengevaluasi berdasarkan kebaikan

Biarkan saya pertama menyatakan bahwa ini sangat berbeda tergantung pada kerangka model yang Anda gunakan. Sebagai contoh, uji rasio kemungkinan dapat bekerja untuk Generalized Additive Mixed Models saat menggunakan gaussian klasik untuk kesalahan, tetapi tidak ada artinya dalam kasus varian binomial.

Pertama, Anda memiliki metode yang lebih intuitif untuk membandingkan model. Anda dapat menggunakan Kriteria Informasi Aikake (AIC) atau Kriteria Informasi Bayesian (BIC) untuk membandingkan kebaikan yang cocok untuk dua model. Tetapi tidak ada yang memberitahu Anda bahwa kedua model benar-benar berbeda.

Satu lagi adalah kriteria Cp Mallow. Ini pada dasarnya memeriksa kemungkinan bias dalam model Anda, dengan membandingkan model dengan semua submodel yang mungkin (atau pemilihan yang cermat dari mereka). Lihat juga http://www.public.iastate.edu/~mervyn/stat401/Other/mallows.pdf

Jika model yang ingin Anda bandingkan adalah model bersarang (yaitu semua prediktor dan interaksi dari model yang lebih pelit terjadi juga dalam model yang lebih lengkap), Anda dapat menggunakan perbandingan formal dalam bentuk tes rasio kemungkinan (atau kuadrat-Chi atau uji F dalam kasus yang sesuai, misalnya ketika membandingkan model linier sederhana yang dipasang menggunakan kuadrat terkecil). Tes ini pada dasarnya mengontrol apakah prediktor tambahan atau interaksi benar-benar meningkatkan model. Kriteria ini sering digunakan dalam metode stepwise maju atau mundur.

Tentang pemilihan model otomatis

Anda memiliki pendukung dan Anda memiliki musuh dari metode ini. Saya pribadi tidak mendukung pemilihan model otomatis, terutama ketika menjelaskan tentang model, dan ini karena sejumlah alasan:

  • Dalam setiap model, Anda harus memeriksa bahwa Anda berurusan dengan perancu. Bahkan, banyak dataset memiliki variabel yang tidak boleh dimasukkan ke dalam model pada saat yang sama. Seringkali orang lupa mengendalikannya.
  • Pemilihan model otomatis adalah metode untuk membuat hipotesis, bukan untuk mengujinya. Semua inferensi berdasarkan model yang berasal dari pemilihan model otomatis tidak valid. Tidak ada cara untuk mengubahnya.
  • Saya telah melihat banyak kasus di mana mulai dari titik awal yang berbeda, pemilihan bertahap menghasilkan model yang sama sekali berbeda. Metode-metode ini jauh dari stabil.
  • Juga sulit untuk memasukkan aturan yang layak, karena uji statistik untuk membandingkan dua model mengharuskan model untuk disarangkan. Jika Anda menggunakan misalnya AIC, BIC atau PRESS, cutoff untuk ketika perbedaan sangat penting dipilih secara sewenang-wenang.

Jadi pada dasarnya, saya melihat lebih banyak dalam membandingkan satu set model yang dipilih sebelumnya. Jika Anda tidak peduli dengan evaluasi statistik model dan pengujian hipotesis, Anda dapat menggunakan crossvalidation untuk membandingkan akurasi prediksi model Anda.

Tetapi jika Anda benar-benar setelah pemilihan variabel untuk tujuan prediksi, Anda mungkin ingin melihat metode lain untuk pemilihan variabel, seperti Support Vector Machines, Neural Networks, Random Forests dan sejenisnya. Ini jauh lebih sering digunakan dalam pengobatan misalnya untuk mencari tahu mana dari seribu protein yang diukur dapat secara memadai memprediksi apakah Anda menderita kanker atau tidak. Hanya untuk memberikan contoh (terkenal):

http://www.nature.com/nm/journal/v7/n6/abs/nm0601_673.html

http://www.springerlink.com/content/w68424066825vr3l/

Semua metode ini memiliki varian regresi untuk data kontinu juga.


Model mana yang akan Anda pilih antara Mallows Cp dan seleksi mundur? Juga apakah model dengan SSE rendah dan koefisien signifikan baik?
tom

2
@ Tom: Anda membandingkan apel dengan jeruk. seleksi mundur adalah metode, Mallows Cp adalah kriteria. Mallow's Cp dapat digunakan sebagai kriteria untuk seleksi mundur. Dan seperti yang Anda baca, saya tidak melakukan seleksi mundur. Jika saya perlu memilih variabel, saya menggunakan metode yang tepat untuk itu. Saya tidak menyebutkan metode LASSO dan LAR yang dimaksud Peter Flom, tetapi mereka juga patut dicoba.
Joris Meys

@ Jon Mays: Misalkan saya memilih model dengan Mallows Cp terendah (yang memiliki variabel prediktor ). Kemudian saya menggunakan seleksi mundur untuk mendapatkan model lain (Dengan variabel prediktor ). Apakah saya hanya akan memilih satu dengan variabel paling sedikit jika tujuannya adalah kekikiran? xx-1
tom

2
@ FrankHarrell sedikit simulasi dapat membuktikan bahwa korelasi antara nilai-p (anggap Anda sedang berbicara tentang uji-F atau yang setara) dan AIC tidak ada (0,01 dalam simulasi saya). Jadi tidak, tidak ada hubungan antara nilai-P dan AIC. Sama untuk BIC dan Cp. Simulasi kecil lainnya juga akan membuktikan bahwa seseorang mendapatkan hasil yang sangat berbeda dalam prosedur bertahap tergantung pada kriteria yang Anda gunakan. Jadi tidak: Cp, AIC, BIC sama sekali bukan hanya transformasi nilai-P. Bahkan, jika melihat formula saya sama sekali tidak bisa menunjuk ke link atau transformasi matematika.
Joris Meys

1
@ FrankHarrell yang tidak berarti saya mendukung pro stepwise, sebaliknya. Tetapi pernyataan Anda setidaknya dirumuskan sedikit kuat.
Joris Meys

20

α=0,50


Pertanyaannya bukan tentang langkah bertahap, tetapi tentang memilih model terbaik di antara hasil pendekatan yang berbeda ...
Joris Meys

4
Saya sangat suka "kekikiran adalah musuhmu".
Peter Flom - Reinstate Monica

1
Terima kasih Peter. Joris - memilih dari beberapa pendekatan berbeda sedikit berbeda dari pemilihan bertahap, tetapi tidak banyak.
Frank Harrell

16

Menggunakan seleksi mundur atau maju adalah strategi yang umum, tetapi tidak satu pun yang bisa saya rekomendasikan. Hasil dari pembangunan model seperti itu semuanya salah. Nilai-p terlalu rendah, koefisien bias jauh dari 0, dan ada masalah terkait lainnya.

Jika Anda harus melakukan pemilihan variabel otomatis, saya akan merekomendasikan menggunakan metode yang lebih modern, seperti LASSO atau LAR.

Saya menulis presentasi SAS tentang ini, berjudul "Menghentikan Stepwise: Mengapa Stepwise dan Metode Serupa itu Buruk dan apa yang harus Anda Gunakan"

Tetapi, jika memungkinkan, saya akan menghindari metode otomatis ini sama sekali, dan mengandalkan keahlian subjek. Satu ide adalah menghasilkan 10 atau lebih model yang masuk akal, dan membandingkannya berdasarkan kriteria informasi. @Nick Sabbe mendaftar beberapa di antaranya dalam jawabannya.


2
+1 untuk referensi artikel. Meskipun saya tidak kode dalam SAS, saya membacanya beberapa bulan yang lalu dan menemukan itu menjadi perlakuan yang bagus, tingkat tinggi masalah ini.
Josh Hemann

11

Jawabannya akan sangat tergantung pada tujuan Anda. Anda mungkin mencari koefisien signifikan secara statistik, atau Anda mungkin keluar untuk menghindari kesalahan klasifikasi sebanyak mungkin saat memprediksi hasil untuk pengamatan baru, atau Anda mungkin hanya tertarik pada model dengan positif palsu paling sedikit; mungkin Anda hanya ingin kurva yang 'paling dekat' dengan data.

Dalam setiap kasus di atas, Anda perlu semacam ukuran untuk apa yang Anda cari. Beberapa tindakan populer dengan aplikasi yang berbeda adalah AUC, BIC, AIC, kesalahan residual, ...

Anda menghitung ukuran yang paling cocok dengan tujuan Anda untuk setiap model, dan kemudian membandingkan 'skor' untuk setiap model. Ini mengarah ke model terbaik untuk tujuan Anda.

Beberapa langkah-langkah ini (misalnya AIC) memberikan tekanan tambahan pada jumlah koefisien bukan nol dalam model, karena menggunakan terlalu banyak bisa jadi hanya overfitting data (sehingga model tidak berguna jika Anda menggunakannya untuk data baru, apalagi untuk populasi). Mungkin ada alasan lain untuk memerlukan model untuk menahan variabel 'sesedikit mungkin', misalnya jika cukup mahal untuk mengukur semuanya untuk prediksi. 'Kesederhanaan' atau 'sejumlah kecil variabel dalam' suatu model biasanya disebut sebagai kekikirannya.

Jadi singkatnya, model parsimoneous adalah model 'sederhana', tidak terlalu banyak variabel.

Seperti yang sering terjadi dengan pertanyaan-pertanyaan semacam ini, saya akan merujuk Anda ke buku Elemen Pembelajaran Statistik yang luar biasa untuk informasi lebih lanjut tentang subjek dan masalah terkait.


1
Buku bagus yang Anda rekomendasikan di sana. Satu lagi yang bisa saya rekomendasikan adalah Model Statistik Terapan Linier yang berisi beberapa bagian tentang kriteria pemilihan, pemilihan model dan perbandingan model.
Joris Meys

-1

Saya menemukan diskusi di sini menarik, terutama perdebatan antara Parsimonious dan Model dengan jumlah koefisien dan variabel yang lebih banyak.

Prof saya Terlambat Dr. Steve dulunya menekankan pada model pelit dengan R ^ 2 yang rendah dibandingkan dengan model lain yang lebih cocok / R ^ 2 besar.

Terima kasih untuk semua ikan di sini!

Akash

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.