Mengapa beberapa jenis model dapat memberikan hasil yang hampir identik?

10

Saya telah menganalisis satu set data ~ 400k catatan dan 9 variabel. Variabel dependen adalah biner. Saya telah memasang regresi logistik, pohon regresi, hutan acak, dan gradien yang didorong pohon. Semuanya memberikan angka cocok virtual yang identik ketika saya memvalidasinya pada set data lain.

Kenapa begitu? Saya menduga itu karena pengamatan saya terhadap rasio variabel sangat tinggi. Jika ini benar, pada pengamatan apa rasio variabel akan model yang berbeda mulai memberikan hasil yang berbeda?

data-mining classification binary

— JenSCDC
sumber

7

Hasil ini berarti bahwa apa pun metode yang Anda gunakan, Anda dapat mendekati aturan keputusan yang optimal (alias aturan Bayes ). Alasan yang mendasari telah dijelaskan dalam Hastie, Tibshirani dan Friedman "Elemen Pembelajaran Statistik" . Mereka menunjukkan bagaimana metode yang berbeda dilakukan dengan membandingkan Gambar. 2.1, 2.2, 2.3, 5.11 (dalam edisi pertama saya - di bagian splines multidimensi), 12.2, 12.3 (mendukung mesin vektor), dan mungkin beberapa lainnya. Jika Anda belum membaca buku itu, Anda harus menyerahkan semuanya SEKARANG JUGA dan membacanya. (Maksud saya, tidak layak kehilangan pekerjaan Anda, tetapi layak kehilangan satu atau dua pekerjaan rumah jika Anda seorang siswa.)

Saya tidak berpikir bahwa pengamatan terhadap rasio variabel adalah penjelasan. Mengingat alasan saya yang ditawarkan di atas, itu adalah bentuk batas yang relatif sederhana yang memisahkan kelas Anda dalam ruang multidimensi yang dapat diidentifikasi oleh semua metode yang Anda coba.

— Tugas
sumber

Saya akan bertanya kepada bos saya apakah saya dapat meminta perusahaan membayarnya.

— JenSCDC

1

ESL 'gratis' sebagai pdf dari beranda mereka ... juga layak diunduh adalah ISL (oleh banyak penulis yang sama) - lebih praktis www-bcf.usc.edu/~gareth/ISL

— seanv507

4

nilainya juga melihat kesalahan pelatihan.

pada dasarnya saya tidak setuju dengan analisis Anda. jika regresi logistik dll semuanya memberikan hasil yang sama itu akan menunjukkan bahwa 'model terbaik' adalah yang sangat sederhana (bahwa semua model dapat cocok dengan baik - misalnya pada dasarnya linier).

Jadi, pertanyaannya mungkin mengapa model terbaik adalah model sederhana ?: Ini mungkin menunjukkan bahwa variabel Anda tidak terlalu prediktif. Tentu saja sulit untuk menganalisis tanpa mengetahui data.

— seanv507
sumber

1

Seperti yang disarankan @ seanv507, kinerja yang sama mungkin semata-mata karena data dipisahkan oleh model linier. Tetapi secara umum, pernyataan bahwa itu karena "rasio pengamatan terhadap variabel sangat tinggi" tidak benar. Bahkan ketika rasio ukuran sampel Anda dengan jumlah variabel mencapai tak terhingga, Anda seharusnya tidak mengharapkan model yang berbeda untuk melakukan hampir identik, kecuali mereka semua memberikan bias prediksi yang sama.

— bogatron
sumber

Saya baru saja mengedit pertanyaan saya untuk menambahkan bahwa variabel dependen adalah biner. Oleh karena itu, model linier tidak cocok.

— JenSCDC

"Anda seharusnya tidak mengharapkan model yang berbeda untuk melakukan hampir identik, kecuali mereka semua memberikan bias prediksi yang sama." Saya menggunakan MAE dan rasio hasil aktual dan yang diprediksi sebagai langkah validasi dan rasio sangat dekat.

— JenSCDC

1

Andy, saya akan memasukkan regresi logistik (dan linear SVM) sebagai model 'linier'. Mereka semua hanya memisahkan data dengan jumlah input yang tertimbang.

— seanv507

1

@ seanv507 Persis - batas keputusan masih linier. Fakta bahwa klasifikasi biner sedang dilakukan tidak mengubah itu.

— bogatron

Bagaimana dengan pohon? Mereka benar-benar tidak linear bagi saya.

— JenSCDC

0

Saya menduga itu karena pengamatan saya terhadap rasio variabel sangat tinggi.

Saya pikir penjelasan ini masuk akal.

Jika ini benar, pada pengamatan apa rasio variabel akan model yang berbeda mulai memberikan hasil yang berbeda?

Ini mungkin akan sangat tergantung pada data spesifik Anda (misalnya, bahkan apakah sembilan variabel Anda kontinu, faktor, biasa atau biner), serta keputusan tuning yang Anda buat saat menyesuaikan model Anda.

Tapi Anda bisa bermain-main dengan rasio observasi-ke-variabel - bukan dengan meningkatkan jumlah variabel, tetapi dengan mengurangi jumlah pengamatan. Secara acak gambar 100 pengamatan, sesuaikan model dan lihat apakah model yang berbeda menghasilkan hasil yang berbeda. (Saya rasa mereka akan melakukannya.) Lakukan ini beberapa kali dengan sampel berbeda yang diambil dari jumlah total pengamatan Anda. Kemudian lihat sub-contoh 1.000 pengamatan ... 10.000 pengamatan ... dan sebagainya.

— Stephan Kolassa
sumber

1

Hm kenapa begitu? lebih banyak pengamatan tampaknya meningkatkan peluang bahwa batas keputusan lebih kompleks - yaitu jelas tidak linier. Dan model-model ini melakukan hal-hal yang berbeda dalam kasus-kasus kompleks, dan cenderung melakukan hal yang sama dalam kasus-kasus sederhana.

— Sean Owen

@SeanOwen: Saya pikir saya tidak mengerti komentar Anda. Bagian mana dari jawaban saya yang mengacu pada "mengapa itu"? OP tidak mengatakan apa-apa tentang menggunakan batas keputusan linier - setelah semua, ia mungkin dengan mengubah prediktor dalam beberapa cara.

— Stephan Kolassa

Mengapa lebih banyak pengamatan membuat pengklasifikasi yang berbeda memberikan keputusan yang lebih mirip? intuisi saya adalah sebaliknya. Ya, saya tidak memikirkan batas keputusan linear saja. Semakin kompleks batas optimal semakin kecil kemungkinan mereka akan cocok dengan sesuatu yang serupa dengan batas itu. Dan batasnya cenderung lebih kompleks dengan lebih banyak pengamatan.

— Sean Owen