Model fleksibel dan tidak fleksibel dalam pembelajaran mesin

10

Saya menemukan pertanyaan sederhana tentang membandingkan model yang fleksibel (yaitu splines) vs model yang tidak fleksibel (misalnya regresi linier) di bawah skenario yang berbeda. Pertanyaannya adalah:

Secara umum, apakah kita mengharapkan kinerja metode pembelajaran statistik yang fleksibel untuk melakukan lebih baik atau lebih buruk daripada metode yang tidak fleksibel ketika:

Jumlah prediktor sangat besar, dan jumlah pengamatan kecil? $p$ $n$
Varian dari istilah kesalahan, yaitu $σ^2 = \text{Var}(e)$ , sangat tinggi?

Saya pikir untuk (1), ketika $n$ kecil, model tidak fleksibel lebih baik (tidak yakin). Untuk (2), saya tidak tahu model mana yang (relatif) lebih baik.

machine-learning model

— alittleboy
sumber

Kesalahan generalisasi jauh dari sepele. Sayangnya aturan praktis tidak banyak membantu dalam hal ini.

— Marc Claesen

8

Sepertinya ini dari James, Witten, Hastie, Pengantar Tibshirani untuk Pembelajaran Statistik

— Noel Evans

1. Metode yang fleksibel akan menutupi sejumlah kecil pengamatan. 2. Metode yang fleksibel cocok dengan kebisingan dalam istilah kesalahan dan meningkatkan varians.

— Zanark

3

Dalam 2 situasi ini, kinerja komparatif model fleksibel vs tidak fleksibel juga tergantung pada:

adalah hubungan yang benar y = f (x) dekat dengan linier atau sangat non-linier;
apakah Anda menyetel / membatasi tingkat fleksibilitas model "fleksibel" saat memasangnya.

Jika hubungan dekat dengan linier dan Anda tidak membatasi fleksibilitas, maka model linier harus memberikan kesalahan pengujian yang lebih baik dalam kedua kasus karena model fleksibel cenderung cocok dalam kedua kasus.

Anda dapat melihatnya seperti itu:

Dalam kedua kasus, data tidak berisi informasi yang cukup tentang hubungan yang benar (dalam kasus pertama hubungan adalah dimensi tinggi dan Anda tidak memiliki cukup data, dalam kasus kedua itu rusak oleh noise) tetapi
- model linear membawa beberapa informasi eksternal sebelumnya tentang hubungan yang benar (membatasi kelas hubungan yang dipasang ke yang linier) dan
- bahwa info sebelumnya ternyata benar (hubungan yang sebenarnya dekat dengan linear).
Sementara model fleksibel tidak mengandung informasi sebelumnya (bisa muat apa saja), sehingga cocok dengan kebisingan.

Namun, jika hubungan yang sebenarnya sangat tidak linier, sulit untuk mengatakan siapa yang akan menang (keduanya akan kalah :)).

Jika Anda menyetel / membatasi tingkat fleksibilitas dan melakukannya dengan cara yang benar (misalnya dengan validasi silang), maka model fleksibel harus menang dalam semua kasus.

— Kochede
sumber

4

Tentu saja itu tergantung pada data yang mendasarinya yang harus selalu Anda jelajahi untuk mengetahui beberapa karakteristiknya sebelum mencoba menyesuaikan model, tetapi apa yang saya pelajari sebagai aturan umum adalah:

Model yang fleksibel memungkinkan Anda untuk mengambil keuntungan penuh dari ukuran sampel besar (besar n).
Model yang fleksibel diperlukan untuk menemukan efek nonlinear.
Model yang fleksibel akan menyebabkan Anda terlalu banyak memasukkan noise dalam masalah (ketika varians dari istilah kesalahan tinggi).

— Paul PM
sumber

1

Nah, untuk bagian kedua, saya pikir model yang lebih fleksibel akan mencoba menyesuaikan model keras dan data pelatihan mengandung noise yang tinggi, jadi model yang fleksibel juga akan mencoba mempelajari noise itu dan akan menghasilkan lebih banyak kesalahan pengujian. Saya tahu sumber pertanyaan ini karena saya juga membaca buku yang sama :)

— lovekesh
sumber

1

Untuk bagian pertama, saya berharap model yang tidak fleksibel akan tampil lebih baik dengan sejumlah pengamatan terbatas. Ketika n sangat kecil, kedua model (apakah fleksibel atau tidak fleksibel) tidak akan menghasilkan prediksi yang cukup baik. Namun, model yang fleksibel akan cenderung menyesuaikan data dan akan berkinerja lebih buruk ketika datang ke testset baru.

Idealnya, saya akan mengumpulkan lebih banyak pengamatan untuk meningkatkan pemasangan, tetapi jika itu tidak terjadi, maka saya akan menggunakan model yang tidak fleksibel, mencoba untuk meminimalkan kesalahan pengujian dengan testset baru.

— pengguna40935
sumber

0

Untuk pertanyaan kedua saya yakin jawabannya adalah keduanya akan bekerja sama (dengan asumsi bahwa kesalahan tersebut tidak dapat direduksi, yaitu, kesalahan ini). Informasi lebih lanjut disediakan dalam Pengantar Pembelajaran Statistik pada halaman 18 (topik: Mengapa memperkirakan ) di mana penulis menjelaskan perkataan $f$

Keakuratan sebagai prediksi untuk tergantung pada dua kuantitas, yang akan kita sebut kesalahan yang dapat direduksi dan kesalahan yang tidak dapat direduksi . Secara umum, tidak akan menjadi estimasi yang sempurna untuk , dan ketidaktepatan ini akan menyebabkan beberapa kesalahan. Kesalahan ini dapat direduksi karena kita berpotensi dapat meningkatkan akurasi dengan menggunakan teknik pembelajaran statistik yang paling tepat untuk memperkirakan . Namun, bahkan jika itu mungkin untuk membentuk perkiraan yang sempurna untuk , sehingga perkiraan tanggapan kami mengambil bentuk $Y$ $Y$ $\hat f$ $f$ $\hat f$ $\hat f$ $f$ $\hat Y = f(X)$ , prediksi kami masih memiliki beberapa kesalahan di dalamnya! Hal ini karena juga merupakan fungsi dari , yang, menurut definisi, tidak dapat diprediksi menggunakan . Oleh karena itu, variabilitas yang terkait dengan juga memengaruhi keakuratan prediksi kami. Ini dikenal sebagai kesalahan yang tidak dapat direduksi , karena tidak peduli seberapa baik kami memperkirakan , kami tidak dapat mengurangi kesalahan yang diperkenalkan oleh . $Y$ $\epsilon$ $X$ $\epsilon$ $f$ $\epsilon$

— ants.in.my.eyes
sumber

Saya tidak mengerti ini.

— Michael R. Chernick

0

Untuk setiap bagian (a) hingga (d), tentukan apakah saya. atau ii. benar, dan jelaskan jawaban Anda. Secara umum, apakah kita mengharapkan kinerja metode pembelajaran statistik yang fleksibel untuk melakukan lebih baik atau lebih buruk daripada metode yang tidak fleksibel ketika:

Ukuran sampel n sangat besar, dan jumlah prediktor p kecil?

Lebih baik. Metode yang fleksibel akan menyesuaikan data lebih dekat dan dengan ukuran sampel yang besar, akan tampil lebih baik daripada pendekatan yang tidak fleksibel.

Jumlah prediktor p sangat besar, dan jumlah pengamatan n kecil?

Lebih buruk. Metode yang fleksibel akan menutupi sejumlah kecil pengamatan.

Hubungan antara prediktor dan responsnya sangat non-linear?

Lebih baik. Dengan lebih banyak derajat kebebasan, metode yang fleksibel akan cocok lebih baik daripada yang tidak fleksibel.

Varian dari istilah kesalahan, yaitu σ2 = Var (ε), sangat tinggi?

Lebih buruk. Metode yang fleksibel akan cocok dengan kebisingan dalam istilah kesalahan dan meningkatkan varians.

Diambil dari sini .

— Harvey
sumber