Bagaimana prinsip Razor Occam bekerja dalam pembelajaran mesin


11

Pertanyaan berikut yang ditampilkan pada gambar diajukan pada salah satu ujian baru-baru ini. Saya tidak yakin apakah saya benar memahami prinsip Pisau Cukur Occam atau tidak. Menurut distribusi dan batas keputusan yang diberikan dalam pertanyaan dan mengikuti Occam's Razor, batas keputusan B dalam kedua kasus harus menjadi jawabannya. Karena sesuai Occam's Razor, pilih classifier yang lebih sederhana yang melakukan pekerjaan yang layak daripada yang rumit.

Bisakah seseorang memberi kesaksian jika pemahaman saya benar dan jawaban yang dipilih sesuai atau tidak? Tolong bantu karena saya hanya pemula dalam pembelajaran mesin

pertanyaan


2
3.328 "Jika sebuah tanda tidak diperlukan maka itu tidak ada artinya. Itu adalah arti dari Pisau Cukur Occam." From the Tractatus Logico-Philosophicus oleh Wittgenstein
Jorge Barrios

Jawaban:


13

Prinsip pisau cukur Occam:

Memiliki dua hipotesis (di sini, batas keputusan) yang memiliki risiko empiris yang sama (di sini, kesalahan pelatihan), penjelasan singkat (di sini, batas dengan parameter lebih sedikit) cenderung lebih valid daripada penjelasan panjang.

Dalam contoh Anda, A dan B memiliki kesalahan pelatihan nol, sehingga B (penjelasan lebih pendek) lebih disukai.

Bagaimana jika kesalahan pelatihan tidak sama?

Jika batas A memiliki kesalahan pelatihan lebih kecil dari B, memilih menjadi rumit. Kita perlu mengukur "ukuran penjelasan" sama dengan "risiko empiris" dan menggabungkan fungsi penilaian dua dalam satu, kemudian melanjutkan untuk membandingkan A dan B. Contohnya adalah Akaike Information Criterion (AIC) yang menggabungkan risiko empiris (diukur dengan negatif log-likelihood) dan ukuran penjelasan (diukur dengan jumlah parameter) dalam satu skor.

Sebagai catatan, AIC tidak dapat digunakan untuk semua model, ada banyak alternatif untuk AIC juga.

Relasi dengan set validasi

Dalam banyak kasus praktis, ketika model berkembang menjadi lebih kompleks (penjelasan lebih besar) untuk mencapai kesalahan pelatihan yang lebih rendah, AIC dan sejenisnya dapat diganti dengan set validasi (set di mana model tidak dilatih). Kami menghentikan progres ketika kesalahan validasi (kesalahan model pada set validasi) mulai meningkat. Dengan cara ini, kami menemukan keseimbangan antara kesalahan pelatihan yang rendah dan penjelasan singkat.


3

Occam Razor hanyalah sinonim dari kepala sekolah Parsimony. (KISS, Tetap sederhana dan bodoh.) Kebanyakan algo bekerja di prinsipal ini.

Dalam pertanyaan di atas kita harus berpikir dalam merancang batas-batas sederhana yang dapat dipisahkan,

seperti pada gambar pertama, jawaban D1 adalah B. Karena ia mendefinisikan garis terbaik yang memisahkan 2 sampel, sebagai a jumlahnya banyak dan mungkin berakhir pada over-fitting. (jika saya akan menggunakan SVM baris itu akan datang)

sama pada gambar 2 jawaban D2 adalah B.


2

Pisau cukur Occam dalam tugas pemasangan data:

  1. Pertama coba persamaan linear
  2. Jika (1) tidak banyak membantu - pilih yang non-linear dengan istilah yang lebih sedikit dan / atau variabel yang lebih kecil.

D2

Bjelas menang, karena itu adalah batas linear yang memisahkan data dengan baik. (Apa itu "baik" saya saat ini tidak dapat mendefinisikan. Anda harus mengembangkan perasaan ini dengan pengalaman). Abatas sangat non-linear yang tampak seperti gelombang sinus gugup.

D1

Namun saya tidak yakin dengan yang ini. Abatas seperti lingkaran dan Blinier. IMHO, bagi saya - garis batas bukanlah segmen lingkaran atau segmen garis, - itu kurva seperti parabola:

masukkan deskripsi gambar di sini

Jadi saya memilih C:-)


Saya masih tidak yakin mengapa Anda ingin garis di antara D1. Razor Occam mengatakan untuk menggunakan solusi sederhana yang berfungsi. Tidak ada lebih banyak data, B adalah divisi yang benar-benar valid yang sesuai dengan data. Jika kami menerima lebih banyak data yang menunjukkan lebih banyak kurva ke set data B maka saya bisa melihat argumen Anda, tetapi meminta C bertentangan dengan poin Anda (1), karena itu adalah batas linear yang berfungsi.
Delioth

Karena ada banyak ruang kosong dari Bgaris ke arah sekelompok titik melingkar kiri. Ini berarti bahwa setiap titik acak baru yang tiba memiliki peluang yang sangat tinggi ditugaskan ke cluster sirkular di sebelah kiri dan peluang yang sangat kecil untuk ditugaskan ke cluster di sebelah kanan. Dengan demikian, Bgaris bukanlah batas optimal dalam hal titik acak baru di pesawat. Dan Anda tidak dapat mengabaikan keacakan data, karena biasanya selalu ada perpindahan titik secara acak
Agnius Vasiliauskas

0

Saya tidak yakin apakah saya benar memahami prinsip Pisau Cukur Occam atau tidak.

Pertama-tama mari kita membahas pisau cukur Occam:

Pisau cukur Occam [..] menyatakan bahwa "solusi yang lebih sederhana lebih mungkin benar daripada yang kompleks." - Wiki

Selanjutnya, mari kita jawab jawaban Anda:

Karena sesuai Occam's Razor, pilih classifier yang lebih sederhana yang melakukan pekerjaan yang layak daripada yang rumit.

Ini benar karena, dalam pembelajaran mesin, overfitting adalah masalah. Jika Anda memilih model yang lebih kompleks, Anda lebih cenderung mengklasifikasikan data pengujian dan bukan perilaku sebenarnya dari masalah Anda. Ini berarti bahwa, ketika Anda menggunakan classifier kompleks Anda untuk membuat prediksi pada data baru, itu lebih cenderung lebih buruk daripada classifier sederhana.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.