Cerita:
Nenek saya berjalan, tetapi tidak memanjat. Beberapa nenek melakukannya. Seorang nenek terkenal karena mendaki Kilimanjaro .
Gunung berapi aktif itu besar. Ini adalah 16.000 kaki di atas pangkalannya. (Jangan benci unit kekaisaran saya.) Terkadang juga ada gletser di atasnya.
Jika Anda naik pada tahun di mana tidak ada gletser, dan Anda sampai di puncak, apakah itu sama dengan jika ada gletser? Ketinggiannya berbeda. Jalan yang harus Anda ambil berbeda. Bagaimana jika Anda pergi ke atas ketika ketebalan gletser lebih besar? Apakah itu membuatnya lebih dari sebuah pencapaian? Sekitar 35.000 orang berusaha mendaki setiap tahun, tetapi hanya sekitar 16.000 yang berhasil.
Aplikasi:
Jadi saya akan menjelaskan kontrol bobot (alias meminimalkan kompleksitas model) kepada nenek saya, sebagai berikut:
Nenek, otak Anda adalah pemikir yang luar biasa, baik Anda mengetahuinya atau tidak. Jika saya bertanya kepada Anda berapa banyak dari 16.000 yang berpikir bahwa mereka mencapai puncak benar-benar melakukannya, Anda akan mengatakan "mereka semua".
Jika saya menempatkan sensor pada sepatu dari semua 30.000 pendaki, dan mengukur ketinggian di atas permukaan laut, maka beberapa dari orang-orang itu tidak setinggi yang lain, dan mungkin tidak memenuhi syarat. Ketika saya melakukan itu saya akan ke model konstan - saya katakan jika tinggi tidak sama dengan beberapa persentil dari ketinggian max yang diukur maka itu bukan bagian atas. Beberapa orang melompat di atas. Beberapa orang hanya melewati batas dan duduk.
Saya bisa menambahkan garis lintang dan bujur ke sensor, dan cocok dengan beberapa persamaan urutan yang lebih tinggi dan mungkin saya bisa mendapatkan yang lebih baik, dan memiliki lebih banyak orang, bahkan mungkin persis 45% dari total orang yang mencobanya.
Jadi katakanlah tahun depan adalah tahun "gletser besar" atau tahun "tidak gletser" karena beberapa gunung berapi benar-benar mengubah albedo bumi. Jika saya mengambil model saya yang rumit dan rumit dari tahun ini dan menerapkannya pada orang-orang yang naik tahun depan, model ini akan memiliki hasil yang aneh. Mungkin semua orang akan "lulus" atau bahkan terlalu tinggi untuk lulus. Mungkin tidak ada yang akan lulus, dan akan berpikir tidak ada yang benar-benar menyelesaikan pendakian. Terutama ketika modelnya kompleks, ia cenderung tidak menggeneralisasi dengan baik. Ini mungkin cocok dengan data "pelatihan" tahun ini, tetapi ketika data baru datang itu berperilaku buruk.
Diskusi:
Ketika Anda membatasi kompleksitas model, maka Anda biasanya dapat memiliki generalisasi yang lebih baik tanpa pemasangan berlebihan. Menggunakan model-model yang lebih sederhana, model yang lebih dibangun untuk mengakomodasi variasi dunia nyata, cenderung memberikan hasil yang lebih baik, semuanya setara.
Sekarang Anda memiliki topologi jaringan tetap, jadi Anda mengatakan "jumlah parameter saya sudah diperbaiki" - Saya tidak dapat memiliki variasi dalam kompleksitas model. Omong kosong. Ukur entropi dalam bobot. Ketika entropi lebih tinggi, itu berarti beberapa koefisien membawa lebih banyak "keinformatifan" daripada yang lain. Jika Anda memiliki entropi yang sangat rendah, itu berarti bahwa secara umum koefisien memiliki tingkat "keinformatifan" yang serupa. Informativeness tidak selalu merupakan hal yang baik. Dalam demokrasi Anda ingin semua orang sama, dan hal-hal seperti George Orwell "lebih setara daripada yang lain" adalah ukuran kegagalan sistem. Jika Anda tidak memiliki alasan yang bagus untuk itu, Anda ingin beban cukup mirip satu sama lain.
Pada catatan pribadi: daripada menggunakan voodoo atau heuristik, saya lebih suka hal-hal seperti "kriteria informasi" karena mereka memungkinkan saya untuk mendapatkan hasil yang dapat diandalkan dan konsisten. AIC , AICc , dan BIC adalah beberapa titik awal yang umum dan bermanfaat. Mengulangi analisis untuk menentukan stabilitas solusi, atau rentang hasil kriteria informasi adalah pendekatan umum. Orang mungkin melihat meletakkan langit-langit di entropi di beban.