Bayesian: "Halo, Machine Learner!"
Frequentist: "Halo, Machine Learner!"
Machine Learning: "Saya dengar kalian ahli dalam hal-hal. Berikut ini beberapa data."
F: "Ya, mari kita tulis model dan kemudian hitung MLE."
B: "Hei, F, bukan itu yang Anda katakan kemarin! Saya punya beberapa data univariat dan saya ingin memperkirakan varians, dan saya menghitung MLE. Kemudian Anda menerkam saya dan menyuruh saya untuk membagi dengan alih-alih oleh nn - 1n . "
F: "Ah ya, terima kasih sudah mengingatkan saya. Saya sering berpikir bahwa saya seharusnya menggunakan MLE untuk semuanya, tapi saya tertarik pada estimator yang tidak bias dan sebagainya."
ML: "Eh, filosofis apa ini? Apa itu membantu saya?"
F: "OK, estimator adalah kotak hitam, Anda memasukkan data dan memberi Anda beberapa angka. Kami sering tidak peduli tentang bagaimana kotak itu dibangun, tentang prinsip apa yang digunakan untuk mendesainnya. Misalnya, saya tidak tahu cara menurunkan aturan . "÷ ( n - 1 )
ML: "Jadi, peduli apa?"
F: "Evaluasi."
ML: "Saya suka suara itu."
F: "Kotak hitam adalah kotak hitam. Jika seseorang mengklaim penaksir tertentu adalah penaksir tidak bias untuk , maka kami mencoba banyak nilai θ pada gilirannya, menghasilkan banyak sampel dari masing-masing berdasarkan beberapa model yang diasumsikan, mendorong mereka melalui penaksir , dan temukan estimasi rata-rata θ . Jika kita dapat membuktikan bahwa estimasi yang diharapkan sama dengan nilai sebenarnya, untuk semua nilai, maka kita katakan itu tidak bias. "θθθ
ML: "Kedengarannya bagus! Kedengarannya sering bahwa orang pragmatis. Anda menilai setiap kotak hitam dari hasilnya. Evaluasi adalah kuncinya."
F: "Memang! Saya mengerti kalian mengambil pendekatan yang sama. Validasi silang, atau sesuatu? Tapi itu terdengar berantakan bagi saya."
ML: "Berantakan?"
F: "Gagasan menguji estimator Anda pada data nyata tampak berbahaya bagi saya. Data empiris yang Anda gunakan mungkin memiliki semua jenis masalah dengannya, dan mungkin tidak berperilaku sesuai dengan model yang kami setujui untuk evaluasi."
ML: "Apa? Saya pikir Anda mengatakan Anda telah membuktikan beberapa hasil? Bahwa penaksir Anda akan selalu tidak bias, untuk semua ."θ
F: "Ya. Walaupun metode Anda mungkin bekerja pada satu dataset (dataset dengan data kereta dan tes) yang Anda gunakan dalam evaluasi Anda, saya dapat membuktikan bahwa tambang saya akan selalu berfungsi."
ML: "Untuk semua dataset?"
F: "Tidak."
ML: "Jadi metode saya sudah divalidasi silang pada satu dataset. Anda belum mengetes milik Anda pada dataset nyata?"
F: "Benar."
ML: "Kalau begitu, saya yang memimpin! Metode saya lebih baik daripada metode Anda. Metode itu memprediksi kanker 90% setiap saat. 'Bukti' Anda hanya valid jika seluruh dataset berlaku sesuai dengan model yang Anda asumsikan."
F: "Emm, ya, saya kira."
ML: "Dan interval itu memiliki cakupan 95% . Tapi saya tidak heran kalau itu hanya berisi nilai yang benar 20% dari waktu?"θ
F: "Itu benar. Kecuali jika datanya benar-benar normal (atau apa pun), bukti saya tidak berguna."
ML: "Jadi evaluasi saya lebih dapat dipercaya dan komprehensif? Itu hanya bekerja pada dataset yang saya coba sejauh ini, tapi setidaknya itu set data nyata, kutil dan semua. Di sana Anda, mencoba untuk mengklaim Anda lebih konservatif 'dan' teliti 'dan Anda tertarik untuk memeriksa model dan hal-hal lainnya. "
B: (menyela) "Hai teman-teman, maaf mengganggu. Saya ingin melangkah dan menyeimbangkan semuanya, mungkin menunjukkan beberapa masalah lain, tapi saya benar-benar suka menonton rekan kerja saya yang sering menggeliat."
F: "Woah!"
ML: "Baik, anak-anak. Itu semua tentang evaluasi. Penduga adalah kotak hitam. Data masuk, data keluar. Kami menyetujui, atau tidak menyetujui, penduga berdasarkan bagaimana kinerjanya dalam evaluasi. Kami tidak peduli tentang 'resep' atau 'prinsip desain' yang digunakan. "
F: "Ya. Tetapi kami memiliki ide yang sangat berbeda tentang evaluasi mana yang penting. ML akan melakukan pelatihan-dan-uji pada data nyata. Sedangkan saya akan melakukan evaluasi yang lebih umum (karena melibatkan bukti yang berlaku luas) dan juga lebih terbatas (karena saya tidak tahu apakah dataset Anda sebenarnya diambil dari asumsi pemodelan yang saya gunakan saat merancang evaluasi saya.) "
ML: "Evaluasi apa yang kamu pakai, B?"
F: (menyela) "Hei. Jangan membuatku tertawa. Dia tidak mengevaluasi apa pun. Dia hanya menggunakan keyakinan subyektifnya dan menjalankannya. Atau sesuatu."
B: "Itulah interpretasi yang umum. Tetapi mungkin juga untuk mendefinisikan Bayesianisme dengan evaluasi yang disukai. Kemudian kita dapat menggunakan gagasan bahwa tidak ada di antara kita yang peduli pada kotak hitam, kita hanya peduli pada berbagai cara untuk mengevaluasi."
B melanjutkan: "Contoh klasik: Tes medis. Hasil tes darah adalah Positif atau Negatif. Seorang yang sering tertarik, dari orang-orang yang Sehat, berapa proporsi yang mendapatkan hasil Negatif. Dan juga, berapa proporsi orang yang sakit akan dapatkan Positif. Sering kali akan menghitung ini untuk setiap metode pengujian darah yang sedang dipertimbangkan dan kemudian merekomendasikan agar kami menggunakan tes yang mendapat skor skor terbaik. "
F: "Tepat sekali. Apa lagi yang Anda inginkan?"
B: "Bagaimana dengan orang-orang yang mendapat hasil tes Positif? Mereka ingin tahu 'orang-orang yang mendapatkan hasil Positif, berapa banyak yang akan Sakit?' dan 'dari mereka yang mendapatkan hasil Negatif, berapa banyak yang Sehat?' "
ML: "Ah ya, sepertinya itu pertanyaan yang lebih baik untuk ditanyakan."
F: "HERESY!"
B: "Ini dia lagi. Dia tidak suka ke mana arahnya."
ML: "Ini tentang 'prior', bukan?"
F: "EVIL".
B: "Ngomong-ngomong, ya, kamu benar ML. Untuk menghitung proporsi orang-orang yang berakibat positif yang sakit, kamu harus melakukan satu dari dua hal. Salah satu opsi adalah menjalankan tes pada banyak orang dan hanya mengamati proporsi yang relevan. Berapa banyak dari orang-orang yang mati karena penyakit, misalnya. "
ML: "Kedengarannya seperti apa yang saya lakukan. Gunakan latihan dan tes."
B: "Tetapi Anda dapat menghitung angka-angka ini di muka, jika Anda mau membuat asumsi tentang tingkat Penyakit dalam populasi. Orang sering juga membuat perhitungan terlebih dahulu, tetapi tanpa menggunakan tingkat Penyakit tingkat populasi ini."
F: "LEBIH BANYAK ASUMSI."
B: "Oh, tutup mulut. Sebelumnya, Anda ketahuan. ML menemukan bahwa Anda juga menyukai asumsi yang tidak berdasar seperti orang lain. Peluang cakupan 'terbukti' Anda tidak akan menumpuk di dunia nyata kecuali semua asumsi Anda berdiri. Mengapa asumsi saya sebelumnya sangat berbeda? Anda memanggil saya gila, namun Anda berpura-pura asumsi Anda adalah karya analisis konservatif, solid, bebas asumsi. "
B (lanjutan): "Ngomong-ngomong, ML, seperti yang saya katakan. Bayesian menyukai jenis evaluasi yang berbeda. Kami lebih tertarik mengkondisikan data yang diamati, dan menghitung akurasi penduga kami. Kami tidak dapat melakukan evaluasi ini tanpa menggunakan Tapi yang menarik adalah, begitu kita memutuskan bentuk evaluasi ini, dan begitu kita memilih sebelumnya, kita punya 'resep' otomatis untuk membuat penduga yang tepat. Seringkali orang itu tidak punya resep seperti itu. estimator yang tidak bias untuk model yang kompleks, ia tidak memiliki cara otomatis untuk membangun estimator yang sesuai. "
ML: "Dan ya? Anda bisa otomatis membuat estimator?"
B: "Ya. Saya tidak memiliki cara otomatis untuk membuat penaksir yang tidak bias, karena saya pikir bias adalah cara yang buruk untuk mengevaluasi penaksir. Tetapi mengingat estimasi bersyarat pada data yang saya sukai, dan sebelumnya, saya dapat menghubungkan prior dan kemungkinan memberi saya estimator. "
ML: "Jadi, mari kita rekap. Kita semua punya cara berbeda untuk mengevaluasi metode kita, dan kita mungkin tidak akan pernah sepakat tentang metode mana yang terbaik."
B: "Ya, itu tidak adil. Kita bisa mencampur dan mencocokkannya. Jika ada di antara kita yang memiliki data pelatihan yang berlabel bagus, kita mungkin harus mengujinya. Dan umumnya kita semua harus menguji sebanyak mungkin asumsi yang kita bisa. Dan beberapa sering "Bukti mungkin juga menyenangkan, memprediksi kinerja di bawah beberapa model yang diduga menghasilkan data."
F: "Ya teman-teman. Mari kita bersikap pragmatis tentang evaluasi. Dan sebenarnya, saya akan berhenti terobsesi pada properti sampel tak terbatas. Saya telah meminta para ilmuwan memberi saya sampel tak terbatas, tetapi mereka masih belum melakukannya. Ini saatnya bagi saya untuk fokus lagi pada sampel yang terbatas. "
ML: "Jadi, kami hanya punya satu pertanyaan terakhir. Kami banyak berdebat tentang cara mengevaluasi metode kami, tetapi bagaimana kami membuat metode kami."
B: "Ah. Seperti yang saya dapatkan sebelumnya, kami orang Bayesian memiliki metode umum yang lebih kuat. Mungkin rumit, tapi kami selalu bisa menulis semacam algoritma (mungkin bentuk naif MCMC) yang akan diambil dari posterior kami. "
F (menyela): "Tapi mungkin ada bias."
B: "Jadi, mungkin metode Anda. Perlu saya ingatkan Anda bahwa MLE sering bias? Kadang-kadang, Anda mengalami kesulitan besar dalam menemukan estimator yang tidak bias, dan bahkan ketika Anda melakukannya, Anda memiliki estimator bodoh (untuk beberapa model yang sangat kompleks) yang akan mengatakan varians negatif. Dan Anda menyebut itu tidak bias. Tidak dapat mengakomodasi, ya. Tetapi bermanfaat, tidak! "
ML: "Baik teman. Kamu mengomel lagi. Izinkan saya mengajukan pertanyaan, F. Apakah Anda pernah membandingkan bias metode Anda dengan bias metode B, ketika Anda berdua bekerja pada masalah yang sama?"
F: "Ya. Sebenarnya, saya benci mengakuinya, tetapi pendekatan B terkadang memiliki bias dan MSE yang lebih rendah daripada estimator saya!"
ML: "Pelajarannya di sini adalah, sementara kita sedikit tidak setuju pada evaluasi, tidak ada dari kita yang memonopoli cara membuat penduga yang memiliki properti yang kita inginkan."
B: "Ya, kita harus membaca karya masing-masing sedikit lebih banyak. Kita dapat memberikan inspirasi satu sama lain untuk penaksir. Kita mungkin menemukan bahwa penaksir lain bekerja dengan baik, out-of-the-box, pada masalah kita sendiri."
F: "Dan saya harus berhenti terobsesi tentang bias. Estimator yang tidak bias mungkin memiliki varian yang konyol. Saya kira kita semua harus 'mengambil tanggung jawab' atas pilihan yang kita buat dalam cara kita mengevaluasi dan properti yang ingin kita lihat dalam estimator kita. Kita tidak dapat berada di belakang filosofi. Cobalah semua evaluasi yang Anda bisa. Dan saya akan terus melihat-lihat literatur Bayesian untuk mendapatkan ide-ide baru untuk penduga! "
B: "Sebenarnya, banyak orang tidak benar-benar tahu apa filosofi mereka sendiri. Saya bahkan tidak yakin. Jika saya menggunakan resep Bayesian, dan kemudian membuktikan beberapa hasil teoretis yang bagus, bukankah itu berarti saya Saya adalah seorang frequentist? Seorang frequentist peduli dengan bukti-bukti di atas tentang kinerja, dia tidak peduli dengan resep. Dan jika saya melakukan beberapa tes dan kereta (atau juga), apakah itu berarti saya seorang pelajar mesin? "
ML: "Kelihatannya kita semua sangat mirip."