Apakah model saya bagus, berdasarkan nilai metrik diagnostik ( / AUC / akurasi / RMSE dll.)?


12

Saya telah memasang model saya dan berusaha memahami apakah itu bagus. Saya telah menghitung metrik yang disarankan untuk menilainya ( / AUC / akurasi / kesalahan prediksi / dll) tetapi tidak tahu bagaimana menafsirkannya. Singkatnya, bagaimana cara mengetahui apakah model saya bagus berdasarkan metrik? Apakah dari 0,6 (misalnya) cukup untuk memungkinkan saya melanjutkan untuk mengambil kesimpulan atau mengambil keputusan ilmiah / bisnis?R2R2


Pertanyaan ini sengaja luas, untuk mencakup berbagai situasi yang sering dihadapi anggota; pertanyaan seperti itu bisa ditutup sebagai duplikat dari pertanyaan ini. Suntingan untuk memperluas cakupan di luar metrik yang disebutkan di sini disambut baik, demikian pula dengan jawaban tambahan - terutama yang menawarkan wawasan tentang kelas metrik lainnya.


1
Terkait: Bagaimana mengetahui bahwa masalah pembelajaran mesin Anda tidak ada harapan? Seperti pada "Saya memiliki , apakah itu berarti saya tidak dapat memperbaikinya lebih jauh?" R2=0.6
Stephan Kolassa

2
Garis dasar untuk atau metrik bekas lainnya? Pergi dari ke bisa menjadi lompatan kinerja yang luar biasa dalam aplikasi tertentu. Ini persis bagaimana cara kerja publikasi yang masuk akal. Kami memiliki model yang diusulkan, kami memiliki serangkaian metrik yang diterima dengan baik, kami memiliki pengetahuan tentang "state-of-the-art" dan kami membandingkan kinerja. Dan itulah bagaimana kita tahu jika model kita bagus . R 2 = 0,03 R 2 = 0,05R2R2=0.03R2=0.05
usεr11852

Jawaban:


18

Jawaban ini sebagian besar akan fokus pada , tetapi sebagian besar logika ini meluas ke metrik lain seperti AUC dan sebagainya.R2

Pertanyaan ini hampir pasti tidak dapat dijawab dengan baik oleh pembaca di CrossValidated. Tidak ada cara bebas konteks untuk memutuskan apakah metrik model seperti baik atau tidakR2 . Pada ekstrem, biasanya memungkinkan untuk mendapatkan konsensus dari berbagai ahli: dari hampir 1 umumnya menunjukkan model yang baik, dan mendekati 0 menunjukkan yang mengerikan. Di antara terletak rentang di mana penilaian secara inheren subjektif. Dalam rentang ini, dibutuhkan lebih dari sekadar keahlian statistik untuk menjawab apakah metrik model Anda bagus. Dibutuhkan keahlian tambahan di bidang Anda, yang mungkin tidak dimiliki pembaca CrossValidated.R2

Kenapa ini? Izinkan saya mengilustrasikan dengan contoh dari pengalaman saya sendiri (detail kecil berubah).

Saya biasa melakukan percobaan laboratorium mikrobiologi. Saya akan membuat labu sel pada berbagai tingkat konsentrasi nutrisi, dan mengukur pertumbuhan kepadatan sel (yaitu kemiringan kepadatan sel terhadap waktu, meskipun detail ini tidak penting). Ketika saya kemudian memodelkan hubungan pertumbuhan / nutrisi ini, adalah umum untuk mencapai nilai > 0,90.R2

Saya sekarang seorang ilmuwan lingkungan. Saya bekerja dengan dataset yang berisi pengukuran dari alam. Jika saya mencoba menyesuaikan model yang sama persis seperti dijelaskan di atas untuk dataset 'lapangan' ini, saya akan terkejut jika saya setinggi 0,4.R2

Kedua case ini melibatkan parameter yang persis sama, dengan metode pengukuran yang sangat mirip, model yang ditulis dan dipasang menggunakan prosedur yang sama - dan bahkan orang yang sama melakukan pemasangan! Tetapi dalam satu kasus, dari 0,7 akan sangat rendah, dan dalam kasus lain akan curiga tinggi.R2

Selanjutnya, kami akan mengambil beberapa pengukuran kimia bersama dengan pengukuran biologis. Model untuk kurva standar kimia akan memiliki sekitar 0,99, dan nilai 0,90 akan sangat rendah .R2


Apa yang menyebabkan perbedaan besar dalam harapan? Konteks. Istilah yang tidak jelas itu mencakup area yang luas, jadi izinkan saya mencoba untuk memisahkannya menjadi beberapa faktor yang lebih spesifik (ini kemungkinan tidak lengkap):

1. Apa imbalan / konsekuensi / aplikasi?

Di sinilah sifat bidang Anda cenderung paling penting. Betapapun berharganya pekerjaan saya, meningkatkan model sebesar 0,1 atau 0,2 tidak akan merevolusi dunia. Tetapi ada aplikasi di mana besarnya perubahan akan menjadi masalah besar! Peningkatan yang jauh lebih kecil dalam model perkiraan saham dapat berarti puluhan juta dolar bagi perusahaan yang mengembangkannya.R2

Ini bahkan lebih mudah untuk diilustrasikan untuk pengklasifikasi, jadi saya akan mengalihkan diskusi metrik saya dari ke akurasi untuk contoh berikut (mengabaikan kelemahan metrik akurasi untuk saat ini). Pertimbangkan dunia seks ayam yang aneh dan menggiurkan . Setelah bertahun-tahun pelatihan, seorang manusia dapat dengan cepat mengetahui perbedaan antara anak ayam jantan dan betina ketika mereka baru berusia 1 hari. Jantan dan betina diberi makan berbeda untuk mengoptimalkan produksi daging & telur, sehingga akurasi tinggi menghemat jumlah besar dalam investasi yang salah dialokasikan dalam miliaranR2burung. Hingga beberapa dekade yang lalu, akurasi sekitar 85% dianggap tinggi di AS. Saat ini, nilai mencapai akurasi paling tinggi, sekitar 99%? Gaji yang tampaknya dapat berkisar antara 60.000 hingga mungkin 180.000 dolar per tahun (berdasarkan beberapa googling cepat). Karena manusia masih terbatas dalam kecepatan di mana mereka bekerja, algoritma pembelajaran mesin yang dapat mencapai akurasi yang sama tetapi memungkinkan penyortiran berlangsung lebih cepat bisa bernilai jutaan.

(Saya harap Anda menikmati contohnya - alternatifnya adalah yang menyedihkan tentang identifikasi algoritmik teroris yang sangat dipertanyakan).

2. Seberapa kuat pengaruh faktor unmodelled di sistem Anda?

Dalam banyak percobaan, Anda memiliki kemewahan untuk mengisolasi sistem dari semua faktor lain yang dapat mempengaruhinya (toh sebagiannya adalah tujuan dari eksperimen). Alam lebih berantakan. Untuk melanjutkan dengan contoh mikrobiologi sebelumnya: sel-sel tumbuh ketika nutrisi tersedia tetapi hal-hal lain juga memengaruhi mereka - seberapa panasnya, berapa banyak pemangsa yang memakannya, apakah ada racun di dalam air. Semua kandang itu dengan nutrisi dan satu sama lain dengan cara yang kompleks. Masing-masing faktor tersebut mendorong variasi dalam data yang tidak ditangkap oleh model Anda. Nutrisi mungkin tidak penting dalam mendorong variasi relatif terhadap faktor-faktor lain, dan jadi jika saya mengecualikan faktor-faktor lain, model saya dari data lapangan saya tentu akan memiliki lebih rendah .R2

3. Seberapa tepat dan akurat pengukuran Anda?

Mengukur konsentrasi sel dan bahan kimia bisa sangat tepat dan akurat. Mengukur (misalnya) keadaan emosi komunitas berdasarkan tren tagar twitter cenderung… kurang begitu. Jika Anda tidak bisa tepat dalam pengukuran Anda, kemungkinan model Anda tidak akan pernah mencapai . Seberapa akurat pengukuran di bidang Anda? Kita mungkin tidak tahu.R2

4. Model kompleksitas dan generalisasi

Jika Anda menambahkan lebih banyak faktor ke model Anda, bahkan yang acak, Anda rata-rata akan meningkatkan model (penyesuaian sebagian membahas ini). Ini overfitting . Model pakaian berlebih tidak akan digeneralisasikan dengan baik ke data baru yaitu akan memiliki kesalahan prediksi yang lebih tinggi dari yang diharapkan berdasarkan kesesuaian dengan dataset asli (pelatihan). Ini karena sudah sesuai dengan noise pada dataset asli. Ini adalah sebagian alasan mengapa model dihukum karena kompleksitas dalam prosedur pemilihan model, atau mengalami regularisasi.R2R2

Jika overfitting diabaikan atau tidak berhasil dicegah, estimasi akan bias ke atas yaitu lebih tinggi dari yang seharusnya. Dengan kata lain, nilai dapat memberi Anda kesan yang menyesatkan tentang kinerja model Anda jika itu berlebihan.R2R2

IMO, overfitting sangat umum terjadi di banyak bidang. Cara terbaik untuk menghindari ini adalah topik yang kompleks, dan saya sarankan membaca tentang prosedur regularisasi dan pemilihan model di situs ini jika Anda tertarik.

5. Rentang data dan ekstrapolasi

Apakah dataset Anda menjangkau sebagian besar rentang nilai X yang Anda minati? Menambahkan titik data baru di luar rentang data yang ada dapat memiliki efek besar pada perkiraan , karena ini adalah metrik berdasarkan varians dalam X dan Y.R2

Selain itu, jika Anda mencocokkan suatu model dengan dataset dan perlu memperkirakan nilai di luar rentang X dari dataset tersebut (yaitu ekstrapolasi ), Anda mungkin menemukan bahwa kinerjanya lebih rendah dari yang Anda harapkan. Ini karena hubungan yang Anda perkirakan mungkin akan berubah di luar rentang data yang Anda pasang. Pada gambar di bawah ini, jika Anda melakukan pengukuran hanya dalam kisaran yang ditunjukkan oleh kotak hijau, Anda mungkin membayangkan bahwa garis lurus (merah) menggambarkan data dengan baik. Tetapi jika Anda mencoba memprediksi nilai di luar rentang itu dengan garis merah itu, Anda akan salah besar.

masukkan deskripsi gambar di sini

[Angka tersebut adalah versi yang diedit dari ini , ditemukan melalui pencarian google cepat untuk 'kurva Monod'.]

6. Metrik hanya memberi Anda sepotong gambar

Ini sebenarnya bukan kritik terhadap metrik - itu adalah ringkasan , yang berarti mereka juga membuang informasi dengan desain. Tetapi ini berarti bahwa setiap metrik tunggal mengabaikan informasi yang dapat menjadi penting untuk interpretasinya. Analisis yang baik mempertimbangkan lebih dari satu metrik tunggal.


Saran, koreksi, dan umpan balik lainnya diterima. Dan jawaban lain juga, tentu saja.


3
Satu hal yang perlu ditambahkan pada postingan yang luar biasa ini adalah bahwa adalah tentang membandingkan varian yang dijelaskan dan yang tidak dapat dijelaskan. rendah dapat mengindikasikan masalah dengan model, namun itu juga dapat menunjukkan bahwa variabel prediktif apa pun yang tersedia tidak benar-benar menjelaskan banyak variasi dalam data. Dalam kasus terakhir, modelnya mungkin buruk dalam arti "mutlak" seperti akurasi prediksi, tetapi bagus dalam arti tidak ada yang lebih baik, setidaknya tidak dengan data yang tersedia. R 2R2R2
Lewian

@Lewian Terima kasih atas umpan baliknya. Saya pikir saya sudah membahas poin 2 & 3, tetapi saya melihat bahwa itu dapat ditingkatkan. Saya akan memikirkan cara menjelaskan hal itu dengan lebih jelas.
mkt - Pasang kembali Monica

1
Ya, saya memikirkan apakah ini sudah dibahas. Masalahnya dengan 2 dan 3 adalah bahwa mereka memberikan alasan spesifik mengapa ini bisa terjadi, namun itu adalah masalah umum.
Lewian

@Lewian Setuju, saya akan memikirkan itu.
mkt - Pasang kembali Monica

2

Masalah ini muncul di bidang hidrologi saya ketika menilai seberapa baik model memprediksi aliran dari data curah hujan dan iklim. Beberapa peneliti ( Chiew dan McMahon, 1993 ) mensurvei 93 ahli hidrologi, (63 menjawab) untuk mengetahui plot diagnostik dan statistik kecocokan yang mereka gunakan, yang paling penting, dan bagaimana mereka digunakan untuk mengklasifikasikan kualitas model yang sesuai. . Hasilnya sekarang sudah tua tetapi pendekatannya mungkin masih menarik. Mereka mempresentasikan hasil kecocokan model dari berbagai kualitas dan meminta ahli hidrologi untuk mengklasifikasikannya menjadi 4 kategori (1) hasil yang dapat diterima; (2) dapat diterima tetapi digunakan dengan reservasi; (3) tidak dapat diterima, gunakan hanya jika tidak ada alternatif lain; dan (4) tidak pernah menggunakan dalam kondisi apa pun.

Grafik diagnostik yang paling penting adalah plot timeseries dan plot pencar aliran yang disimulasikan dan direkam dari data yang digunakan untuk kalibrasi. Koefisien efisiensi model (E) kuadrat dan Nash-Sutcliffe adalah statistik kesesuaian yang baik. Misalnya, hasil dianggap dapat diterima jika E => 0,8

Ada contoh lain dalam literatur. Ketika menilai model ekosistem di Laut Utara, kategorisasi berikut digunakan E> 0,65 unggul, 0,5 hingga 0,65 sangat baik, 0,2 hingga 0,5 baik, dan <0,2 miskin ( Allen et al., 2007 ).

Moriasi et al., (2015) menyediakan tabel nilai yang dapat diterima untuk metrik untuk berbagai jenis model.

Saya telah merangkum informasi dan referensi ini dalam posting blog .

Allen, J., P. Somerfield, dan F. Gilbert (2007), Mengukur ketidakpastian dalam model ekosistem hidrodinamik berpasangan beresolusi tinggi, J. Mar. Syst., 64 (1-4), 3–14, 3–14, doi: 10.1016 /j.jmarsys.2006.02.010.

Moriasi, D., Gitau, M. Pai, N. dan Daggupati, P. (2015) Model Hidrologi dan Kualitas Air: Pengukuran Kinerja dan Kriteria Evaluasi Transaksi dari ASABE (Masyarakat Amerika dari Insinyur Pertanian dan Biologis) 58 (6): 1763-1785


0

Sekadar menambah jawaban hebat di atas - dalam pengalaman saya, metrik evaluasi dan alat diagnostik sama bagus dan jujurnya dengan orang yang menggunakannya. Artinya, jika Anda memahami matematika di belakangnya, maka Anda kemungkinan dapat meningkatkannya secara artifisial untuk membuat model Anda tampak lebih baik tanpa meningkatkan utilitas sebenarnya.

R2=0.03R2=0.05

Saya akan membuat jawaban ini singkat karena di atas melakukan pekerjaan yang hebat memberikan penjelasan / referensi. Saya hanya ingin menambahkan beberapa perspektif pada bagian 6. Metrik hanya memberi Anda sepotong gambar dengan jawaban mkt.

Semoga ini membantu.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.