menafsirkan sumbu y dari plot ketergantungan parsial


22

Saya telah membaca topik-topik lain tentang plot ketergantungan parsial dan kebanyakan dari mereka adalah bagaimana Anda benar-benar merencanakannya dengan paket yang berbeda, bukan bagaimana Anda dapat menafsirkannya secara akurat, Jadi:

Saya telah membaca dan membuat plot ketergantungan sebagian. Saya tahu mereka mengukur efek marginal dari variabel on pada fungsi ƒS (χS) dengan pengaruh rata-rata semua variabel lain (χc) dari model saya. Nilai y yang lebih tinggi berarti mereka memiliki pengaruh yang lebih besar dalam memprediksi kelas saya secara akurat. Namun, saya tidak puas dengan interpretasi kualitatif ini.

Tautan ini menunjukkan salah satu dari banyak plot saya.  http://imgur.com/RXqlOky

Model saya (hutan acak) memprediksi dua kelas diam-diam. "Ya pohon" dan "Tidak ada pohon". TRI adalah variabel yang telah terbukti menjadi variabel yang baik untuk ini.

Apa yang saya mulai pikirkan adalah nilai Y menunjukkan probabilitas untuk klasifikasi yang benar. Contoh: y (0,2) menunjukkan bahwa nilai TRI> ~ 30 memiliki peluang 20% ​​untuk mengidentifikasi dengan benar klasifikasi True Positive.

Dimana sebaliknya

y (-0.2) menunjukkan bahwa nilai TRI <~ 15 memiliki peluang 20% ​​untuk mengidentifikasi dengan benar klasifikasi Negatif Benar.

Interpretasi umum yang dibuat dalam literatur akan terdengar seperti ini "Nilai lebih besar dari TRI 30 mulai memiliki pengaruh positif untuk klasifikasi dalam model Anda" dan hanya itu. Kedengarannya sangat samar dan tidak berguna untuk plot yang berpotensi berbicara banyak tentang data Anda.

Juga, semua plot saya keluar pada -1 hingga 1 dalam kisaran untuk sumbu y. Saya telah melihat plot lain yang -10 hingga 10 dll. Apakah ini fungsi dari berapa banyak kelas yang Anda coba prediksi?

Saya bertanya-tanya apakah ada yang bisa berbicara dengan masalah ini. Mungkin tunjukkan pada saya bagaimana saya harus menafsirkan plot ini atau beberapa literatur yang dapat membantu saya. Mungkin saya membaca terlalu jauh tentang ini?

Saya telah membaca dengan seksama Unsur-unsur pembelajaran statistik: penggalian data, inferensi dan prediksi dan ini telah menjadi titik awal yang bagus tetapi hanya itu saja.


Plot menunjukkan rata-rata probabilitas pohon ya hingga TRI 30 dan meningkat setelahnya. Tautan ini menjelaskan cara menginterpretasikan klasifikasi biner PDP dan plot variabel kontinu.
LazyNearestNeigbour

Jawaban:


13

Setiap poin pada plot ketergantungan parsial adalah persentase suara rata-rata yang mendukung kelas "Ya pohon" di semua pengamatan, dengan tingkat TRI yang tetap.

Ini bukan probabilitas klasifikasi yang benar. Ini sama sekali tidak ada hubungannya dengan akurasi, negatif sejati, dan positif sejati.

Saat Anda melihat frasa

Nilai yang lebih besar dari TRI 30 mulai memiliki pengaruh positif untuk klasifikasi dalam model Anda

adalah cara mengatakan yang penuh sesak

Nilai lebih besar dari TRI 30 mulai memprediksi "Ya pohon" lebih kuat daripada nilai lebih rendah dari TRI 30


2

Fungsi ketergantungan parsial pada dasarnya memberi Anda tren "rata-rata" dari variabel itu (mengintegrasikan semua yang lain dalam model). Bentuk tren itulah yang "penting". Anda dapat menginterpretasikan kisaran relatif plot-plot ini dari berbagai variabel prediktor, tetapi bukan kisaran absolut. Semoga itu bisa membantu.


2

Cara untuk melihat nilai sumbu y adalah bahwa mereka relatif satu sama lain di plot lainnya. Ketika angka itu lebih tinggi daripada di plot lain dalam nilai absolut, itu berarti lebih penting karena dampak variabel itu pada output lebih besar.

Jika Anda tertarik dengan matematika di balik plot ketergantungan parsial dan bagaimana angka tersebut diestimasi, Anda dapat menemukannya di sini: http://statweb.stanford.edu/~jhf/ftp/RuleFit.pdf bagian 8.1

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.