Bagaimana cara menilai signifikansi statistik dari keakuratan classifier?

8

Saya memiliki output akurasi classifier dalam persentase dan jumlah sampel input. Apakah ada tes yang dapat mengetahui seberapa signifikan hasilnya menurut informasi ini?

Terima kasih

statistical-significance classification

— Shan
sumber

Bisakah Anda memberi contoh?

— Max Gordon

3

Bagi saya tidak jelas apa yang Anda miliki dan apa yang Anda minta. Ada tes apakah proporsi 0, tapi itu bukan tes bermakna untuk akurasi - akurasi 0 akan sempurna dengan cara - selalu salah!

— Peter Flom

10

Anda ingin mendefinisikan distribusi akurasi hanya menebak. Mungkin ini seperti $X/n$ mana $X \sim$ binomial ( $n$ , $p$ ) untuk beberapa diketahui $p$ (katakanlah 50%).

Kemudian hitung peluang mengamati hasil yang Anda lakukan, jika model nol ini benar. Di R, Anda bisa menggunakan binom.testatau menghitungnya langsung dengan pbinom.

Biasanya Anda ingin membandingkan akurasi bukan dengan "menebak" tetapi dengan beberapa metode alternatif, dalam hal ini Anda dapat menggunakan tes McNemar ; dalam R mcnemar.test,.

— Karl
sumber

6

Saya tidak melihat di mana pengujian terhadap keacakan lengkap sangat membantu. Penggolong yang hanya bisa mengalahkan tebakan acak murni tidak terlalu berguna. Masalah yang lebih besar adalah penggunaan proporsi yang diklasifikasikan dengan benar sebagai skor akurasi Anda. Ini adalah aturan penilaian tidak terputus yang dapat dengan mudah dimanipulasi karena arbitrer dan tidak sensitif. Salah satu (dari banyak) cara untuk melihat kekurangannya adalah dengan menghitung proporsi yang diklasifikasikan dengan benar jika Anda memiliki model dengan hanya intersep. Ini akan tinggi jika hasilnya tidak mendekati 0,5 dalam prevalensi.

Setelah Anda memilih aturan yang lebih tepat, akan berharga untuk menghitung interval kepercayaan untuk indeks. Signifikansi statistik tidak terlalu bernilai.

— Frank Harrell
sumber

Tentang proporsi yang diklasifikasikan dengan benar, apakah maksud Anda akurasi klasifikasi standar? terima kasih

— Simone

1

Iya; ukuran yang sangat bermasalah.

— Frank Harrell

Ya, itu adalah tindakan yang sangat bermasalah. Saya setuju dengan kamu.

— Simone

2

Pengklasifikasi yang hanya mengalahkan tebakan acak bisa sangat berguna dalam beberapa situasi. Dengan demikian, memiliki beberapa tes yang mengukur kepercayaan dalam suatu pengklasifikasi menjadi lebih baik daripada peluang juga berguna.

— ely

3

Yang pasti Anda dapat komputer interval kepercayaan . Jika adalah akurasi Anda diestimasi pada set uji elemen , itu menyatakan bahwa Jadi Jadi Anda dapat mengatakan bahwa: Misalnya Anda dapat menghitung interval Wilson . $\mbox{acc}$ $N$

\frac{a c c - p}{\sqrt{p (1 - p) / N}} \sim N (0, 1)

$\frac{acc-p}{\sqrt{p(1-p)/N}} \sim \mathcal{N}(0,1)$

P (\frac{a c c - p}{\sqrt{p (1 - p) / N}} \in [- z_{α / 2}, + z_{α / 2}]) \approx 1 - α

$P\bigg( \frac{acc-p}{\sqrt{p(1-p)/N}} \in [-z_{\alpha/2},+z_{\alpha/2}]\bigg) \approx 1 - \alpha$

P (p \in [l, u]) \approx 1 - α

$P(p \in [l,u]) \approx 1 - \alpha$

l = \frac{2 N acc + z_{α / 2}^{2} - z_{α / 2} \sqrt{z_{α / 2}^{2} + 4 N acc - 4 N {acc}^{2}}}{2 (N + z_{α / 2}^{2})}

$l = \frac{2 \ N \ \mbox{acc} + z_{\alpha/2}^2 - z_{\alpha/2} \sqrt{z_{\alpha/2}^2+4 \ N \ \mbox{acc}-4 \ N \ \mbox{acc}^2}}{2(N+z_{\alpha/2}^2)}$

kamu = \frac{2 N mnrt + z_{α / 2}^{2} + z_{α / 2} \sqrt{z_{α / 2}^{2} + 4 N mnrt - 4 N {mnrt}^{2}}}{2 (N + z_{α / 2}^{2})}

$u = \frac{2 \ N \ \mbox{acc} + z_{\alpha/2}^2 + z_{\alpha/2} \sqrt{z_{\alpha/2}^2+4 \ N \ \mbox{acc}-4 \ N \ \mbox{acc}^2}}{2(N+z_{\alpha/2}^2)}$

Saya pikir Anda dapat menghitung berapa banyak berbeda kinerja Anda dari satu acak menghitung keuntungan . Keakuratan classifier acak adalah: mana adalah frekuensi empiris dari kelas yang perkirakan pada set tes, dan adalah angka dari berbagai kelas. Rata-rata classifier acak, yang mengklasifikasikan menebak acak kelas mengandalkan probabilitas prior set tes, mengklasifikasikan contoh kelas dengan benar. Di mana adalah jumlah rekaman kelas

{mnrt}_{r} = \sum_{saya = 1}^{c} {hal}_{saya}^{2}

$\mbox{acc}_r = \sum_{i=1}^{c} p_i^2$

p_{i}

$p_i$

i

$i$

c

$c$

i

$i$

p_{i} \cdot n_{i} = \frac{n_{i}}{N} \cdot n_{i}

$p_i\cdot n_i = \frac{n_i}{N} \cdot n_i$

i

$i$

n_{i}

$n_i$

i

$i$ di set tes. Jadi Anda mungkin melihat pertanyaan saya.

{mnrt}_{r} = \frac{{hal}_{1} \cdot n_{1} + \dots + {hal}_{c} \cdot n_{c}}{n_{1} + \dots + n_{c}} = \frac{{hal}_{1} \cdot n_{1}}{N} + \dots + \frac{{hal}_{c} \cdot n_{c}}{N} = \sum_{saya}^{c} {hal}_{saya}^{2}

$\mbox{acc}_r = \frac{p_1 \cdot n_1 + \dots + p_c \cdot n_c}{n_1 + \dots + n_c} = \frac{p_1\cdot n_1}{N} + \dots + \frac{p_c\cdot n_c}{N} = \sum_{i}^{c} p_i^2$

Keuntungannya adalah:

mendapatkan = \frac{mnrt}{{mnrt}_{r}}

$\mbox{gain} = \frac{\mbox{acc}}{\mbox{acc}_r}$

Saya benar-benar berpikir tes statistik dapat dibuat sketsa. Pembilangnya dapat dilihat sebagai variabel acak normal, , tetapi Anda harus mencari tahu variabel variabel apa yang merupakan penyebut variabel bisa. $\mathcal{N}(\mbox{acc},p(1-p)/N)$ $\mbox{acc}_r$

— Simone
sumber

3

Sekali lagi saya tidak yakin bahwa uji statistik terhadap benar-benar tidak ada nilai prediksi bernilai.

— Frank Harrell

2

Pengklasifikasi yang hanya mengalahkan tebakan acak bisa sangat berguna dalam beberapa situasi. Dengan demikian, memiliki beberapa tes yang mengukur kepercayaan dalam suatu pengklasifikasi menjadi lebih baik daripada peluang juga berguna.

— ely

1

Dalam sebagian besar situasi kita ingin tahu seberapa baik prediksi mendiskriminasi, bukan hanya apakah prediksi itu mendiskriminasi lebih baik daripada kebetulan acak.

— Frank Harrell

Tidak jika Anda meningkatkan sekelompok pengklasifikasi lemah, yang merupakan kegiatan yang sangat umum. Anda mungkin peduli tentang diskriminasi begitu Anda mencapai pengelompokan akhir yang didukung sepenuhnya, tetapi ada banyak pekerjaan antara awal dan akhir, dan menunjukkan bahwa pengelompokan yang rumit secara empiris berkinerja lebih baik daripada kebetulan adalah penting.

— ely

1

Dan beberapa domain aplikasi, katakanlah pasar keuangan, di mana Anda dapat menggunakan classifier dalam banyak kasus independen, menjadi sedikit lebih baik daripada kebetulan (R-kuadrat seperti 11% atau 12% dianggap hebat) dapat sangat berarti. Dalam kasus tersebut, jika bahkan penggolong yang dikuatkan memiliki R-kuadrat sebesar 15% yang mungkin dianggap sangat baik - dalam hal ini sangat penting jika Anda dapat secara statistik menyelesaikan apakah penggolong yang lemah jelas lebih baik daripada menebak.

— ely

1

Anda mungkin tertarik dengan makalah-makalah berikut ini:

Eric W. Noreen, Metode Intensif Komputer untuk Pengujian Hipotesis: Suatu Pengantar, John Wiley & Sons, New York, NY, AS, 1989.
Alexander Yeh, Tes yang lebih akurat untuk signifikansi statistik perbedaan hasil, dalam: Prosiding Konferensi Internasional ke-18 tentang Linguistik Komputasi, Volume 2, halaman 947-953, 2000.

Saya pikir mereka membahas apa yang Dimitrios Athanasakis bicarakan.

Saya menerapkan satu opsi Yeh dengan cara yang saya mengerti:

http://www.clips.uantwerpen.be/~vincent/software#art

— vvasch
sumber

0

Saya pikir satu hal yang bisa Anda coba adalah tes permutasi. Sederhananya hanya mengubah secara acak pasangan input yang diinginkan input Anda makan ke classifier Anda beberapa kali. Jika gagal mereproduksi sesuatu pada level yang sama lebih dari 100 permutasi yang berbeda dari itu signifikan pada interval 99% dan seterusnya. Ini pada dasarnya adalah proses yang sama yang digunakan untuk mendapatkan nilai-p (yang sesuai dengan probabilitas untuk mendapatkan korelasi linier dari skala yang sama setelah secara acak memasukkan data) dan seterusnya.

— Dimitrios Athanasakis
sumber

Bisakah Anda menguraikan lebih jauh apa yang Anda maksud untuk pasangan input / output yang diinginkan?

— Simone