Membandingkan dua hasil akurasi classifier untuk signifikansi statistik dengan uji-t


17

Saya ingin membandingkan keakuratan dua pengklasifikasi untuk signifikansi statistik. Kedua pengklasifikasi dijalankan pada set data yang sama. Ini membuat saya percaya bahwa saya harus menggunakan uji-t satu sampel dari apa yang telah saya baca .

Sebagai contoh:

Classifier 1: 51% accuracy
Classifier 2: 64% accuracy
Dataset size: 78,000

Apakah ini tes yang tepat untuk digunakan? Jika demikian, bagaimana saya menghitung jika perbedaan akurasi antara classifier signifikan?

Atau haruskah saya menggunakan tes lain?

Jawaban:


14

Saya mungkin akan memilih untuk tes McNemar jika Anda hanya melatih pengklasifikasi sekali. David Barber juga menyarankan tes Bayesian yang agak rapi yang tampaknya agak elegan bagi saya, tetapi tidak banyak digunakan (juga disebutkan dalam bukunya ).

Sekadar menambahkan, seperti kata Peter Flom, jawabannya hampir pasti "ya" hanya dengan melihat perbedaan dalam kinerja dan ukuran sampel (saya ambil angka yang dikutip adalah kinerja tes set daripada pelatihan kinerja set).

Kebetulan Japkowicz dan Shah memiliki buku terbaru tentang "Mengevaluasi Algoritma Pembelajaran: Sebuah Perspektif Klasifikasi" , saya belum membacanya, tetapi sepertinya referensi yang berguna untuk masalah seperti ini.


1
Saya menjalankan validasi silang 10 kali lipat untuk mendapatkan hasil ini. Apakah itu berarti mereka sebenarnya kumpulan data yang berbeda. Itu adalah ukuran total, yang dibagi untuk tes / kereta dalam validasi silang
Chris

4
Akurasi untuk setiap lipatan tidak akan independen, yang akan melanggar asumsi sebagian besar uji statistik, tetapi mungkin tidak akan menjadi masalah besar. Saya sering menggunakan 100 split pelatihan / tes acak dan kemudian menggunakan uji peringkat bertanda-tangan Wilcoxon (gunakan pemisahan acak yang sama untuk kedua pengklasifikasi). Saya lebih suka tes semacam itu karena saya sering menggunakan dataset kecil (karena saya tertarik overfitting) sehingga variabilitas antara pemisahan acak cenderung sebanding dengan perbedaan kinerja antara pengklasifikasi.
Dikran Marsupial

2
(+1) untuk uji peringkat berpasangan yang ditandatangani oleh Wilcoxon (dan tautan ke buku ... jika toc dapat memenuhi janjinya, buku ini dapat menjadi bacaan wajib semua ML: O)
steffen

3
Saya juga telah menggunakan tes peringkat yang ditandatangani serta tes-t berpasangan untuk membandingkan pengklasifikasi. Namun setiap kali saya melaporkan menggunakan tes satu sisi untuk tujuan ini, saya mendapat kesulitan dari pengulas jadi kembali menggunakan tes dua sisi!
BGreene

2
Mengingat bahwa OP mengklarifikasi dalam komentar bahwa pertanyaannya sebenarnya tentang validasi silang, apakah Anda mungkin mempertimbangkan untuk memperluas jawaban Anda untuk mencakup topik itu? Kita bisa mengedit Q itu. Ini adalah topik penting dan ada beberapa pertanyaan yang sangat terkait (atau bahkan duplikat) tetapi tidak ada yang memiliki jawaban yang baik. Dalam komentar di atas, Anda merekomendasikan menggunakan tes berpasangan pada taksiran CV dan mengatakan bahwa Anda tidak berpikir bahwa non-independensi adalah masalah besar di sini. Kenapa tidak? Bagi saya itu terdengar seperti masalah yang berpotensi besar!
Amuba mengatakan Reinstate Monica

4

Saya dapat memberitahu Anda, tanpa menjalankan apa pun, bahwa perbedaannya akan sangat signifikan secara statistik. Itu melewati IOTT (tes trauma interokular - itu menyentuh Anda di antara mata).

Namun, jika Anda ingin melakukan tes, Anda bisa melakukannya sebagai tes dua proporsi - ini dapat dilakukan dengan uji-dua sampel.

Anda mungkin ingin memecah "akurasi" menjadi komponen-komponennya, meskipun; sensitivitas dan spesifisitas, atau false-positive dan false-negative. Dalam banyak aplikasi, biaya kesalahan yang berbeda sangat berbeda.


Setuju - ini jelas akan signifikan. Nitpick: Anda akan menggunakan uji- untuk menguji dua proporsi (kurang-lebih) - ini ada hubungannya dengan konvergensi distribusi binomial ke normal ketika n bertambah. Lihat bagian 5.2 en.wikipedia.org/wiki/Statistical_hypothesis_testingzn
Makro

Setelah dipikir-pikir, uji- mungkin masih valid secara asimptotik, oleh CLT, tetapi harus ada alasan uji- z biasanya digunakan di sini. tz
Makro

2
Persentase akurasi yang saya berikan dalam pertanyaan saya hanyalah sebuah contoh.
Chris

0

Karena akurasi, dalam hal ini, adalah proporsi sampel yang diklasifikasikan dengan benar, kita dapat menerapkan uji hipotesis mengenai sistem dua proporsi.

Biarkan p 1 dan p 2 menjadi akurasi yang diperoleh dari pengklasifikasi 1 dan 2 masing-masing, dan n adalah jumlah sampel. Jumlah sampel yang diklasifikasikan dengan benar dalam klasifikasi 1 dan 2 masing-masing adalah x 1 dan x 2 .p^1p^2nx1x2

p^1=x1/n,p^2=x2/n

Statistik uji diberikan oleh

Z=p^1p^22p^(1p^)/n dimana p^=(x1+x2)/2n

p2p1

  • H0:p1=p2 (hipotesis nol yang menyatakan keduanya sama)
  • Ha:p1<p2 (Hipotesa alternatif yang mengklaim yang lebih baru lebih baik daripada yang sudah ada)

Wilayah penolakan diberikan oleh

Z<zαH0Ha

zααz0.5=1.645Z<1.6451α

Referensi:

  1. R. Johnson dan J. Freund, Miller dan Freund's Probability and Statistics for Engineers, 8th Ed. Prentice Hall International, 2011. (Sumber primer)
  2. Tes Ringkasan Rumus Hipotesis-Ringkas . (Diadopsi dari [1])

Tidak seharusnya p^p^1p^2p^=(x1+x2)/2n

Meskipun saya setuju bahwa tes untuk proporsi dapat digunakan, tidak ada dalam pertanyaan awal yang menunjukkan tes satu sisi yang tepat. Selain itu, "kita bisa mengatakan dengan kepercayaan 95%" adalah kesalahan interpretasi yang umum. Lihat misalnya di sini: metheval.uni-jena.de/lehre/0405-ws/evaluationuebung/haller.pdf
Frans Rodenburg

@ShivaTp Memang. Terima kasih telah menunjukkan koreksi kesalahan ketik yang sangat dibutuhkan. Edit dikonfirmasi.
Ébe Isaac
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.