Mengapa ukuran-F lebih disukai untuk tugas klasifikasi?


8

Mengapa ukuran-F biasanya digunakan untuk tugas-tugas klasifikasi (diawasi), sedangkan indeks-G (atau indeks Fowlkes-Mallows) umumnya digunakan untuk tugas-tugas pengelompokan (tanpa pengawasan)?

Ukuran-F adalah rata-rata harmonik dari presisi dan daya ingat .

G-ukur (atau indeks Fowlkes-Mallows) adalah rata-rata geometris dari presisi dan daya ingat .

Di bawah ini adalah plot dari berbagai cara.

masukkan deskripsi gambar di sini

F1 (harmonik) =2halrecsayassayaHainrecSebuahllhalrecsayassayaHain+recSebuahll

Geometris =halrecsayassayaHainrecSebuahll

Hitung =halrecsayassayaHain+recSebuahll2

Alasan saya bertanya adalah bahwa saya perlu memutuskan rata-rata mana yang akan digunakan dalam tugas NLG, di mana saya mengukur BLEU dan ROUGE (di mana BLEU setara dengan presisi dan ROUGE untuk mengingat). Bagaimana saya harus menghitung rata-rata skor ini?


Mungkin hanya bagaimana pembelotan berlangsung!
Aditya

1
@Aditya, Anda benar, itu hanya pertanyaan yang dirumuskan dengan buruk tentang definisi. Saya mengeditnya dengan merumuskan kembali menjadi sesuatu yang lebih konkret.
Bruno Lubascher

Jawaban:


3

Fı-score lebih disukai daripada akurasi klasifikasi sederhana untuk mengatasi masalah dataset tidak seimbang; jika hal yang Anda cari jarang terjadi maka penggolong naif selalu bisa mengatakan tidak dan tampaknya bekerja dengan sangat baik! Varian pada FI adalah Fß, di mana

Fß = (1 + ß²) × ​​[(P × R) ÷ ((ß² × P) + R)]

Variasikan ß untuk menyeimbangkan ketepatan dan daya ingat. Mengenai mengapa F atau G, saya percaya itu bersifat empiris - Anda tidak mengatakan apakah Anda mengklasifikasikan atau mengelompokkan dalam aplikasi Anda sendiri?


1
Terima kasih atas jawabannya, tetapi saya pikir Anda tidak mengerti pertanyaan saya. Saya tidak bermaksud membandingkan akurasi F1 vs sederhana. , sebaliknya, saya maksud untuk membandingkan Harmonic vs Geometris vs Aritmatika berarti . Saya tidak melakukan klasifikasi tradisional atau clustering, saya punya tugas NLG , yang diukur dalam BLEU dan ROUGE yang bisa dirata-rata dengan salah satu cara, tetapi saya tidak yakin mana yang harus dipilih.
Bruno Lubascher

-1

Jika Precision dan Recall serupa, F1 adalah ukuran tunggal yang baik untuk membandingkan model yang berbeda.

Pendek dan manis :)


Saya tidak mengerti bagaimana Anda bahkan mencoba menjawab pertanyaan saya ...
Bruno Lubascher
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.