Mengapa ukuran-F lebih disukai untuk tugas klasifikasi?

8

Mengapa ukuran-F biasanya digunakan untuk tugas-tugas klasifikasi (diawasi), sedangkan indeks-G (atau indeks Fowlkes-Mallows) umumnya digunakan untuk tugas-tugas pengelompokan (tanpa pengawasan)?

Ukuran-F adalah rata-rata harmonik dari presisi dan daya ingat .

G-ukur (atau indeks Fowlkes-Mallows) adalah rata-rata geometris dari presisi dan daya ingat .

Di bawah ini adalah plot dari berbagai cara.

F1 (harmonik) $= 2\cdot\frac{precision\cdot recall}{precision + recall}$

Geometris $= \sqrt{precision\cdot recall}$

Hitung $= \frac{precision + recall}{2}$

Alasan saya bertanya adalah bahwa saya perlu memutuskan rata-rata mana yang akan digunakan dalam tugas NLG, di mana saya mengukur BLEU dan ROUGE (di mana BLEU setara dengan presisi dan ROUGE untuk mengingat). Bagaimana saya harus menghitung rata-rata skor ini?

— Bruno Lubascher
sumber

Mungkin hanya bagaimana pembelotan berlangsung!

— Aditya

1

@Aditya, Anda benar, itu hanya pertanyaan yang dirumuskan dengan buruk tentang definisi. Saya mengeditnya dengan merumuskan kembali menjadi sesuatu yang lebih konkret.

— Bruno Lubascher

3

Fı-score lebih disukai daripada akurasi klasifikasi sederhana untuk mengatasi masalah dataset tidak seimbang; jika hal yang Anda cari jarang terjadi maka penggolong naif selalu bisa mengatakan tidak dan tampaknya bekerja dengan sangat baik! Varian pada FI adalah Fß, di mana

Fß = (1 + ß²) × [(P × R) ÷ ((ß² × P) + R)]

Variasikan ß untuk menyeimbangkan ketepatan dan daya ingat. Mengenai mengapa F atau G, saya percaya itu bersifat empiris - Anda tidak mengatakan apakah Anda mengklasifikasikan atau mengelompokkan dalam aplikasi Anda sendiri?

— Gayus
sumber

1

Terima kasih atas jawabannya, tetapi saya pikir Anda tidak mengerti pertanyaan saya. Saya tidak bermaksud membandingkan akurasi F1 vs sederhana. , sebaliknya, saya maksud untuk membandingkan Harmonic vs Geometris vs Aritmatika berarti . Saya tidak melakukan klasifikasi tradisional atau clustering, saya punya tugas NLG , yang diukur dalam BLEU dan ROUGE yang bisa dirata-rata dengan salah satu cara, tetapi saya tidak yakin mana yang harus dipilih.

— Bruno Lubascher

-1

Jika Precision dan Recall serupa, F1 adalah ukuran tunggal yang baik untuk membandingkan model yang berbeda.

Pendek dan manis :)

— FrancoSwiss
sumber

Saya tidak mengerti bagaimana Anda bahkan mencoba menjawab pertanyaan saya ...

— Bruno Lubascher