Apa itu Ground Truth?


30

Dalam konteks Pembelajaran Mesin , saya telah melihat istilah Ground Truth banyak digunakan. Saya telah mencari banyak dan menemukan definisi berikut di Wikipedia :

Dalam pembelajaran mesin, istilah "kebenaran dasar" mengacu pada akurasi klasifikasi set pelatihan untuk teknik pembelajaran yang diawasi. Ini digunakan dalam model statistik untuk membuktikan atau menyangkal hipotesis penelitian. Istilah "ground truthing" mengacu pada proses pengumpulan data objektif (dapat dibuktikan) yang tepat untuk tes ini. Bandingkan dengan standar emas.

Penyaringan spam Bayesian adalah contoh umum pembelajaran terawasi. Dalam sistem ini, algoritma ini secara manual mengajarkan perbedaan antara spam dan non-spam. Ini tergantung pada kebenaran dasar dari pesan yang digunakan untuk melatih algoritme - ketidakakuratan dalam kebenaran dasar akan berkorelasi dengan ketidakakuratan dalam hasil vonis spam / non-spam.

Intinya saya benar-benar tidak bisa mendapatkan apa artinya. Apakah itu label yang digunakan untuk setiap objek data atau fungsi target yang memberikan label ke setiap objek data , atau mungkin sesuatu yang lain?

Jawaban:


25

Kebenaran dasar adalah apa yang Anda ukur untuk variabel target Anda untuk contoh pelatihan dan pengujian.

Hampir setiap saat Anda dapat dengan aman memperlakukan ini sama dengan labelnya.

Dalam beberapa kasus tidak persis sama dengan label. Misalnya jika Anda menambah kumpulan data Anda, ada perbedaan tipis antara kebenaran dasar (pengukuran aktual Anda) dan bagaimana contoh augmented berhubungan dengan label yang telah Anda tetapkan. Namun, perbedaan ini biasanya tidak menjadi masalah.

Kebenaran dasar bisa salah. Ini adalah pengukuran, dan mungkin ada kesalahan di dalamnya. Dalam beberapa skenario ML itu juga bisa menjadi pengukuran subjektif di mana sulit mendefinisikan kebenaran objektif yang mendasarinya - misalnya pendapat atau analisis ahli, yang Anda harapkan untuk diotomatisasi. Setiap model ML yang Anda latih akan dibatasi oleh kualitas kebenaran dasar yang digunakan untuk melatih dan mengujinya, dan itu adalah bagian dari penjelasan pada kutipan Wikipedia. Itu juga mengapa artikel yang diterbitkan tentang ML harus mencakup deskripsi lengkap tentang bagaimana data dikumpulkan.


Selama pelatihan, dapatkah gt (misalnya dalam masalah segmentasi misalnya) dimodifikasi atau dibuat mengingat informasi yang diperoleh (misalnya dari peta skor) dari fitur?
Alex

@ Alex: Tidak biasanya. Mungkin ada beberapa keadaan di mana satu hasil revisi atau proses semi-otomatis menghasilkan kebenaran dasar untuk algoritma berikutnya dalam pipa. Namun, jika Anda merujuk pada algoritma yang merevisi targetnya sendiri melalui beberapa aturan, maka itu biasanya tidak dianggap sebagai kebenaran dasar yang baru - sebaliknya kebenaran dasar akan menjadi segmentasi asli yang disediakan untuk pelatihan. Penyempurnaan otomatis yang cerdas akan menjadi bagian dari model.
Neil Slater

Penyempurnaan dengan interaksi manusia, atau yang merujuk data non-gambar asli (misalnya beberapa gambar sumber dihasilkan menggunakan model 3D, sehingga dapat membuat segmentasi "benar" yang jauh lebih baik) bisa menjadi ground ground baru. Meskipun Anda mungkin ingin memisahkan ide ground 1 generasi 1 yang digunakan untuk membangun model pertama dari ground 2 generasi yang telah melalui iterasi, dan digunakan untuk membangun model kedua, bahkan jika model kedua adalah arsitektur yang sama, hanya dilatih tentang umpan balik.
Neil Slater

'dilatih tentang umpan balik' - tutup, tetapi tidak persis. Jika Anda telah melihat model FCN, lapisan terakhir adalah peta skor yang terhubung ke fungsi kehilangan softmax log bersama dengan peta gt. Apa yang saya lakukan adalah mengambil peta skor, mengekstrak beberapa data darinya (mis. Jumlah gumpalan biner argmax) dan (entah bagaimana) memodifikasi topeng gt sebelum menghubungkannya dengan fungsi loss. Seberapa sah ini?
Alex

@Alex: Itu bagian dari model Anda, dan bukan kebenaran dasar yang baru. Kecuali Anda memutuskan, secara sewenang-wenang, bahwa tujuan model baru adalah mempelajari fungsi gabungan Anda. Dalam hal ini adalah kebenaran dasar untuk model baru - namun, Anda harus paling jelas mencatat sumber data yang kompleks, karena telah dimodifikasi dari pengukuran asli dengan cara otomatis.
Neil Slater

2

Kebenaran dasar: Itulah kenyataan yang Anda inginkan untuk diprediksi oleh model Anda.

Mungkin memiliki beberapa kebisingan tetapi Anda ingin model Anda mempelajari pola yang mendasari dalam data yang menyebabkan kebenaran dasar ini. Secara praktis, model Anda tidak akan pernah bisa memprediksi kebenaran dasar karena kebenaran dasar juga akan memiliki noise dan tidak ada model yang memberikan akurasi seratus persen tetapi Anda ingin model Anda sedekat mungkin.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.