Apakah ada perbedaan antara pengawasan jarak jauh, pelatihan diri, pembelajaran mandiri, dan pengawasan lemah?

Dari apa yang saya baca:

A Distant supervision algorithm usually has the following steps: 
1] It may have some labeled training data 
2] It "has" access to a pool of unlabeled data 
3] It has an operator that allows it to sample from this unlabeled 
   data and label them and this operator is expected to be noisy in its labels 
4] The algorithm then collectively utilizes the original labeled training data
    if it had and this new noisily labeled data to give the final output.

Pelatihan mandiri :

masukkan deskripsi gambar di sini

Belajar mandiri ( Yates, Alexander, et al. "Textrunner: membuka ekstraksi informasi di web." Prosiding Teknologi Bahasa Manusia: Konferensi Tahunan Bab Amerika Utara dari Asosiasi untuk Linguistik Komputasi: Demonstrasi. Asosiasi untuk Linguistik Komputasi, 2007. ):

The Learner beroperasi dalam dua langkah. Pertama, secara otomatis label data pelatihannya sendiri sebagai positif atau negatif. Kedua, menggunakan data berlabel ini untuk melatih classifier Naif Bayes.

Lemah Pengawasan (Hoffmann, Raphael, et al. "Pengawasan lemah berbasis pengetahuan untuk ekstraksi informasi hubungan yang tumpang tindih." Prosiding Pertemuan Tahunan ke-49 dari Asosiasi untuk Linguistik Komputasi: Teknologi Bahasa Manusia-Volume 1. Asosiasi untuk Linguistik Komputasi, 2011 .):

Pendekatan yang lebih menjanjikan, sering disebut pengawasan "lemah" atau "jauh", menciptakan data pelatihannya sendiri dengan secara heuristik mencocokkan isi database dengan teks yang sesuai.

Bagi saya semuanya kedengarannya sama, dengan pengecualian bahwa pelatihan mandiri agak berbeda karena heuristik pelabelan adalah classifier terlatih, dan ada lingkaran antara fase label dan fase pelatihan classifier. Namun, Yao, Limin, Sebastian Riedel, dan Andrew McCallum. " Ekstraksi hubungan lintas dokumen kolektif tanpa data berlabel. " Prosiding Konferensi 2010 tentang Metode Empiris dalam Pemrosesan Bahasa Alami. Association for Computational Linguistics, 2010. mengklaim bahwa pengawasan jarak jauh == pelatihan diri == pengawasan lemah.

Juga, apakah ada sinonim lain ?

— Franck Dernoncourt
sumber

Pertanyaan menarik. Mungkinkah ini milik Ilmu Data?

— goangit

@goangit Mungkin, seperti bagian yang baik dari situs web ini;)

— Franck Dernoncourt

Ada dua aspek untuk semua istilah berbeda yang telah Anda berikan: 1] Proses mendapatkan data pelatihan 2] Algoritma yang melatih atau pengklasifikasi $f$

Algoritma yang melatih , terlepas dari bagaimana data pelatihan diperoleh diawasi. Perbedaan dalam pengawasan jarak jauh, belajar mandiri, supervisi mandiri atau lemah, terletak murni pada bagaimana data pelatihan diperoleh. $f$

Secara tradisional, dalam setiap makalah pembelajaran mesin tentang pembelajaran terawasi, orang akan menemukan bahwa makalah tersebut secara implisit mengasumsikan bahwa data pelatihan tersedia dan untuk apa nilainya, biasanya diasumsikan bahwa label itu tepat, dan bahwa tidak ada ambiguitas dalam label. yang diberikan pada contoh dalam data pelatihan. Namun, dengan kertas pengawasan yang jauh / lemah, orang-orang menyadari bahwa data pelatihan mereka memiliki label yang tidak tepat dan apa yang ingin mereka sorot dalam pekerjaan mereka adalah bahwa mereka memperoleh hasil yang baik meskipun ada kelemahan jelas menggunakan label yang tidak tepat (dan mereka mungkin memiliki cara algoritmik lainnya. untuk mengatasi masalah label yang tidak tepat, dengan memiliki proses penyaringan tambahan, dll. dan biasanya makalah ingin menyoroti bahwa proses tambahan ini penting dan bermanfaat). Ini memunculkan istilah "lemah" atau "jauh" untuk menunjukkan bahwa label pada data pelatihan tidak tepat. Perhatikan bahwa ini tidak serta merta mempengaruhi aspek pembelajaran dari pengklasifikasi. Pengklasifikasi yang digunakan oleh orang-orang ini secara implisit mengasumsikan bahwa labelnya tepat dan algoritma pelatihannya hampir tidak pernah berubah.

Pelatihan mandiri di sisi lain agak istimewa dalam arti itu. Seperti yang telah Anda amati, ia mendapatkan labelnya dari classifiernya sendiri dan memiliki sedikit loop umpan balik untuk koreksi. Secara umum, kami mempelajari pengklasifikasi terawasi di bawah bidang algoritma "induktif" yang sedikit lebih besar, di mana pengklasifikasi yang dipelajari adalah inferensi induktif yang dibuat dari data pelatihan tentang seluruh data. Orang-orang telah mempelajari bentuk lain, yang kita sebut sebagai inferensi transduktif, di mana inferensi induktif umum bukanlah output dari algoritma, tetapi algoritma secara kolektif mengambil data pelatihan dan data uji sebagai input dan menghasilkan label pada data uji. Namun, orang-orang menduga mengapa tidak menggunakan inferensi transduktif dalam pembelajaran induktif untuk mendapatkan pengklasifikasi dengan data pelatihan yang lebih besar.

Mudah-mudahan, saya tidak semakin membingungkan Anda, jangan ragu untuk berkomentar dan meminta klarifikasi lebih lanjut jika perlu.

[1] Mungkin bermanfaat - http://www.is.tuebingen.mpg.de/fileadmin/user_upload/files/publications/pdf2527.pdf

— TenaliRaman
sumber

Terima kasih, jawaban Anda sangat menarik! Bagaimana dengan belajar mandiri? Sama seperti pengawasan jarak jauh / lemah?

— Franck Dernoncourt

Iya. Saya khususnya tidak melihat perbedaan antara belajar mandiri dan pengawasan jauh / lemah, karena label diperoleh secara terpisah dari sumber yang tidak tepat dan kemudian diumpankan ke penggolong yang diawasi.

— TenaliRaman