Dari apa yang saya baca:
A Distant supervision algorithm usually has the following steps:
1] It may have some labeled training data
2] It "has" access to a pool of unlabeled data
3] It has an operator that allows it to sample from this unlabeled
data and label them and this operator is expected to be noisy in its labels
4] The algorithm then collectively utilizes the original labeled training data
if it had and this new noisily labeled data to give the final output.
Belajar mandiri ( Yates, Alexander, et al. "Textrunner: membuka ekstraksi informasi di web." Prosiding Teknologi Bahasa Manusia: Konferensi Tahunan Bab Amerika Utara dari Asosiasi untuk Linguistik Komputasi: Demonstrasi. Asosiasi untuk Linguistik Komputasi, 2007. ):
The Learner beroperasi dalam dua langkah. Pertama, secara otomatis label data pelatihannya sendiri sebagai positif atau negatif. Kedua, menggunakan data berlabel ini untuk melatih classifier Naif Bayes.
Lemah Pengawasan (Hoffmann, Raphael, et al. "Pengawasan lemah berbasis pengetahuan untuk ekstraksi informasi hubungan yang tumpang tindih." Prosiding Pertemuan Tahunan ke-49 dari Asosiasi untuk Linguistik Komputasi: Teknologi Bahasa Manusia-Volume 1. Asosiasi untuk Linguistik Komputasi, 2011 .):
Pendekatan yang lebih menjanjikan, sering disebut pengawasan "lemah" atau "jauh", menciptakan data pelatihannya sendiri dengan secara heuristik mencocokkan isi database dengan teks yang sesuai.
Bagi saya semuanya kedengarannya sama, dengan pengecualian bahwa pelatihan mandiri agak berbeda karena heuristik pelabelan adalah classifier terlatih, dan ada lingkaran antara fase label dan fase pelatihan classifier. Namun, Yao, Limin, Sebastian Riedel, dan Andrew McCallum. " Ekstraksi hubungan lintas dokumen kolektif tanpa data berlabel. " Prosiding Konferensi 2010 tentang Metode Empiris dalam Pemrosesan Bahasa Alami. Association for Computational Linguistics, 2010. mengklaim bahwa pengawasan jarak jauh == pelatihan diri == pengawasan lemah.
Juga, apakah ada sinonim lain ?