Arti fitur laten?


15

Saya mencoba memahami model faktorisasi matriks untuk sistem yang merekomendasikan dan saya selalu membaca 'fitur laten', tetapi apa artinya itu? Saya tahu apa artinya fitur untuk dataset pelatihan tapi saya tidak bisa memahami ide fitur laten. Setiap makalah tentang topik yang saya temukan terlalu dangkal.

Edit:

jika Anda setidaknya bisa mengarahkan saya ke beberapa makalah yang menjelaskan gagasan itu.


Berikut adalah contoh sederhana yang mungkin membantu Anda quuxlabs.com/blog/2010/09/...
Akavall

Jawaban:


9

Laten berarti tidak dapat diamati secara langsung. Penggunaan umum istilah ini dalam PCA dan Factor Analysis adalah untuk mengurangi dimensi sejumlah besar fitur yang dapat diamati secara langsung menjadi seperangkat fitur yang dapat diamati secara tidak langsung.


jadi dimensi yang diperkecil kemudian fitur laten? Dalam kasus PCA, vektor eigen dari matriks kovarians, yaitu komponen utama, bukan?
Jack Twain

Benar @AlexTwain
samthebest

Bisakah Anda memberi saya tutorial / makalah yang menyebutkan itu? Saya tidak dapat menemukan tutorial / kertas yang sistematis!
Jack Twain

Yah halaman wiki cukup bagus, Anda dapat mengikuti referensi di sana jika Anda benar-benar ingin en.wikipedia.org/wiki/Latent_variable
samthebest

1
@JackTwain analogi PCA yang benar adalah bahwa fitur laten adalah vektor eigen. Komponen utama adalah bobot yang ditetapkan untuk setiap pengamatan untuk vektor eigen utama. Dalam model faktorisasi matriks lainnya fitur laten memainkan peran vektor eigen. Ini mungkin kedengarannya luar biasa, tetapi kesalahan itu menciptakan kebingungan bagi orang-orang.
dugaan

3

Dalam konteks Metode Faktorisasi, fitur laten biasanya dimaksudkan untuk mengkarakterisasi item di sepanjang setiap dimensi. Biarkan saya jelaskan dengan contoh.

RRuipuTqipuuqii . Secara intuitif, produk ini mengukur seberapa mirip vektor-vektor ini. Selama pelatihan Anda ingin menemukan vektor "baik", sehingga kesalahan aproksimasi diminimalkan.

puqi


Saya telah membaca makalah di mana fitur laten (katakanlah "vektor pengguna") digunakan untuk memprediksi beberapa variabel target, mari gunakan gender sebagai contoh. Ini "bekerja" di mana model prediksi dapat dibangun dengan cara ini. Pertanyaan saya adalah apa perbedaan antara "vektor pengguna" dan, katakanlah, rata-rata "vektor item" untuk semua item yang telah "dikunjungi" pengguna? TKI, apakah Anda berharap model prediksi yang disebutkan di atas menjadi lebih baik atau lebih buruk dengan yang satu vs yang lain? Terima kasih (jika Anda pernah melihat ini).
thecity2

@ thecity2, Anda dapat rata-rata item pengguna, dan ini mungkin sebenarnya berguna ketika Anda berurusan dengan pendatang baru yang belum memiliki vektor pengguna yang sudah Anda hitung sebelumnya (meskipun harus sulit untuk menjalankan beberapa iterasi optimasi untuk menghitungnya). Ada juga masalah dengan rata-rata polos: semakin banyak barang yang dikonsumsi pengguna - semakin dekat ke nol vektor barang rata-rata mereka cenderung (karena regulator L2 khas, dan mungkin sifat buruk lainnya dari ruang dimensi tinggi). Akhirnya, memiliki vektor yang terpisah lebih fleksibel: model Anda dapat belajar rata-rata seperti itu.
Artem Sobolev

Yang mengatakan, ada upaya untuk menggunakan riwayat pengguna untuk memodelkan vektor pengguna. Misalnya, lihat makalah "Bangun Rekomendasi Musik Anda Sendiri dengan Membuat Model Internet Radio Streams"
Artem Sobolev

0

Saya akan mengatakan bahwa faktor lebih representatif daripada komponen utama untuk mendapatkan persepsi 'latensi' / ketersembunyian suatu variabel. Latensi adalah salah satu alasan mengapa para ilmuwan perilaku mengukur konstruksi persepsi seperti perasaan, kesedihan dalam hal banyak item / tindakan dan memperoleh angka untuk variabel tersembunyi tersebut yang tidak dapat diukur secara langsung.


0

Di sini data Anda adalah peringkat yang diberikan oleh berbagai pengguna ke berbagai film. Seperti yang telah ditunjukkan orang lain, laten berarti tidak dapat diamati secara langsung.

Untuk sebuah film, fitur latennya menentukan jumlah aksi, romansa, alur cerita, aktor terkenal, dll. Demikian pula, untuk dataset lain yang terdiri dari digit tulisan tangan, variabel latennya mungkin sudut, miring, miring, dll.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.