Pertanyaan yang diberi tag «classification»

Klasifikasi statistik adalah masalah mengidentifikasi sub-populasi yang menjadi tempat pengamatan baru, di mana identitas sub-populasi tidak diketahui, berdasarkan pada serangkaian pelatihan data yang berisi pengamatan yang sub-populasi diketahui. Oleh karena itu klasifikasi ini akan menunjukkan perilaku variabel yang dapat dipelajari oleh statistik.

3
Apa keuntungan dari menumpuk banyak LSTM?
Apa keuntungannya, mengapa seseorang menggunakan banyak LSTM, ditumpuk satu demi satu, dalam jaringan yang dalam? Saya menggunakan LSTM untuk mewakili urutan input sebagai input tunggal. Jadi, begitu saya memiliki representasi tunggal itu — mengapa saya harus melewatinya lagi? Saya bertanya ini karena saya melihat ini dalam program generasi bahasa alami.

4
Masalah apa yang dipecahkan oleh oversampling, undersampling, dan SMOTE?
Dalam pertanyaan yang baru-baru ini diterima dengan baik, Tim bertanya kapan data yang tidak seimbang benar-benar menjadi masalah dalam Pembelajaran Mesin ? Premis dari pertanyaan ini adalah bahwa ada banyak literatur pembelajaran mesin yang membahas keseimbangan kelas dan masalah kelas yang tidak seimbang . Idenya adalah bahwa dataset dengan ketidakseimbangan …

2
Bag-of-Words untuk Klasifikasi Teks: Mengapa tidak hanya menggunakan frekuensi kata daripada TFIDF?
Pendekatan umum untuk klasifikasi teks adalah untuk melatih classifier dari 'kata-kata'. Pengguna mengambil teks untuk diklasifikasikan dan menghitung frekuensi kata-kata di setiap objek, diikuti oleh semacam pemangkasan untuk menjaga matriks yang dihasilkan dari ukuran yang dapat dikelola. Seringkali, saya melihat pengguna membuat vektor fitur mereka menggunakan TFIDF. Dengan kata lain, …

1
Berapakah probabilitas bahwa
Diberikan titik data, masing-masing dengan fitur , diberi label sebagai , yang lain dilabeli sebagai . Setiap fitur mengambil nilai dari secara acak (distribusi seragam). Berapa probabilitas bahwa ada hyperplane yang dapat membagi dua kelas?nnndddn/2n/2n/2000n/2n/2n/2111[0,1][0,1][0,1] Mari kita perhatikan kasus yang paling mudah, yaitu .d=1d=1d = 1

3
Validasi silang atau bootstrap untuk mengevaluasi kinerja klasifikasi?
Apa metode pengambilan sampel yang paling tepat untuk mengevaluasi kinerja classifier pada set data tertentu dan membandingkannya dengan classifier lain? Cross-validasi tampaknya menjadi praktik standar, tetapi saya telah membaca bahwa metode seperti .632 bootstrap adalah pilihan yang lebih baik. Sebagai tindak lanjut: Apakah pilihan metrik kinerja memengaruhi jawaban (jika saya …

2
Berapa besar set pelatihan yang dibutuhkan?
Apakah ada metode umum yang digunakan untuk menentukan berapa banyak sampel pelatihan yang diperlukan untuk melatih classifier (LDA dalam kasus ini) untuk mendapatkan akurasi generalisasi ambang batas minimum? Saya bertanya karena saya ingin meminimalkan waktu kalibrasi yang biasanya diperlukan dalam antarmuka otak-komputer.


2
Bagaimana menangani perbedaan antara distribusi set tes dan set pelatihan?
Saya pikir salah satu asumsi dasar pembelajaran mesin atau estimasi parameter adalah bahwa data yang tak terlihat berasal dari distribusi yang sama dengan set pelatihan. Namun, dalam beberapa kasus praktis, distribusi set tes akan hampir berbeda dari set pelatihan. Katakanlah untuk masalah multi-klasifikasi skala besar yang mencoba untuk mengklasifikasikan deskripsi …

3
Visualisasi kalibrasi probabilitas prediksi model
Misalkan saya memiliki model prediktif yang menghasilkan, untuk setiap contoh, probabilitas untuk setiap kelas. Sekarang saya menyadari bahwa ada banyak cara untuk mengevaluasi model seperti itu jika saya ingin menggunakan probabilitas tersebut untuk klasifikasi (presisi, penarikan, dll.). Saya juga mengakui bahwa kurva ROC dan area di bawahnya dapat digunakan untuk …



4
Mengapa peneliti menggunakan validasi silang 10 kali lipat alih-alih menguji pada set validasi?
Saya telah membaca banyak makalah penelitian tentang klasifikasi sentimen dan topik terkait. Sebagian besar dari mereka menggunakan validasi silang 10 kali lipat untuk melatih dan menguji pengklasifikasi. Itu berarti tidak ada pengujian / validasi terpisah yang dilakukan. Mengapa demikian? Apa keuntungan / kerugian dari pendekatan ini, terutama bagi mereka yang …

1
Memilih di antara aturan penilaian yang tepat
Sebagian besar sumber daya pada aturan penilaian yang tepat menyebutkan sejumlah aturan penilaian yang berbeda seperti log-loss, Brier score atau spherical scoring. Namun, mereka sering tidak memberikan banyak panduan tentang perbedaan di antara mereka. (Bukti A: Wikipedia .) Memilih model yang memaksimalkan skor logaritmik sesuai dengan memilih model maksimum-likelihood, yang …


3
Pengelompokan atau klasifikasi yang diawasi?
Pertanyaan kedua adalah bahwa saya menemukan dalam suatu diskusi di suatu tempat di web berbicara tentang "pengelompokan terawasi", sejauh yang saya tahu, pengelompokan tanpa pengawasan, jadi apa sebenarnya arti di balik "pengelompokan yang diawasi"? Apa bedanya dengan "klasifikasi"? Ada banyak tautan yang membicarakan hal itu: http://www.cs.uh.edu/docs/cosc/technical-reports/2005/05_10.pdf http://books.nips.cc/papers/files/nips23/NIPS2010_0427.pdf http://engr.case.edu/ray_soumya/mlrg/supervised_clustering_finley_joachims_icml05.pdf http://www.public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf http://www.machinelearning.org/proceedings/icml2007/papers/366.pdf …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.