Pertanyaan yang diberi tag «unbalanced-classes»

Data yang diorganisasikan ke dalam kategori diskrit atau * kelas * dapat menimbulkan masalah untuk analisis tertentu jika jumlah pengamatan ( ) yang dimiliki masing-masing kelas tidak konstan di seluruh kelas. Kelas dengan tidak sama * tidak seimbang *. nn


5
Kapan data tidak seimbang benar-benar masalah dalam Pembelajaran Mesin?
Kami sudah memiliki beberapa pertanyaan tentang data yang tidak seimbang ketika menggunakan regresi logistik , SVM , pohon keputusan , mengantongi dan sejumlah pertanyaan serupa lainnya, yang menjadikannya topik yang sangat populer! Sayangnya, masing-masing pertanyaan tampaknya khusus untuk algoritma dan saya tidak menemukan pedoman umum untuk menangani data yang tidak …





3
Apa akar penyebab masalah ketidakseimbangan kelas?
Saya telah banyak berpikir tentang "masalah ketidakseimbangan kelas" dalam pembelajaran mesin / statistik akhir-akhir ini, dan saya semakin dalam merasakan bahwa saya tidak mengerti apa yang sedang terjadi. Pertama, biarkan saya mendefinisikan (atau mencoba) mendefinisikan istilah saya: Masalah ketidakseimbangan kelas dalam pembelajaran mesin / statistik adalah pengamatan bahwa beberapa algoritma …

4
Mengoptimalkan untuk kurva Recall-Precision di bawah ketidakseimbangan kelas
Saya memiliki tugas klasifikasi di mana saya memiliki sejumlah prediktor (salah satunya adalah yang paling informatif), dan saya menggunakan model MARS untuk membangun classifier saya (saya tertarik pada model sederhana apa pun, dan menggunakan glms untuk tujuan ilustrasi akan menjadi baik baik juga). Sekarang saya memiliki ketidakseimbangan kelas yang sangat …

4
Kapan saya harus menyeimbangkan kelas dalam set data pelatihan?
Saya memiliki kursus online, di mana saya belajar, bahwa kelas yang tidak seimbang dalam data pelatihan dapat menyebabkan masalah, karena algoritma klasifikasi berlaku untuk aturan mayoritas, karena memberikan hasil yang baik jika ketidakseimbangan itu terlalu banyak. Dalam suatu tugas seseorang harus menyeimbangkan data melalui undersampling kelas mayoritas. Namun di blog …

6
Ukuran sampel untuk regresi logistik?
Saya ingin membuat model logistik dari data survei saya. Ini adalah survei kecil dari empat koloni tempat tinggal di mana hanya 154 responden yang diwawancarai. Variabel dependen saya adalah "transisi yang memuaskan untuk bekerja". Saya menemukan bahwa, dari 154 responden, 73 mengatakan bahwa mereka telah beralih ke pekerjaan dengan memuaskan, …

4
Apa penggunaan scale_pos_weight di xgboost untuk set data yang tidak seimbang?
Saya memiliki dataset yang sangat tidak seimbang. Saya mencoba mengikuti saran penyetelan dan menggunakan scale_pos_weighttetapi tidak yakin bagaimana saya harus menyetelnya. Saya dapat melihat bahwa RegLossObj.GetGradient: if (info.labels[i] == 1.0f) w *= param_.scale_pos_weight jadi gradien sampel positif akan lebih berpengaruh. Namun, menurut makalah xgboost , statistik gradien selalu digunakan secara …

4
Masalah apa yang dipecahkan oleh oversampling, undersampling, dan SMOTE?
Dalam pertanyaan yang baru-baru ini diterima dengan baik, Tim bertanya kapan data yang tidak seimbang benar-benar menjadi masalah dalam Pembelajaran Mesin ? Premis dari pertanyaan ini adalah bahwa ada banyak literatur pembelajaran mesin yang membahas keseimbangan kelas dan masalah kelas yang tidak seimbang . Idenya adalah bahwa dataset dengan ketidakseimbangan …

2
Bagaimana menangani perbedaan antara distribusi set tes dan set pelatihan?
Saya pikir salah satu asumsi dasar pembelajaran mesin atau estimasi parameter adalah bahwa data yang tak terlihat berasal dari distribusi yang sama dengan set pelatihan. Namun, dalam beberapa kasus praktis, distribusi set tes akan hampir berbeda dari set pelatihan. Katakanlah untuk masalah multi-klasifikasi skala besar yang mencoba untuk mengklasifikasikan deskripsi …

3
Metrik klasifikasi / evaluasi untuk data yang sangat tidak seimbang
Saya berurusan dengan masalah deteksi penipuan (seperti penilaian kredit). Dengan demikian ada hubungan yang sangat tidak seimbang antara pengamatan yang curang dan yang tidak curang. http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html memberikan gambaran yang bagus tentang berbagai metrik klasifikasi. Precision and Recallatau kappakeduanya tampaknya menjadi pilihan yang baik: Salah satu cara untuk membenarkan hasil pengklasifikasi …

5
Pengambilan Sampel untuk Data yang Tidak Seimbang dalam Regresi
Ada beberapa pertanyaan bagus tentang penanganan data yang tidak seimbang dalam konteks klasifikasi , tetapi saya bertanya-tanya apa yang dilakukan orang untuk sampel regresi. Katakanlah domain masalah sangat sensitif terhadap tanda tetapi hanya agak sensitif terhadap besarnya target. Namun besarnya cukup penting bahwa model harus regresi (target kontinu) bukan klasifikasi …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.