Statistik dan Big Data classification

1

Bagaimana LDA, teknik klasifikasi, juga berfungsi sebagai teknik reduksi dimensi seperti PCA

Pada artikel ini , penulis menghubungkan analisis diskriminan linier (LDA) ke analisis komponen utama (PCA). Dengan pengetahuan saya yang terbatas, saya tidak bisa mengikuti bagaimana LDA bisa agak mirip dengan PCA. Saya selalu berpikir bahwa LDA adalah bentuk algoritma klasifikasi, mirip dengan regresi logistik. Saya akan menghargai bantuan dalam memahami …

19 classification pca dimensionality-reduction discriminant-analysis canonical-correlation

2

Hutan acak terlalu cocok?

Saya bereksperimen dengan hutan acak dengan scikit-belajar dan saya mendapatkan hasil yang bagus dari set pelatihan saya, tetapi hasil yang relatif buruk pada set tes saya ... Inilah masalah (terinspirasi dari poker) yang saya coba selesaikan: Kartu hole pemain A, kartu hole pemain B dan flop (3 kartu), pemain mana …

19 classification random-forest scikit-learn

3

Pembelajaran semi-diawasi, pembelajaran aktif dan pembelajaran mendalam untuk klasifikasi

Suntingan terakhir dengan semua sumber daya diperbarui: Untuk sebuah proyek, saya menerapkan algoritma pembelajaran mesin untuk klasifikasi. Tantangan: Data berlabel yang cukup terbatas dan lebih banyak lagi data yang tidak berlabel. Tujuan: Terapkan klasifikasi semi-terawasi Terapkan proses pelabelan yang semi-diawasi (dikenal sebagai pembelajaran aktif) Saya telah menemukan banyak informasi dari …

19 machine-learning classification software svm text-mining

7

Bias Data dalam Pembelajaran Mesin

Saya sedang mengerjakan proyek Machine Learning dengan data yang sudah (berat) bias oleh pemilihan data. Mari kita asumsikan Anda memiliki seperangkat aturan kode keras. Bagaimana Anda membangun model pembelajaran mesin untuk menggantinya, ketika semua data yang dapat digunakan adalah data yang sudah disaring oleh aturan-aturan itu? Untuk memperjelas, saya kira …

18 machine-learning classification data-mining bias extrapolation

1

Pendapat tentang Oversampling secara umum, dan algoritma SMOTE pada khususnya [ditutup]

Ditutup . Pertanyaan ini didasarkan pada pendapat . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga dapat dijawab dengan fakta dan kutipan dengan mengedit posting ini . Ditutup 2 tahun yang lalu . Apa pendapat Anda tentang oversampling dalam klasifikasi secara umum, dan algoritma SMOTE pada …

18 machine-learning classification oversampling

5

Klasifikasi teks skala besar

Saya ingin melakukan klasifikasi pada data teks saya. Saya punya 300 classes, 200 dokumen pelatihan per kelas (jadi 60000 documents in total) dan ini cenderung menghasilkan data dimensi yang sangat tinggi (kita mungkin melihat lebih dari 1 juta dimensi ). Saya ingin melakukan langkah-langkah berikut dalam pipa (hanya untuk memberi …

18 machine-learning classification text-mining

10

Kumpulan jaringan sosial

Terkunci . Pertanyaan ini dan jawabannya dikunci karena pertanyaannya di luar topik tetapi memiliki signifikansi historis. Saat ini tidak menerima jawaban atau interaksi baru. Saya mencari dataset jaringan sosial (twitter, friendfeed, facebook, lastfm, dll.) Untuk tugas klasifikasi, lebih disukai dalam format arff. Pencarian saya melalui UCI dan Google sejauh ini …

18 classification dataset

3

Apakah membangun classifier multiclass lebih baik daripada beberapa binary?

Saya perlu mengklasifikasikan URL ke dalam kategori. Katakanlah saya memiliki 15 kategori yang saya rencanakan untuk menurunkan setiap URL. Apakah pengklasifikasi 15 arah lebih baik? Di mana saya memiliki 15 label dan menghasilkan fitur untuk setiap titik data. Atau membangun 15 pengklasifikasi biner, katakan: Film atau Non-Film, dan gunakan angka …

18 machine-learning classification categorical-data svm feature-selection

2

Menguji Klasifikasi pada Data Ketidakseimbangan yang Berlebihan

Saya sedang mengerjakan data yang sangat tidak seimbang. Dalam literatur, beberapa metode digunakan untuk menyeimbangkan kembali data menggunakan re-sampling (over-atau under-sampling). Dua pendekatan yang baik adalah: SMOTE: Tehnik Sintetis Minoritas Berlebih ( SMOTE ) ADASYN: Pendekatan Sampling Sintetis Adaptif untuk Pembelajaran Ketidakseimbangan ( ADASYN ) Saya telah menerapkan ADASYN karena …

18 classification dataset resampling unbalanced-classes oversampling

1

Kuis: Beri tahu classifier dengan batas keputusannya

Diberikan adalah 6 batas keputusan di bawah ini. Batas keputusan adalah garis violett. Dots dan crosses adalah dua set data yang berbeda. Kita harus memutuskan yang mana adalah: SVM linear Kernelized SVM (kernel polinomial pesanan 2) Perceptron Regresi logistik Neural Network (1 lapisan tersembunyi dengan 10 unit linear yang diperbaiki) …

17 machine-learning self-study classification neural-networks svm

3

Kapan saya seharusnya tidak menggunakan classifier ensemble?

Secara umum, dalam masalah klasifikasi di mana tujuannya adalah untuk secara akurat memprediksi keanggotaan kelas out-of-sample, kapan saya harus tidak menggunakan ensemble classifier? Pertanyaan ini terkait erat dengan Mengapa tidak selalu menggunakan pembelajaran ensemble? . Pertanyaan itu menanyakan mengapa kita tidak menggunakan ansambel sepanjang waktu. Saya ingin tahu apakah ada …

17 classification boosting ensemble bagging

1

Kapan kinerja Naif Bayes lebih baik dari SVM?

Dalam masalah klasifikasi teks kecil yang saya lihat, Naif Bayes telah menunjukkan kinerja yang mirip atau lebih besar dari SVM dan saya sangat bingung. Saya bertanya-tanya faktor apa yang menentukan kemenangan dari satu algoritma di atas yang lain. Apakah ada situasi di mana tidak ada gunanya menggunakan Naif Bayes di …

17 machine-learning classification svm naive-bayes

1

Saya ingin membangun indeks kejahatan dan indeks ketidakstabilan politik yang didasarkan pada berita

Saya memiliki proyek sampingan ini di mana saya merangkak situs web berita lokal di negara saya dan ingin membangun indeks kejahatan dan indeks ketidakstabilan politik. Saya sudah membahas bagian pengambilan informasi dari proyek. Rencana saya adalah melakukan: Ekstraksi topik tanpa pengawasan. Mendeteksi duplikat dekat. Klasifikasi dan tingkat insiden yang diawasi …

17 machine-learning classification text-mining

3

Membandingkan dua hasil akurasi classifier untuk signifikansi statistik dengan uji-t

Saya ingin membandingkan keakuratan dua pengklasifikasi untuk signifikansi statistik. Kedua pengklasifikasi dijalankan pada set data yang sama. Ini membuat saya percaya bahwa saya harus menggunakan uji-t satu sampel dari apa yang telah saya baca . Sebagai contoh: Classifier 1: 51% accuracy Classifier 2: 64% accuracy Dataset size: 78,000 Apakah ini …

17 machine-learning statistical-significance classification t-test

2

Mengapa classifier regresi ridge berfungsi cukup baik untuk klasifikasi teks?

Selama percobaan untuk klasifikasi teks, saya menemukan classifier ridge menghasilkan hasil yang secara konstan berada di atas tes di antara classifier yang lebih umum disebutkan dan diterapkan untuk tugas-tugas penambangan teks, seperti SVM, NB, kNN, dll. Meskipun, saya belum menguraikan tentang cara mengoptimalkan setiap classifier pada tugas klasifikasi teks khusus …

17 machine-learning classification text-mining ridge-regression

Pertanyaan yang diberi tag «classification»