Pertanyaan yang diberi tag «scikit-learn»

Perpustakaan pembelajaran mesin untuk Python. Gunakan tag ini untuk setiap pertanyaan pada topik yang (a) melibatkan scikit-learn baik sebagai bagian penting dari pertanyaan atau jawaban yang diharapkan, & (b) bukan hanya tentang bagaimana menggunakan scikit-learn.

3
XGBoost vs Python Sklearn gradien meningkatkan pohon
Saya mencoba memahami cara kerja XGBoost. Saya sudah mengerti bagaimana gradien meningkatkan kerja pohon di Python sklearn. Yang tidak jelas bagi saya adalah apakah XGBoost bekerja dengan cara yang sama, tetapi lebih cepat, atau jika ada perbedaan mendasar antara itu dan implementasi python. Ketika saya membaca makalah ini http://learningsys.org/papers/LearningSys_2015_paper_32.pdf Bagi …

2
Metrik klasifikasi multilabel pada scikit
Saya mencoba membangun multi-label classifier untuk menetapkan topik ke dokumen yang ada menggunakan scikit Saya sedang memproses dokumen saya melewati mereka melalui TfidfVectorizerlabel melalui MultiLabelBinarizerdan membuat OneVsRestClassifierdengan SGDClassifiersebagai penaksir. Namun ketika menguji classifier saya, saya hanya mendapatkan skor hingga 0,29 yang dari apa yang saya baca cukup rendah untuk masalah …

2
Hutan acak terlalu cocok?
Saya bereksperimen dengan hutan acak dengan scikit-belajar dan saya mendapatkan hasil yang bagus dari set pelatihan saya, tetapi hasil yang relatif buruk pada set tes saya ... Inilah masalah (terinspirasi dari poker) yang saya coba selesaikan: Kartu hole pemain A, kartu hole pemain B dan flop (3 kartu), pemain mana …

3
Cara menghitung kesalahan standar dari koefisien regresi logistik
Saya menggunakan scikit-belajar Python untuk melatih dan menguji regresi logistik. scikit-belajar mengembalikan koefisien regresi dari variabel independen, tetapi itu tidak memberikan kesalahan standar koefisien. Saya membutuhkan kesalahan standar ini untuk menghitung statistik Wald untuk setiap koefisien dan, pada gilirannya, membandingkan koefisien ini satu sama lain. Saya telah menemukan satu deskripsi …

3
Mengapa tidak menggunakan "persamaan normal" untuk menemukan koefisien kuadrat terkecil sederhana?
Saya melihat daftar ini di sini dan tidak percaya ada begitu banyak cara untuk menyelesaikan kuadrat terkecil. "Persamaan normal" di Wikipedia tampaknya merupakan cara yang cukup lurus ke depan: α^β^=y¯−β^x¯,=∑ni=1(xi−x¯)(yi−y¯)∑ni=1(xi−x¯)2α^=y¯−β^x¯,β^=∑i=1n(xi−x¯)(yi−y¯)∑i=1n(xi−x¯)2 {\displaystyle {\begin{aligned}{\hat {\alpha }}&={\bar {y}}-{\hat {\beta }}\,{\bar {x}},\\{\hat {\beta }}&={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}\end{aligned}}} Jadi mengapa tidak menggunakannya …




6
Implementasi SVM tercepat
Lebih banyak pertanyaan umum. Saya menjalankan SVF rbf untuk pemodelan prediktif. Saya pikir program saya saat ini jelas perlu sedikit mempercepat. Saya menggunakan scikit belajar dengan pencarian kasar ke grid + validasi silang. Setiap menjalankan SVM membutuhkan waktu sekitar satu menit, tetapi dengan semua iterasi, saya masih menemukannya terlalu lambat. …

7
Hutan acak terlalu cocok
Saya mencoba menggunakan Regresi Hutan Acak di scikits-learn. Masalahnya adalah saya mendapatkan kesalahan tes yang sangat tinggi: train MSE, 4.64, test MSE: 252.25. Beginilah tampilan data saya: (biru: data nyata, hijau: diperkirakan): Saya menggunakan 90% untuk pelatihan dan 10% untuk ujian. Ini adalah kode yang saya gunakan setelah mencoba beberapa …

3
Regresi Logistik: Belajar Scikit vs glmnet
Saya mencoba untuk menduplikasi hasil dari sklearnperpustakaan regresi logistik menggunakan glmnetpaket di R. sklearnminw,c12wTw+C∑i=1Nlog(exp(−yi(XTiw+c))+1)minw,c12wTw+C∑i=1Nlog⁡(exp⁡(-ysaya(XsayaTw+c))+1)\min_{w,c} \frac12 w^Tw + C\sum_{i=1}^N \log(\exp(-y_i(X_i^Tw+c)) + 1) Dari sketsa dari glmnet, pelaksanaannya meminimalkan biaya yang sedikit berbeda fungsi minβ,β0- [ 1N∑i =1Nysaya(β0+xTsayaβ) - log( 1 + e( β0+ xTsayaβ)) ] + λ [ ( α - …

3
Metode untuk mengatasi masalah data yang hilang dalam pembelajaran mesin
Hampir semua basis data yang ingin kita prediksi menggunakan algoritma pembelajaran mesin akan menemukan nilai yang hilang untuk beberapa karakteristik. Ada beberapa pendekatan untuk mengatasi masalah ini, untuk mengecualikan garis yang memiliki nilai yang hilang sampai mereka mengisi dengan nilai rata-rata dari karakteristik. Saya ingin menggunakan pendekatan yang agak lebih …

2
Perbedaan antara memilih fitur berdasarkan “regresi F” dan berdasarkan nilai
Apakah membandingkan fitur menggunakan fitur F-regressionyang sama dengan yang berhubungan dengan label secara individual dan mengamati nilai ?R2R2R^2 Saya sering melihat rekan-rekan saya menggunakan pilihan F regressionuntuk fitur dalam pipa pembelajaran mesin mereka dari sklearn: sklearn.feature_selection.SelectKBest(score_func=sklearn.feature_selection.f_regression...)` Beberapa tolong beri tahu saya - mengapa itu memberikan hasil yang sama seperti hanya …

2
Mengapa fungsi bootstrap scikit-learn membuat ulang set tes?
Saat menggunakan bootstrap untuk evaluasi model, saya selalu berpikir sampel out-of-bag langsung digunakan sebagai set tes. Namun, ini tampaknya tidak menjadi kasus untuk pendekatan scikit-learning yang sudah ketinggalan zamanBootstrap , yang tampaknya membangun set tes dari menggambar dengan penggantian dari subset data out-of-bag. Apa alasan statistik di balik ini? Adakah …

2
Scikit cara yang benar untuk mengkalibrasi pengklasifikasi dengan CalibratedClassifierCV
Scikit memiliki CalibratedClassifierCV , yang memungkinkan kita untuk mengkalibrasi model kita pada pasangan X, y tertentu. Ini juga menyatakan dengan jelas itudata for fitting the classifier and for calibrating it must be disjoint. Jika mereka harus dipisahkan, apakah sah untuk melatih pengklasifikasi dengan yang berikut? model = CalibratedClassifierCV(my_classifier) model.fit(X_train, y_train) …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.