Pertanyaan yang diberi tag «scikit-learn»

Perpustakaan pembelajaran mesin untuk Python. Gunakan tag ini untuk setiap pertanyaan pada topik yang (a) melibatkan scikit-learn baik sebagai bagian penting dari pertanyaan atau jawaban yang diharapkan, & (b) bukan hanya tentang bagaimana menggunakan scikit-learn.

3
Perbedaan antara statsmodel OLS dan regresi linier scikit
Saya punya pertanyaan tentang dua metode berbeda dari perpustakaan yang berbeda yang tampaknya melakukan pekerjaan yang sama. Saya mencoba membuat model regresi linier. Berikut adalah kode yang saya gunakan perpustakaan statsmodel dengan OLS: X_train, X_test, y_train, y_test = cross_validation.train_test_split(x, y, test_size=0.3, random_state=1) x_train = sm.add_constant(X_train) model = sm.OLS(y_train, x_train) results …

2
Penggunaan validasi silang bersarang
Halaman Scikit Learn pada Seleksi Model menyebutkan penggunaan validasi silang bersarang: >>> clf = GridSearchCV(estimator=svc, param_grid=dict(gamma=gammas), ... n_jobs=-1) >>> cross_validation.cross_val_score(clf, X_digits, y_digits) Dua loop validasi silang dilakukan secara paralel: satu oleh estimator GridSearchCV untuk mengatur gamma dan yang lainnya oleh cross_val_score untuk mengukur kinerja prediksi estimator. Skor yang dihasilkan adalah …

2
Apakah ambang keputusan hiperparameter dalam regresi logistik?
Kelas yang diprediksi dari regresi logistik (biner) ditentukan dengan menggunakan ambang pada probabilitas keanggotaan kelas yang dihasilkan oleh model. Seperti yang saya pahami, biasanya 0,5 digunakan secara default. Tetapi memvariasikan ambang akan mengubah klasifikasi yang diprediksi. Apakah ini berarti ambangnya adalah hiperparameter? Jika demikian, mengapa (misalnya) tidak mungkin untuk dengan …

2
Menggunakan BIC untuk memperkirakan jumlah k dalam KMEANS
Saat ini saya mencoba menghitung BIC untuk kumpulan data mainan saya (ofc iris (:). Saya ingin mereproduksi hasil seperti yang ditunjukkan di sini (Gbr. 5). Makalah itu juga merupakan sumber saya untuk formula BIC. Saya memiliki 2 masalah dengan ini: Notasi: nsayanin_i = jumlah elemen dalam klastersayaii CsayaCiC_i = pusat …

1
Cara memperbaiki non-konvergensi di LogisticRegressionCV
Saya menggunakan scikit-belajar untuk melakukan regresi logistik dengan crossvalidation pada set data (sekitar 14 parameter dengan> 7000 pengamatan normal). Saya juga memiliki target classifier yang memiliki nilai 1 atau 0. Masalah yang saya miliki adalah bahwa terlepas dari pemecah yang digunakan, saya terus mendapatkan peringatan konvergensi ... model1 = linear_model.LogisticRegressionCV(cv=10,verbose=1,n_jobs=-1,scoring='roc_auc',solver='newton-cg',penalty='l2') …

5
Bagaimana cara melakukan imputasi nilai dalam jumlah poin data yang sangat besar?
Saya memiliki dataset yang sangat besar dan sekitar 5% nilai acak hilang. Variabel-variabel ini berkorelasi satu sama lain. Contoh berikut dataset R hanyalah contoh mainan dengan data berkorelasi dummy. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
Perbedaan antara implementasi scikit-learn PCA dan TruncatedSVD
Saya memahami hubungan antara Analisis Komponen Utama dan Dekomposisi Nilai Singular pada tingkat aljabar / eksak. Pertanyaan saya adalah tentang implementasi scikit-learning . Dokumentasi mengatakan: " [TruncatedSVD] sangat mirip dengan PCA, tetapi beroperasi pada vektor sampel secara langsung, bukan pada matriks kovarians. ", Yang akan mencerminkan perbedaan aljabar antara kedua …
12 pca  scikit-learn  svd  scipy 

1
Scikit predict_proba interpretasi keluaran
Saya bekerja dengan perpustakaan scikit-learn dengan python. Dalam kode di bawah ini, saya memprediksi probabilitas tetapi saya tidak tahu cara membaca output. Menguji data from sklearn.ensemble import RandomForestClassifier as RF from sklearn import cross_validation X = np.array([[5,5,5,5],[10,10,10,10],[1,1,1,1],[6,6,6,6],[13,13,13,13],[2,2,2,2]]) y = np.array([0,1,1,0,1,2]) Pisahkan dataset X_train, X_test, y_train, y_test = cross_validation.train_test_split(X, y, test_size=0.5, …

2
Dimungkinkan untuk mengevaluasi GLM dengan Python / scikit-belajar menggunakan distribusi Poisson, Gamma, atau Tweedie sebagai keluarga untuk distribusi kesalahan?
Mencoba mempelajari beberapa Python dan Sklearn, tetapi untuk pekerjaan saya, saya perlu menjalankan regresi yang menggunakan distribusi kesalahan dari keluarga Poisson, Gamma, dan terutama Tweedie. Saya tidak melihat apa pun dalam dokumentasi tentang mereka, tetapi mereka berada di beberapa bagian dari distribusi R, jadi saya bertanya-tanya apakah ada yang melihat …


1
Metode Nystroem untuk Perkiraan Kernel
Saya telah membaca tentang metode Nyström untuk aproximation kernel peringkat rendah. Metode ini diimplementasikan dalam scikit-learn [1] sebagai metode untuk memproyeksikan sampel data ke pendekatan peringkat rendah dari pemetaan fitur kernel. Sepengetahuan saya, diberikan set pelatihan dan fungsi kernel, itu menghasilkan pendekatan peringkat rendah dari matriks kernel dengan menerapkan SVD …

1
Mengapa banyak pilihan K menurunkan nilai validasi silang saya?
Bermain-main dengan Boston Housing Dataset dan RandomForestRegressor(parameter w / default) di scikit-belajar, saya melihat sesuatu yang aneh: skor validasi silang menurun ketika saya meningkatkan jumlah lipatan di atas 10. Strategi validasi silang saya adalah sebagai berikut: cv_met = ShuffleSplit(n_splits=k, test_size=1/k) scores = cross_val_score(est, X, y, cv=cv_met) ... di mana num_cvsbervariasi. …



1
Pilihan fitur apa yang bisa digunakan untuk uji Chi square?
Di sini saya bertanya tentang apa yang biasanya dilakukan orang lain untuk menggunakan uji kuadrat untuk hasil pemilihan fitur dalam pembelajaran terawasi. Jika saya mengerti dengan benar, apakah mereka menguji independensi antara setiap fitur dan hasil, dan membandingkan nilai p antara tes untuk setiap fitur? Di http://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test , Uji chi-squared …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.