Statistik dan Big Data scikit-learn

1

Bagaimana cara membagi dataset untuk validasi silang, kurva pembelajaran, dan evaluasi akhir?

Apa strategi yang tepat untuk memisahkan dataset? Saya meminta umpan balik pada pendekatan berikut (tidak pada parameter individu seperti test_sizeatau n_iter, tetapi jika saya menggunakan X, y, X_train, y_train, X_test, dan y_testtepat dan jika urutan masuk akal): (memperluas contoh ini dari dokumentasi scikit-learn) 1. Muat dataset from sklearn.datasets import load_digits …

70 machine-learning cross-validation python scikit-learn

1

Pengkodean satu-panas vs dummy di Scikit-learn

Ada dua cara berbeda untuk menyandikan variabel kategori. Katakanlah, satu variabel kategori memiliki nilai n . Pengkodean satu-panas mengkonversinya menjadi n variabel, sedangkan pengkodean dummy mengubahnya menjadi variabel n-1 . Jika kita memiliki variabel k kategori, masing-masing memiliki nilai n . Satu pengkodean panas berakhir dengan variabel kn , sedangkan …

50 regression categorical-data data-transformation scikit-learn data-preprocessing

5

Bagaimana cara menafsirkan bobot fitur SVM?

Saya mencoba menafsirkan bobot variabel yang diberikan dengan memasang SVM linear. (Saya menggunakan scikit-learn ): from sklearn import svm svm = svm.SVC(kernel='linear') svm.fit(features, labels) svm.coef_ Saya tidak dapat menemukan apa pun dalam dokumentasi yang secara khusus menyatakan bagaimana bobot ini dihitung atau ditafsirkan. Apakah tanda bobot itu ada hubungannya dengan …

42 svm feature-selection python scikit-learn

2

Panda / Statsmodel / Scikit-belajar

Apakah Pandas, Statsmodels, dan Scikit-mempelajari berbagai implementasi pembelajaran mesin / statistik yang berbeda, atau apakah ini saling melengkapi satu sama lain? Manakah dari ini yang memiliki fungsi paling komprehensif? Yang mana yang dikembangkan dan / atau didukung secara aktif? Saya harus menerapkan regresi logistik. Adakah saran untuk yang mana yang …

41 machine-learning python scikit-learn statsmodels pandas

2

Regresi Logistik: Scikit Learn vs Statsmodels

Saya mencoba memahami mengapa output dari regresi logistik kedua perpustakaan ini memberikan hasil yang berbeda. Saya menggunakan dataset dari tutorial idre UCLA , memprediksi admitberdasarkan gre, gpadan rank. rankdiperlakukan sebagai variabel kategori, jadi pertama-tama dikonversi ke variabel dummy dengan rank_1dijatuhkan. Kolom intersep juga ditambahkan. df = pd.read_csv("https://stats.idre.ucla.edu/stat/data/binary.csv") y, X = …

31 regression logistic python scikit-learn statsmodels

3

Regresi polinomial menggunakan scikit-learning

Saya mencoba menggunakan scikit-learning untuk regresi polinomial. Dari apa yang saya baca regresi polinomial adalah kasus khusus dari regresi linier. Saya berharap bahwa mungkin salah satu model linear umum scikit dapat diparameterisasi agar sesuai dengan polinomial berurutan lebih tinggi tetapi saya tidak melihat opsi untuk melakukan itu. Saya berhasil menggunakan …

29 regression machine-learning large-data polynomial scikit-learn

1

apa arti angka-angka dalam laporan klasifikasi sklearn?

Saya memiliki contoh di bawah ini yang saya ambil dari dokumentasi sklearn's sklearn.metrics.classification_report. Apa yang saya tidak mengerti adalah mengapa ada nilai f1, nilai presisi dan recall untuk setiap kelas di mana saya percaya kelas adalah label prediktor? Saya pikir skor f1 memberi tahu Anda keakuratan keseluruhan model. Juga, apa …

29 machine-learning python scikit-learn precision-recall

1

Bisakah derajat kebebasan menjadi angka non-integer?

Ketika saya menggunakan GAM, itu memberi saya sisa DF adalah (baris terakhir dalam kode). Apa artinya? Melampaui contoh GAM, Secara umum, bisakah jumlah derajat kebebasan menjadi angka yang bukan bilangan bulat?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

2

Area di bawah Precision-Recall Curve (AUC dari PR-curve) dan Average Precision (AP)

Apakah Average Precision (AP) area di bawah Precision-Recall Curve (AUC dari PR-curve)? EDIT: berikut adalah beberapa komentar tentang perbedaan dalam PR AUC dan AP. AUC diperoleh dengan interpolasi trapesium dari presisi. Metrik alternatif dan biasanya hampir setara adalah Average Precision (AP), yang dikembalikan sebagai info.ap. Ini adalah rata-rata presisi yang …

27 scikit-learn precision-recall auc average-precision

4

Ensemble dari berbagai jenis regresi menggunakan scikit-learn (atau kerangka python lainnya)

Saya mencoba menyelesaikan tugas regresi. Saya menemukan bahwa 3 model bekerja dengan baik untuk subset data yang berbeda: LassoLARS, SVR dan Gradient Tree Boosting. Saya perhatikan bahwa ketika saya membuat prediksi menggunakan ketiga model ini dan kemudian membuat tabel 'output nyata' dan output dari 3 model saya, saya melihat bahwa …

27 regression scikit-learn ensemble

2

Mengapa Python scikit-learn LDA tidak bekerja dengan benar dan bagaimana cara menghitung LDA melalui SVD?

Saya menggunakan Linear Discriminant Analysis (LDA) dari scikit-learnperpustakaan pembelajaran mesin (Python) untuk pengurangan dimensi dan sedikit ingin tahu tentang hasilnya. Sekarang saya bertanya-tanya apa yang dilakukan LDA scikit-learnsehingga hasilnya terlihat berbeda dari, misalnya, pendekatan manual atau LDA yang dilakukan di R. Akan lebih bagus jika seseorang bisa memberi saya wawasan …

26 python scikit-learn dimensionality-reduction discriminant-analysis svd

2

Berarti kesalahan persentase absolut (MAPE) di Scikit-belajar [ditutup]

Tutup. Pertanyaan ini di luar topik . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga sesuai topik untuk Cross Validated. Ditutup 2 tahun yang lalu . Bagaimana kita menghitung kesalahan persentase absolut rata-rata (MAPE) dari prediksi kita menggunakan Python dan scikit-learn? Dari dokumen , kami hanya …

24 predictive-models python scikit-learn mape

5

Overfitting: Tidak ada peluru perak?

Pemahaman saya adalah bahwa bahkan ketika mengikuti prosedur validasi silang dan pemilihan model yang tepat, overfitting akan terjadi jika seseorang mencari model dengan cukup keras , kecuali jika seseorang memaksakan pembatasan pada kompleksitas model, titik. Selain itu, sering kali orang mencoba mempelajari hukuman pada model kompleksitas dari data yang merusak …

21 machine-learning cross-validation goodness-of-fit scikit-learn caret

2

PCA dalam numpy dan sklearn menghasilkan hasil yang berbeda

Apakah saya salah memahami sesuatu. Ini kode saya menggunakan sklearn import numpy as np import matplotlib.pyplot as plt from mpl_toolkits.mplot3d import Axes3D from sklearn import decomposition from sklearn import datasets from sklearn.preprocessing import StandardScaler pca = decomposition.PCA(n_components=3) x = np.array([ [0.387,4878, 5.42], [0.723,12104,5.25], [1,12756,5.52], [1.524,6787,3.94], ]) pca.fit_transform(x) Keluaran: array([[ -4.25324997e+03, …

21 pca python scikit-learn

2

Cara menggunakan fungsi validasi silang scikit-learn pada multi-label classifier

Saya menguji berbagai pengklasifikasi pada kumpulan data di mana terdapat 5 kelas dan setiap instance dapat menjadi milik satu atau lebih dari kelas-kelas ini, jadi saya menggunakan pengklasifikasi multi-label scikit-learn, khususnya sklearn.multiclass.OneVsRestClassifier. Sekarang saya ingin melakukan validasi silang menggunakan sklearn.cross_validation.StratifiedKFold. Ini menghasilkan kesalahan berikut: Traceback (most recent call last): File …

20 cross-validation python multi-class scikit-learn multilabel

Pertanyaan yang diberi tag «scikit-learn»