Statistik dan Big Data python

2

Saya memiliki dataset dengan sebagian besar variabel keuangan (120 fitur, 4k contoh) yang sebagian besar sangat berkorelasi dan sangat bising (indikator teknis, misalnya) jadi saya ingin memilih sekitar maks 20-30 untuk digunakan nanti dengan pelatihan model (klasifikasi biner - bertambah berkurang). Saya sedang berpikir tentang menggunakan hutan acak untuk peringkat …

16 feature-selection random-forest python

3

Variabel bertingkat dalam pelatihan LDA Multikelas

Saya melatih multi-class LDA classifier dengan 8 kelas data. Saat melakukan pelatihan, saya mendapat peringatan: " Variabel collinear " Saya mendapatkan akurasi pelatihan lebih dari 90% . Saya menggunakan perpustakaan scikits-learn di Python do train dan menguji data multi-kelas. Saya mendapatkan akurasi pengujian yang layak juga (sekitar 85% -95% ). …

16 machine-learning classification python scikit-learn discriminant-analysis

2

Perlihatkan rata-rata sebagai ganti median di boxplot [ditutup]

Tutup. Pertanyaan ini di luar topik . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaannya jadi begitu topik untuk Cross Validated. Ditutup 4 bulan lalu . Saat memplot boxplot dengan python matplotblib, garis di tengah plot adalah median distribusi. Apakah ada kemungkinan untuk memiliki garis rata-rata sebagai …

15 data-visualization python matplotlib boxplot

3

Regresi Logistik: Belajar Scikit vs glmnet

Saya mencoba untuk menduplikasi hasil dari sklearnperpustakaan regresi logistik menggunakan glmnetpaket di R. sklearnminw,c12wTw+C∑i=1Nlog(exp(−yi(XTiw+c))+1)minw,c12wTw+C∑i=1Nlog⁡(exp⁡(-ysaya(XsayaTw+c))+1)\min_{w,c} \frac12 w^Tw + C\sum_{i=1}^N \log(\exp(-y_i(X_i^Tw+c)) + 1) Dari sketsa dari glmnet, pelaksanaannya meminimalkan biaya yang sedikit berbeda fungsi minβ,β0- [ 1N∑i =1Nysaya(β0+xTsayaβ) - log( 1 + e( β0+ xTsayaβ)) ] + λ [ ( α - …

15 r logistic python scikit-learn glmnet

1

Bagaimana cara menafsirkan matriks kovarians dari kecocokan kurva?

Saya tidak terlalu hebat dalam statistik, jadi minta maaf jika ini adalah pertanyaan sederhana. Saya menyesuaikan kurva dengan beberapa data, dan kadang-kadang data saya paling cocok dengan eksponensial negatif dalam bentuk , dan kadang-kadang cocok lebih dekat dengan . Namun, kadang-kadang keduanya gagal, dan saya ingin kembali ke linier. Pertanyaan …

15 variance model-selection python curve-fitting covariance-matrix

3

Bagaimana memplot output data clustering?

Saya mencoba mengelompokkan satu set data (satu set tanda) dan mendapat 2 kluster. Saya ingin menggambarkannya secara grafis. Agak bingung dengan representasi, karena saya tidak punya koordinat (x, y). Juga mencari fungsi MATLAB / Python untuk melakukannya. EDIT Saya pikir memposting data membuat pertanyaan menjadi lebih jelas. Saya punya dua …

15 clustering data-visualization python

1

Metode perbandingan multipel mana yang digunakan untuk model lmer: lsmeans atau glht?

Saya menganalisis set data menggunakan model efek campuran dengan satu efek tetap (kondisi) dan dua efek acak (peserta karena desain subjek dan pasangan dalam). Model ini dihasilkan dengan lme4paket: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Selanjutnya, saya melakukan uji rasio kemungkinan model ini terhadap model tanpa efek tetap (kondisi) dan memiliki perbedaan yang signifikan. Ada …

15 r repeated-measures multiple-comparisons post-hoc lsmeans bayesian posterior marginal integral anova time-series regularization machine-learning pca computational-statistics references inference regression cross-validation python random-forest chi-squared spearman-rho r machine-learning confidence-interval bagging clustering feature-selection model-selection bic hypothesis-testing kurtosis r regression residuals terminology

3

Uji apakah distribusi multidimensi adalah sama

Katakanlah saya memiliki dua atau lebih populasi sampel vektor bernilai kontinu n-dimensi. Apakah ada cara nonparametrik untuk menguji apakah sampel ini dari distribusi yang sama? Jika demikian, apakah ada fungsi dalam R atau python untuk ini?

15 r distributions nonparametric python

2

Perbedaan antara memilih fitur berdasarkan “regresi F” dan berdasarkan nilai

Apakah membandingkan fitur menggunakan fitur F-regressionyang sama dengan yang berhubungan dengan label secara individual dan mengamati nilai ?R2R2R^2 Saya sering melihat rekan-rekan saya menggunakan pilihan F regressionuntuk fitur dalam pipa pembelajaran mesin mereka dari sklearn: sklearn.feature_selection.SelectKBest(score_func=sklearn.feature_selection.f_regression...)` Beberapa tolong beri tahu saya - mengapa itu memberikan hasil yang sama seperti hanya …

15 feature-selection python scikit-learn r-squared f-test

2

Pengambilan sampel dari distribusi von Mises-Fisher dengan Python?

Saya mencari cara sederhana untuk mengambil sampel dari distribusi multivariat von Mises-Fisher dengan Python. Saya telah melihat dalam modul stats dalam modul scipy dan numpy tetapi hanya menemukan distribusi univariat von Mises. Apakah ada kode yang tersedia? Saya belum menemukan. Rupanya, Wood (1994) telah merancang algoritma untuk pengambilan sampel dari …

14 distributions sampling python

1

Pemasangan distribusi beta di Scipy

Menurut Wikipedia distribusi probabilitas beta memiliki dua parameter bentuk: dan β .αα\alphaββ\beta Ketika saya memanggil scipy.stats.beta.fit(x)Python, di mana xada sekelompok angka dalam kisaran , 4 nilai dikembalikan. Ini menurut saya aneh.[0,1][0,1][0,1] Setelah googling saya menemukan salah satu nilai yang dikembalikan harus 'lokasi', karena variabel ketiga adalah 0 jika saya panggil …

14 python scipy beta-distribution

3

Perbedaan antara statsmodel OLS dan regresi linier scikit

Saya punya pertanyaan tentang dua metode berbeda dari perpustakaan yang berbeda yang tampaknya melakukan pekerjaan yang sama. Saya mencoba membuat model regresi linier. Berikut adalah kode yang saya gunakan perpustakaan statsmodel dengan OLS: X_train, X_test, y_train, y_test = cross_validation.train_test_split(x, y, test_size=0.3, random_state=1) x_train = sm.add_constant(X_train) model = sm.OLS(y_train, x_train) results …

14 regression python scikit-learn statsmodels

1

Analisis Sensitivitas dalam Jaringan Saraf Tiruan

Mengikuti pertanyaan yang sudah dijawab ( Mengekstraksi bobot penting dari jaringan umpan-maju Satu-Lapisan ) Saya mencari kesimpulan tentang relevansi input dalam jaringan saraf. Mempertimbangkan jaring yang dalam, di mana merekonstruksi kepentingan input dengan mundur melewati lapisan-lapisan dari simpul keluaran yang menarik mungkin sulit atau memakan waktu, saya bertanya-tanya apakah ada …

14 neural-networks python feature-selection sensitivity-analysis

1

Menggunakan iloc untuk menetapkan nilai [tertutup]

Tutup. Pertanyaan ini di luar topik . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga sesuai topik untuk Cross Validated. Ditutup 2 tahun yang lalu . Baris ini mengembalikan 4 baris pertama dalam kerangka data combineduntukfeature_a combined.iloc[0:4]["feature_a"] Seperti yang diharapkan, baris berikutnya ini mengembalikan baris 2, …

13 python pandas

2

Kapan Harus Log / Exp Variabel Anda saat menggunakan Model Hutan Acak?

Saya sedang melakukan regresi menggunakan Hutan Acak untuk memprediksi harga berdasarkan beberapa atribut. Kode ditulis dalam Python menggunakan Scikit-learn. Bagaimana Anda memutuskan apakah Anda harus mengubah variabel Anda menggunakan exp/ logsebelum menggunakannya agar sesuai dengan model regresi? Apakah perlu ketika menggunakan pendekatan Ensemble seperti Hutan Acak?

13 regression machine-learning predictive-models python random-forest

Pertanyaan yang diberi tag «python»