Statistik dan Big Data

T&J untuk orang-orang yang tertarik dalam statistik, pembelajaran mesin, analisis data, penambangan data, dan visualisasi data

3
Apakah ada masalah pembelajaran terawasi yang jaringan saraf (dalam) jelas tidak bisa mengungguli metode lain?
Saya telah melihat orang-orang telah melakukan banyak upaya pada SVM dan kernel, dan mereka terlihat cukup menarik sebagai pemula dalam Machine Learning. Tetapi jika kita berharap bahwa hampir selalu kita dapat menemukan solusi yang lebih baik dalam hal Jaringan Saraf (dalam), apa arti dari mencoba metode lain di era ini? …

2
Apakah ini metodologi regresi yang canggih?
Saya telah mengikuti kompetisi Kaggle untuk waktu yang lama dan saya menyadari bahwa banyak strategi kemenangan melibatkan menggunakan setidaknya satu dari "bertiga besar": mengantongi, meningkatkan dan menumpuk. Untuk regresi, daripada berfokus pada membangun satu model regresi terbaik, membangun beberapa model regresi seperti (linier) regresi linier, hutan acak, KNN, NN, dan …

2
Perbedaan antara jarak Bhattacharyya dan divergensi KL
Saya mencari penjelasan intuitif untuk pertanyaan berikut: Dalam teori statistik dan informasi, apa perbedaan antara jarak Bhattacharyya dan divergensi KL, sebagai ukuran perbedaan antara dua distribusi probabilitas diskrit? Apakah mereka sama sekali tidak memiliki hubungan dan mengukur jarak antara dua distribusi probabilitas dengan cara yang sama sekali berbeda?

8
Apakah saya boleh menghapus outlier dari data?
Saya mencari cara untuk menghapus outlier dari dataset dan saya menemukan pertanyaan ini . Namun, dalam beberapa komentar dan jawaban untuk pertanyaan ini, orang-orang menyebutkan bahwa itu adalah praktik yang buruk untuk menghapus pencilan dari data. Dalam dataset saya, saya memiliki beberapa outlier yang sangat mungkin hanya karena kesalahan pengukuran. …
33 outliers 


2
Menemukan Kuartil di R
Saya sedang mengerjakan buku teks statistik sambil belajar R dan saya mengalami batu sandungan pada contoh berikut: Setelah melihat ?quantilesaya mencoba untuk membuat ulang ini di R dengan yang berikut: > nuclear <- c(7, 20, 16, 6, 58, 9, 20, 50, 23, 33, 8, 10, 15, 16, 104) > quantile(nuclear) …
33 r  quantiles 

1
Apa alasan intuitif di balik melakukan rotasi dalam Analisis Faktor / PCA & bagaimana memilih rotasi yang tepat?
Pertanyaan saya Apa alasan intuitif di balik melakukan rotasi faktor dalam analisis faktor (atau komponen dalam PCA)? Pemahaman saya adalah, jika variabel dimuat hampir sama di komponen atas (atau faktor) maka jelas sulit untuk membedakan komponen. Jadi dalam hal ini kita bisa menggunakan rotasi untuk mendapatkan diferensiasi komponen yang lebih …

3
Menafsirkan plot diagnostik residual untuk model GLM?
Saya mencari pedoman tentang cara menafsirkan plot residual model GLM. Terutama poisson, binomial negatif, model binomial. Apa yang bisa kita harapkan dari plot ini ketika modelnya "benar"? (misalnya, kami berharap varians akan tumbuh dengan meningkatnya nilai yang diprediksi, ketika berurusan dengan model Poisson) Saya tahu jawabannya tergantung pada model. Referensi …


4
(Mengapa) apakah model overfitted cenderung memiliki koefisien yang besar?
Saya membayangkan bahwa semakin besar koefisien pada suatu variabel, semakin besar kemampuan model untuk "berayun" dalam dimensi itu, memberikan peluang yang lebih besar untuk menyesuaikan kebisingan. Meskipun saya pikir saya punya perasaan yang wajar tentang hubungan antara varians dalam model dan koefisien besar, saya tidak memiliki alasan yang baik mengapa …


1
Bagaimana cara melatih dan memvalidasi model jaringan saraf dalam R?
Saya baru untuk pemodelan dengan jaringan saraf, tetapi saya berhasil membangun jaringan saraf dengan semua titik data yang tersedia yang cocok dengan data yang diamati dengan baik. Jaringan saraf dilakukan dalam R dengan paket nnet: require(nnet) ##33.8 is the highest value mynnet.fit <- nnet(DOC/33.80 ~ ., data = MyData, size …



2
Memahami nilai-p
Saya tahu bahwa ada banyak bahan yang menjelaskan nilai-p. Namun konsep ini tidak mudah dipahami dengan kuat tanpa klarifikasi lebih lanjut. Berikut adalah definisi nilai p dari Wikipedia: Nilai-p adalah probabilitas memperoleh statistik uji setidaknya paling ekstrem seperti yang sebenarnya diamati, dengan asumsi bahwa hipotesis nol itu benar. ( http://en.wikipedia.org/wiki/P-value …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.