Statistik dan Big Data

T&J untuk orang-orang yang tertarik dalam statistik, pembelajaran mesin, analisis data, penambangan data, dan visualisasi data

3
R - Bingung dengan Terminologi Sisa
Root berarti kuadrat kesalahan jumlah sisa kuadrat kesalahan standar residual berarti kesalahan kuadrat kesalahan tes Saya pikir saya dulu mengerti istilah-istilah ini, tetapi semakin saya melakukan masalah statistik semakin saya bingung di mana saya menebak diri saya. Saya ingin jaminan ulang & contoh nyata Saya dapat menemukan persamaannya secara online …



5
Backpropagation vs Genetic Algorithm untuk pelatihan Neural Network
Saya telah membaca beberapa makalah yang membahas pro dan kontra dari masing-masing metode, beberapa berpendapat bahwa GA tidak memberikan perbaikan dalam menemukan solusi optimal sementara yang lain menunjukkan bahwa itu lebih efektif. Tampaknya GA umumnya lebih disukai dalam literatur (walaupun kebanyakan orang memodifikasinya dengan cara tertentu untuk mencapai hasil yang …

2
Apa perbedaan praktis antara Benjamini & Hochberg (1995) dan prosedur tingkat penemuan palsu Benjamini & Yekutieli (2001)?
Program statistik saya mengimplementasikan prosedur Benjamini & Hochberg (1995) dan Benjamini & Yekutieli (2001) salah. Saya telah melakukan yang terbaik untuk membaca makalah selanjutnya, tetapi secara matematis cukup padat dan saya tidak cukup yakin saya memahami perbedaan antara prosedur. Saya dapat melihat dari kode yang mendasari dalam program statistik saya …

2
Pemilihan model dan validasi silang: Cara yang benar
Ada banyak utas di CrossValidated pada topik pemilihan model dan validasi silang. Berikut ini beberapa di antaranya: Validasi silang internal vs eksternal dan pemilihan model @ DikranMarsupial ini jawaban atas untuk seleksi Fitur dan cross-validasi Namun, jawaban atas utas tersebut cukup umum dan sebagian besar menyoroti masalah dengan pendekatan khusus …



2
Menafsirkan residu vs plot nilai pas untuk memverifikasi asumsi model linier
Pertimbangkan gambar berikut dari Model Linear Faraway dengan R (2005, hlm. 59). Plot pertama tampaknya menunjukkan bahwa residu dan nilai-nilai yang dipasang tidak berkorelasi, karena mereka harus dalam model linier homoseksual dengan kesalahan yang terdistribusi normal. Oleh karena itu, plot kedua dan ketiga, yang tampaknya mengindikasikan ketergantungan antara residu dan …



5
Bisakah Anda menyesuaikan diri dengan pelatihan algoritma pembelajaran mesin menggunakan CV / Bootstrap?
Pertanyaan ini mungkin terlalu terbuka untuk mendapatkan jawaban yang pasti, tetapi mudah-mudahan tidak. Algoritma pembelajaran mesin, seperti SVM, GBM, Random Forest dll, umumnya memiliki beberapa parameter gratis yang, di luar beberapa pedoman praktis, perlu disetel ke setiap kumpulan data. Ini umumnya dilakukan dengan semacam teknik re-sampling (bootstrap, CV dll) agar …


3
Perbedaan antara model linier umum & model campuran linier umum
Saya bertanya-tanya apa perbedaan antara GLM campuran dan tidak dicampur. Misalnya, di SPSS menu tarik turun memungkinkan pengguna untuk masuk: analyze-> generalized linear models-> generalized linear models & analyze-> mixed models-> generalized linear Apakah mereka menangani nilai-nilai yang hilang secara berbeda? Variabel dependen saya adalah biner dan saya memiliki beberapa …


Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.