Statistik dan Big Data

T&J untuk orang-orang yang tertarik dalam statistik, pembelajaran mesin, analisis data, penambangan data, dan visualisasi data

2
Menafsirkan Penyimpangan Sisa dan Null dalam GLM R
Bagaimana menafsirkan Null dan Residual Deviance di GLM di R? Seperti, kami katakan bahwa AIC yang lebih kecil lebih baik. Apakah ada interpretasi yang serupa dan cepat untuk penyimpangan juga? Penyimpangan kosong: 1146.1 pada 1077 derajat kebebasan Penyimpangan residual: 4589,4 pada 1099 derajat kebebasan AIC: 11089


3
Memahami Naif Bayes
Dari StatSoft, Inc. (2013), Electronic Statistics Textbook , "Naive Bayes Classifier" : Untuk menunjukkan konsep Klasifikasi Naïve Bayes, perhatikan contoh yang ditampilkan dalam ilustrasi di atas. Seperti yang ditunjukkan, objek dapat diklasifikasikan sebagai GREEN atau RED. Tugas saya adalah untuk mengklasifikasikan kasus baru saat mereka tiba, yaitu memutuskan label kelas …

5
Kesimpulan statistik ketika sampel “adalah” populasi
Bayangkan Anda harus melaporkan jumlah kandidat yang setiap tahun mengikuti tes yang diberikan. Tampaknya agak sulit untuk menyimpulkan% keberhasilan yang diamati, misalnya, pada populasi yang lebih luas karena kekhususan populasi target. Jadi, Anda dapat mempertimbangkan bahwa data ini mewakili seluruh populasi. Apakah hasil tes menunjukkan bahwa proporsi pria dan wanita …

5
Jika uji-t dan ANOVA untuk dua kelompok adalah setara, mengapa asumsi mereka tidak sama?
Saya yakin saya sudah membungkus ini sepenuhnya di kepala saya, tetapi saya tidak bisa memahaminya. Uji-t membandingkan dua distribusi normal menggunakan distribusi Z. Itu sebabnya ada asumsi normalitas dalam DATA. ANOVA setara dengan regresi linier dengan variabel dummy, dan menggunakan jumlah kuadrat, sama seperti OLS. Itu sebabnya ada asumsi normalitas …

4
Mengapa kita meminimalkan kemungkinan negatif jika itu setara dengan memaksimalkan kemungkinan?
Pertanyaan ini sudah lama membuat saya bingung. Saya mengerti penggunaan 'log' dalam memaksimalkan kemungkinan jadi saya tidak bertanya tentang 'log'. Pertanyaan saya adalah, karena memaksimalkan kemungkinan log sama dengan meminimalkan "negative log likelihood" (NLL), mengapa kami menciptakan NLL ini? Mengapa kita tidak menggunakan "kemungkinan positif" sepanjang waktu? Dalam keadaan apa …

2
Mengapa Convolutional Neural Networks tidak menggunakan Mesin Vector Support untuk mengklasifikasikan?
Dalam beberapa tahun terakhir, Jaringan Neural Konvolusional (CNN) telah menjadi yang terdepan untuk pengenalan objek dalam visi komputer. Biasanya, CNN terdiri dari beberapa lapisan konvolusional, diikuti oleh dua lapisan yang sepenuhnya terhubung. Intuisi di balik ini adalah bahwa lapisan konvolusional belajar representasi yang lebih baik dari data input, dan lapisan …

6
Apakah residu "diprediksi dikurangi aktual" atau "diprediksi dikurangi aktual"
Saya telah melihat "residual" didefinisikan dengan beragam sebagai "prediksi minus nilai aktual" atau "aktual dikurangi nilai prediksi". Untuk tujuan ilustrasi, untuk menunjukkan bahwa kedua formula digunakan secara luas, bandingkan pencarian Web berikut: residual "diprediksi dikurangi aktual" residual "minus aktual yang diprediksi" Dalam praktiknya, hampir tidak pernah ada bedanya, karena tanda …

2
Mengapa pengujian hipotesis frequentist menjadi bias terhadap penolakan hipotesis nol dengan sampel yang cukup besar?
Saya baru saja membaca artikel ini tentang faktor Bayes untuk masalah yang sama sekali tidak terkait ketika saya menemukan bagian ini Pengujian hipotesis dengan faktor Bayes lebih kuat daripada pengujian hipotesis frequentist, karena bentuk Bayesian menghindari bias pemilihan model, mengevaluasi bukti yang mendukung hipotesis nol, termasuk ketidakpastian model, dan memungkinkan …

2
Mengapa seorang Bayesian tidak diizinkan untuk melihat residunya?
Dalam artikel "Diskusi: Haruskah Ekolog Menjadi Bayesians?" Brian Dennis memberikan pandangan yang mengejutkan dan positif dari statistik Bayesian ketika tujuannya tampaknya untuk memperingatkan orang tentang hal itu. Namun, dalam satu paragraf, tanpa kutipan atau justifikasi, ia mengatakan: Bayesians, Anda lihat, tidak diizinkan untuk melihat residu mereka. Itu melanggar prinsip kemungkinan …


2
Apa kata invers dari matriks kovarian tentang data? (Secara intuitif)
Saya ingin tahu tentang sifat . Adakah yang bisa mengatakan sesuatu yang intuitif tentang "Apa yang dikatakan tentang data?"Σ−1Σ−1\Sigma^{-1}Σ−1Σ−1\Sigma^{-1} Sunting: Terima kasih atas balasannya Setelah mengikuti beberapa kursus hebat, saya ingin menambahkan beberapa poin: Ini adalah ukuran informasi, yaitu, adalah jumlah info di sepanjang arah .xTΣ−1xxTΣ−1xx^T\Sigma^{-1}xxxx Dualitas: Karena adalah pasti …


3
Model linier dengan respons log-transformasi vs. model linier umum dengan tautan log
Dalam tulisan ini berjudul "MEMILIH ANTARA MODEL LINEAR UMUM YANG DITERAPKAN UNTUK DATA MEDIS" para penulis menulis: Dalam model linier umum, rata-rata ditransformasikan, oleh fungsi tautan, alih-alih mengubah respons itu sendiri. Dua metode transformasi dapat menghasilkan hasil yang sangat berbeda; misalnya, rata-rata respons yang ditransformasi-log tidak sama dengan logaritma dari …

7
Grafik untuk hubungan antara dua variabel ordinal
Apa grafik yang sesuai untuk menggambarkan hubungan antara dua variabel ordinal? Beberapa opsi yang dapat saya pikirkan: Scatter plot dengan menambahkan jitter acak untuk menghentikan titik persembunyian satu sama lain. Rupanya grafik standar - Minitab menyebutnya sebagai "plot nilai individu". Menurut pendapat saya itu mungkin menyesatkan karena secara visual mendorong …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.