Statistik dan Big Data

2

Menafsirkan Penyimpangan Sisa dan Null dalam GLM R

Bagaimana menafsirkan Null dan Residual Deviance di GLM di R? Seperti, kami katakan bahwa AIC yang lebih kecil lebih baik. Apakah ada interpretasi yang serupa dan cepat untuk penyimpangan juga? Penyimpangan kosong: 1146.1 pada 1077 derajat kebebasan Penyimpangan residual: 4589,4 pada 1099 derajat kebebasan AIC: 11089

47 generalized-linear-model deviance

3

Cara menggunakan korelasi Pearson dengan benar dengan deret waktu

Saya memiliki 2 time-series (keduanya mulus) yang saya ingin berkorelasi silang untuk melihat bagaimana mereka berkorelasi. Saya bermaksud menggunakan koefisien korelasi Pearson. Apakah ini tepat? Pertanyaan kedua saya adalah saya dapat memilih untuk mencicipi 2 seri-waktu sebaik yang saya suka. yaitu saya dapat memilih berapa banyak poin data yang akan …

47 time-series correlation pearson-r smoothing

3

Memahami Naif Bayes

Dari StatSoft, Inc. (2013), Electronic Statistics Textbook , "Naive Bayes Classifier" : Untuk menunjukkan konsep Klasifikasi Naïve Bayes, perhatikan contoh yang ditampilkan dalam ilustrasi di atas. Seperti yang ditunjukkan, objek dapat diklasifikasikan sebagai GREEN atau RED. Tugas saya adalah untuk mengklasifikasikan kasus baru saat mereka tiba, yaitu memutuskan label kelas …

47 machine-learning naive-bayes

5

Kesimpulan statistik ketika sampel “adalah” populasi

Bayangkan Anda harus melaporkan jumlah kandidat yang setiap tahun mengikuti tes yang diberikan. Tampaknya agak sulit untuk menyimpulkan% keberhasilan yang diamati, misalnya, pada populasi yang lebih luas karena kekhususan populasi target. Jadi, Anda dapat mempertimbangkan bahwa data ini mewakili seluruh populasi. Apakah hasil tes menunjukkan bahwa proporsi pria dan wanita …

47 hypothesis-testing population sampling

5

Jika uji-t dan ANOVA untuk dua kelompok adalah setara, mengapa asumsi mereka tidak sama?

Saya yakin saya sudah membungkus ini sepenuhnya di kepala saya, tetapi saya tidak bisa memahaminya. Uji-t membandingkan dua distribusi normal menggunakan distribusi Z. Itu sebabnya ada asumsi normalitas dalam DATA. ANOVA setara dengan regresi linier dengan variabel dummy, dan menggunakan jumlah kuadrat, sama seperti OLS. Itu sebabnya ada asumsi normalitas …

47 distributions regression normality-assumption t-test anova

4

Mengapa kita meminimalkan kemungkinan negatif jika itu setara dengan memaksimalkan kemungkinan?

Pertanyaan ini sudah lama membuat saya bingung. Saya mengerti penggunaan 'log' dalam memaksimalkan kemungkinan jadi saya tidak bertanya tentang 'log'. Pertanyaan saya adalah, karena memaksimalkan kemungkinan log sama dengan meminimalkan "negative log likelihood" (NLL), mengapa kami menciptakan NLL ini? Mengapa kita tidak menggunakan "kemungkinan positif" sepanjang waktu? Dalam keadaan apa …

47 maximum-likelihood likelihood

2

Mengapa Convolutional Neural Networks tidak menggunakan Mesin Vector Support untuk mengklasifikasikan?

Dalam beberapa tahun terakhir, Jaringan Neural Konvolusional (CNN) telah menjadi yang terdepan untuk pengenalan objek dalam visi komputer. Biasanya, CNN terdiri dari beberapa lapisan konvolusional, diikuti oleh dua lapisan yang sepenuhnya terhubung. Intuisi di balik ini adalah bahwa lapisan konvolusional belajar representasi yang lebih baik dari data input, dan lapisan …

46 machine-learning neural-networks svm deep-learning conv-neural-network

6

Apakah residu "diprediksi dikurangi aktual" atau "diprediksi dikurangi aktual"

Saya telah melihat "residual" didefinisikan dengan beragam sebagai "prediksi minus nilai aktual" atau "aktual dikurangi nilai prediksi". Untuk tujuan ilustrasi, untuk menunjukkan bahwa kedua formula digunakan secara luas, bandingkan pencarian Web berikut: residual "diprediksi dikurangi aktual" residual "minus aktual yang diprediksi" Dalam praktiknya, hampir tidak pernah ada bedanya, karena tanda …

46 residuals terminology error

2

Mengapa pengujian hipotesis frequentist menjadi bias terhadap penolakan hipotesis nol dengan sampel yang cukup besar?

Saya baru saja membaca artikel ini tentang faktor Bayes untuk masalah yang sama sekali tidak terkait ketika saya menemukan bagian ini Pengujian hipotesis dengan faktor Bayes lebih kuat daripada pengujian hipotesis frequentist, karena bentuk Bayesian menghindari bias pemilihan model, mengevaluasi bukti yang mendukung hipotesis nol, termasuk ketidakpastian model, dan memungkinkan …

46 hypothesis-testing frequentist

2

Mengapa seorang Bayesian tidak diizinkan untuk melihat residunya?

Dalam artikel "Diskusi: Haruskah Ekolog Menjadi Bayesians?" Brian Dennis memberikan pandangan yang mengejutkan dan positif dari statistik Bayesian ketika tujuannya tampaknya untuk memperingatkan orang tentang hal itu. Namun, dalam satu paragraf, tanpa kutipan atau justifikasi, ia mengatakan: Bayesians, Anda lihat, tidak diizinkan untuk melihat residu mereka. Itu melanggar prinsip kemungkinan …

46 bayesian residuals frequentist likelihood-principle

7

Mengapa "signifikan secara statistik" tidak cukup?

Saya telah menyelesaikan analisis data saya dan mendapatkan "hasil yang signifikan secara statistik" yang konsisten dengan hipotesis saya. Namun, seorang siswa dalam statistik mengatakan kepada saya bahwa ini adalah kesimpulan prematur. Mengapa? Apakah ada hal lain yang perlu dimasukkan dalam laporan saya?

46 hypothesis-testing statistical-significance spss p-value

2

Apa kata invers dari matriks kovarian tentang data? (Secara intuitif)

Saya ingin tahu tentang sifat . Adakah yang bisa mengatakan sesuatu yang intuitif tentang "Apa yang dikatakan tentang data?"Σ−1Σ−1\Sigma^{-1}Σ−1Σ−1\Sigma^{-1} Sunting: Terima kasih atas balasannya Setelah mengikuti beberapa kursus hebat, saya ingin menambahkan beberapa poin: Ini adalah ukuran informasi, yaitu, adalah jumlah info di sepanjang arah .xTΣ−1xxTΣ−1xx^T\Sigma^{-1}xxxx Dualitas: Karena adalah pasti …

46 bayesian maximum-likelihood covariance matrix

3

Apakah jumlah optimal pohon di hutan acak bergantung pada jumlah prediktor?

Adakah yang bisa menjelaskan mengapa kita membutuhkan banyak pohon di hutan acak ketika jumlah prediktornya besar? Bagaimana kita bisa menentukan jumlah pohon yang optimal?

46 machine-learning random-forest

3

Model linier dengan respons log-transformasi vs. model linier umum dengan tautan log

Dalam tulisan ini berjudul "MEMILIH ANTARA MODEL LINEAR UMUM YANG DITERAPKAN UNTUK DATA MEDIS" para penulis menulis: Dalam model linier umum, rata-rata ditransformasikan, oleh fungsi tautan, alih-alih mengubah respons itu sendiri. Dua metode transformasi dapat menghasilkan hasil yang sangat berbeda; misalnya, rata-rata respons yang ditransformasi-log tidak sama dengan logaritma dari …

46 generalized-linear-model model-selection lognormal

7

Grafik untuk hubungan antara dua variabel ordinal

Apa grafik yang sesuai untuk menggambarkan hubungan antara dua variabel ordinal? Beberapa opsi yang dapat saya pikirkan: Scatter plot dengan menambahkan jitter acak untuk menghentikan titik persembunyian satu sama lain. Rupanya grafik standar - Minitab menyebutnya sebagai "plot nilai individu". Menurut pendapat saya itu mungkin menyesatkan karena secara visual mendorong …

46 data-visualization categorical-data ordinal-data scatterplot