Statistik dan Big Data

8

Dalam bukunya "Semua Statistik", Prof. Larry Wasserman menyajikan Contoh berikut (11.10, halaman 188). Misalkan kita memiliki kerapatan sedemikian sehingga , di mana adalah fungsi yang diketahui (tidak negatif, dapat diintegrasikan), dan konstanta normalisasi tidak diketahui .f ( x ) = cfffgf( x ) = cg( x )f(x)=cg(x)f(x)=c\,g(x)gggc > 0c>0c>0 Kami …

62 bayesian mathematical-statistics

8

Jika A dan B berkorelasi dengan C, mengapa A dan B tidak selalu berkorelasi?

Saya tahu secara empiris itulah masalahnya. Saya baru saja mengembangkan model yang mengalami teka-teki ini. Saya juga curiga itu belum tentu jawaban ya / tidak. Maksud saya jika kedua A dan B berkorelasi dengan C, ini mungkin memiliki beberapa implikasi mengenai korelasi antara A dan B. Tapi, implikasi ini mungkin …

62 correlation cross-correlation

4

Apakah varians jumlah sama dengan jumlah varians?

Apakah itu (selalu) benar bahwa V a r ( ¢i = 1mXsaya) = ∑i = 1mV a r ( Xsaya)?VSebuahr(∑saya=1mXsaya)=∑saya=1mVSebuahr(Xsaya)?\mathrm{Var}\left(\sum\limits_{i=1}^m{X_i}\right) = \sum\limits_{i=1}^m{\mathrm{Var}(X_i)} \>?

62 variance

5

Mengapa Jeffrey dulu bermanfaat?

Saya mengerti bahwa Jeffreys prior adalah invarian di bawah parameterisasi ulang. Namun, yang tidak saya mengerti adalah mengapa properti ini diinginkan. Mengapa Anda tidak ingin yang sebelumnya berubah di bawah perubahan variabel?

61 bayesian prior

3

Siapa yang membuat tabel normal standar pertama?

Saya akan memperkenalkan tabel normal standar di kelas statistik pengantar saya, dan itu membuat saya bertanya-tanya: siapa yang membuat tabel normal standar pertama? Bagaimana mereka melakukannya sebelum komputer datang? Aku ngeri memikirkan seseorang yang brute-force menghitung ribuan Riemann dengan tangan.

61 normal-distribution algorithms history tables

2

Rasio kemungkinan vs Bayes Factor

Saya agak penginjilan sehubungan dengan penggunaan rasio kemungkinan untuk mewakili bukti objektif untuk / terhadap suatu fenomena tertentu. Namun, saya baru-baru ini belajar bahwa faktor Bayes melayani fungsi yang sama dalam konteks metode Bayesian (yaitu prior subyektif dikombinasikan dengan faktor Bayes objektif untuk menghasilkan keadaan kepercayaan subjektif yang diperbarui secara …

61 likelihood-ratio bayes-factors

10

Apa yang dimaksud "Ilmuwan bangkit melawan signifikansi statistik"? (Komentar di Alam)

Judul Komentar dalam Ilmuwan bangkit melawan signifikansi statistik dimulai dengan: Valentin Amrhein, Sander Greenland, Blake McShane dan lebih dari 800 penandatangan menyerukan diakhirinya klaim hyped dan pemberhentian kemungkinan efek penting. dan kemudian berisi pernyataan seperti: Sekali lagi, kami tidak menganjurkan larangan nilai-nilai P, interval kepercayaan atau langkah-langkah statistik lainnya - …

61 statistical-significance p-value bias

2

Mengapa hanya tiga partisi? (pelatihan, validasi, tes)

Saat Anda mencoba menyesuaikan model dengan set data besar, saran umum adalah untuk membagi data menjadi tiga bagian: pelatihan, validasi, dan set data uji. Ini karena model biasanya memiliki tiga "level" parameter: "parameter" pertama adalah kelas model (misalnya SVM, jaringan saraf, hutan acak), set parameter kedua adalah parameter "regularisasi" atau …

61 machine-learning model-selection data-mining

5

Masalah apa yang diselesaikan metode penyusutan?

Musim liburan telah memberi saya kesempatan untuk meringkuk di samping api dengan The Elements of Statistics Learning . Berasal dari perspektif ekonometrik (sering), saya mengalami kesulitan memahami penggunaan metode penyusutan seperti regresi ridge, laso, dan regresi sudut terkecil (LAR). Biasanya, saya tertarik pada estimasi parameter sendiri dan dalam mencapai ketidakberpihakan …

61 lasso ridge-regression shrinkage lars

6

Apa perbedaan antara model "bersarang" dan "tidak bersarang"?

Dalam literatur tentang model hierarkis / bertingkat saya sering membaca tentang "model bersarang" dan "model tidak bersarang", tetapi apa artinya ini? Adakah yang bisa memberi saya beberapa contoh atau memberi tahu saya tentang implikasi matematis dari ungkapan ini?

61 hypothesis-testing terminology nested-models nested-data

9

Bagaimana dan mengapa kerja normalisasi dan penskalaan fitur berfungsi?

Saya melihat bahwa banyak algoritma pembelajaran mesin bekerja lebih baik dengan pembatalan rata-rata dan penyamaan kovarian. Sebagai contoh, Neural Networks cenderung lebih cepat konvergen, dan K-Means umumnya memberikan pengelompokan yang lebih baik dengan fitur-fitur yang sudah diproses sebelumnya. Saya tidak melihat intuisi di balik langkah-langkah pra-pemrosesan ini mengarah pada peningkatan …

61 machine-learning neural-networks covariance normalization

7

Regresi dengan beberapa variabel dependen?

Apakah mungkin untuk memiliki persamaan regresi (berganda) dengan dua atau lebih variabel dependen? Tentu, Anda bisa menjalankan dua persamaan regresi terpisah, satu untuk setiap DV, tetapi sepertinya itu tidak akan menangkap hubungan apa pun antara kedua DV tersebut?

61 regression

6

Di mana harus memotong dendrogram?

Pengelompokan hierarki dapat diwakili oleh dendrogram. Memotong dendrogram pada tingkat tertentu memberikan satu set cluster. Pemotongan di tingkat lain memberikan kelompok cluster lain. Bagaimana Anda memilih tempat memotong dendrogram? Adakah sesuatu yang bisa kita pertimbangkan sebagai titik optimal? Jika saya melihat dendrogram dari waktu ke waktu karena berubah, haruskah saya …

61 clustering dendrogram

5

Apa hubungan antara k-means clustering dan PCA?

Ini adalah praktik umum untuk menerapkan PCA (analisis komponen utama) sebelum algoritma pengelompokan (seperti k-means). Diyakini bahwa ini meningkatkan hasil pengelompokan dalam praktik (pengurangan kebisingan). Namun saya tertarik pada studi komparatif dan mendalam tentang hubungan antara PCA dan k-means. Sebagai contoh, Chris Ding dan Xiaofeng He, 2004, K-means Clustering melalui …

61 clustering pca k-means

6

Kesalahan standar untuk prediksi laso menggunakan R

Saya mencoba menggunakan model LASSO untuk prediksi, dan saya perlu memperkirakan kesalahan standar. Tentunya seseorang telah menulis paket untuk melakukan ini. Tapi sejauh yang saya bisa lihat, tidak ada paket di CRAN yang melakukan prediksi menggunakan LASSO akan mengembalikan kesalahan standar untuk prediksi tersebut. Jadi pertanyaan saya adalah: Apakah ada …

60 r standard-error prediction lasso