Statistik dan Big Data

T&J untuk orang-orang yang tertarik dalam statistik, pembelajaran mesin, analisis data, penambangan data, dan visualisasi data


6
Ukuran efek sebagai hipotesis untuk pengujian signifikansi
Hari ini, di Cross Validated Journal Club (mengapa Anda tidak ada di sana?), @Mbq bertanya: Apakah Anda pikir kami (ilmuwan data modern) tahu apa arti pentingnya? Dan bagaimana hubungannya dengan kepercayaan kita pada hasil kita? @Michelle menjawab karena beberapa (termasuk saya) biasanya melakukan: Saya menemukan konsep signifikansi (berdasarkan nilai-p) kurang …

5
Bagaimana memvisualisasikan / memahami apa yang dilakukan jaringan saraf?
Jaringan saraf sering diperlakukan sebagai "kotak hitam" karena strukturnya yang kompleks. Ini tidak ideal, karena sering bermanfaat untuk memiliki pemahaman intuitif tentang bagaimana model bekerja secara internal. Apa metode memvisualisasikan bagaimana jaringan saraf yang terlatih bekerja? Atau, bagaimana kita dapat mengekstrak deskripsi jaringan yang mudah dicerna (mis. Simpul tersembunyi ini …

2
Ketidaksamaan probabilitas
Saya mencari beberapa ketidaksetaraan probabilitas untuk jumlah variabel acak yang tidak terikat. Saya akan sangat menghargai jika ada yang bisa memberikan saya beberapa pemikiran. Masalah saya adalah untuk menemukan batas atas eksponensial atas probabilitas bahwa jumlah variabel acak iid tidak terikat, yang sebenarnya merupakan perkalian dua iid Gaussian, melebihi beberapa …

10
Apa sumber data ekonomi yang paling berguna?
Ketika melakukan penelitian di bidang Ekonomi, orang sering perlu memverifikasi kesimpulan teoritis tentang data nyata. Apa sumber data yang dapat diandalkan untuk digunakan dan dikutip? Saya terutama tertarik pada sumber-sumber yang menyediakan berbagai data statistik seperti PDB, populasi, IHK, PPI dll. EDIT: Berikut ini kumpulan tautan yang muncul di utas …
37 references 


3
Aplikasi metode pembelajaran mesin di situs web StackExchange
Saya memiliki kursus Pembelajaran Mesin semester ini dan profesor meminta kami untuk menemukan masalah dunia nyata dan menyelesaikannya dengan salah satu metode pembelajaran mesin yang diperkenalkan di kelas, seperti: Pohon Keputusan Jaringan Saraf Tiruan Mendukung Mesin Vektor Pembelajaran Berbasis Instans ( kNN , LWL ) Jaringan Bayesian Pembelajaran penguatan Saya …

2
Kapan dan bagaimana menggunakan variabel penjelas terstandarisasi dalam regresi linier
Saya punya 2 pertanyaan sederhana tentang regresi linier: Kapan disarankan untuk membakukan variabel penjelas? Setelah estimasi dilakukan dengan nilai-nilai terstandarisasi, bagaimana seseorang dapat memprediksi dengan nilai-nilai baru (bagaimana seseorang harus membuat standar nilai-nilai baru)? Beberapa referensi akan sangat membantu.

3
Penjelasan intuitif untuk kepadatan variabel yang diubah?
Misalkan adalah variabel acak dengan pdf . Kemudian variabel acak memiliki pdfXXXfX(x)fX(x)f_X(x)Y=X2Y=X2Y=X^2 fY(y)={12y√(fX(y√)+fX(−y√))0y≥0y<0fY(y)={12y(fX(y)+fX(−y))y≥00y<0f_Y(y)=\begin{cases}\frac{1}{2\sqrt{y}}\left(f_X(\sqrt{y})+f_X(-\sqrt{y})\right) & y \ge 0 \\ 0 & y \lt 0\end{cases} Saya mengerti kalkulus di balik ini. Tapi saya mencoba memikirkan cara untuk menjelaskannya kepada seseorang yang tidak tahu kalkulus. Secara khusus, saya mencoba menjelaskan mengapa faktor muncul …

5
Apa tujuan dari fungsi karakteristik?
Saya berharap bahwa seseorang dapat menjelaskan, dalam istilah awam, apa fungsi karakteristik dan bagaimana fungsi itu digunakan dalam praktik. Saya sudah membaca bahwa itu adalah transformasi Fourier dari pdf, jadi saya kira saya tahu apa itu, tapi saya masih tidak mengerti tujuannya. Jika seseorang dapat memberikan deskripsi intuitif tentang tujuannya …

5
Apakah ahli statistik yang bekerja peduli pada perbedaan antara inferensi frequentist dan Bayesian?
Sebagai orang luar, tampaknya ada dua pandangan yang saling bersaing tentang bagaimana seseorang harus melakukan inferensi statistik. Apakah dua metode yang berbeda keduanya dianggap valid oleh ahli statistik yang bekerja? Apakah memilih satu dianggap lebih sebagai pertanyaan filosofis? Atau apakah situasi saat ini dianggap bermasalah dan upaya dilakukan untuk menyatukan …

11
Buku teks statistik Open Source?
Ada beberapa pertanyaan tentang buku teks statistik , seperti pertanyaan Buku teks statistik gratis . Namun, saya mencari buku teks yang Open Source, misalnya, memiliki lisensi Creative Commons . Alasannya adalah karena materi dalam domain lain, Anda masih ingin memasukkan beberapa teks tentang statistik dasar. Dalam hal ini, akan menarik …


7
Dapatkah validasi silang digunakan untuk inferensi kausal?
Dalam semua konteks, saya akrab dengan validasi silang. Ini hanya digunakan dengan tujuan meningkatkan akurasi prediksi. Bisakah logika validasi silang diperluas dalam memperkirakan hubungan yang tidak memihak antar variabel? Sementara makalah ini oleh Richard Berk menunjukkan penggunaan sampel tahan untuk pemilihan parameter dalam model regresi "final" (dan menunjukkan mengapa pemilihan …

1
Mengapa nilai-p saya berbeda antara output regresi logistik, uji chi-squared, dan interval kepercayaan untuk OR?
Saya telah membangun regresi logistik di mana variabel hasil sedang disembuhkan setelah menerima pengobatan ( Curevs No Cure). Semua pasien dalam penelitian ini menerima perawatan. Saya tertarik melihat apakah memiliki diabetes terkait dengan hasil ini. Dalam R, output regresi logistik saya terlihat sebagai berikut: Call: glm(formula = Cure ~ Diabetes, …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.