Statistik dan Big Data

T&J untuk orang-orang yang tertarik dalam statistik, pembelajaran mesin, analisis data, penambangan data, dan visualisasi data


2
Bagaimana Anda melakukan bootstrap dengan data deret waktu?
Baru-baru ini saya belajar tentang menggunakan teknik bootstrap untuk menghitung kesalahan standar dan interval kepercayaan untuk estimator. Apa yang saya pelajari adalah bahwa jika data tersebut adalah IID, Anda dapat memperlakukan data sampel sebagai populasi, dan melakukan pengambilan sampel dengan penggantian dan ini akan memungkinkan Anda untuk mendapatkan beberapa simulasi …


10
Mengapa penjumlahan dari dua variabel acak adalah konvolusi?
Untuk waktu yang lama saya tidak mengerti mengapa "jumlah" dari dua variabel acak adalah konvolusi mereka , sedangkan jumlah fungsi kerapatan campuran dari f(x)f(x)f(x) dan g(x)g(x)g(x) adalah pf(x)+(1−p)g(x)pf(x)+(1−p)g(x)p\,f(x)+(1-p)g(x); jumlah aritmatika dan bukan konvolusi mereka. Frasa persis "jumlah dua variabel acak" muncul di google 146.000 kali, dan berbentuk bulat panjang sebagai …

7
Bagaimana menafsirkan koefisien variasi?
Saya mencoba memahami Koefisien Variasi . Ketika saya mencoba menerapkannya pada dua sampel data berikut ini, saya tidak dapat memahami bagaimana menafsirkan hasil. Misalkan sampel 1 adalah dan sampel 2 adalah . Di sini sampel 2 sampel 1 seperti yang Anda lihat.0,5,7,12,11,170,5,7,12,11,17{0, 5, 7, 12, 11, 17}10,15,17,22,21,2710,15,17,22,21,27{10 ,15 ,17 ,22 …

1
Jika saya menghasilkan matriks simetris acak, apa peluangnya pasti positif?
Saya mendapat pertanyaan aneh ketika saya bereksperimen dengan beberapa optimasi cembung. Pertanyaannya adalah: Misalkan saya secara acak (mengatakan distribusi normal standar) menghasilkan matriks simetris, (misalnya, saya menghasilkan matriks segitiga atas, dan mengisi bagian bawah untuk memastikan itu adalah simetris), apa kesempatan itu adalah matriks definit positif ? Apakah ada cara …

6
Apakah ada contoh di mana teorema limit pusat tidak berlaku?
Wikipedia mengatakan - Dalam teori probabilitas, teorema limit pusat (CLT) menetapkan bahwa, dalam sebagian besar situasi , ketika variabel acak independen ditambahkan, jumlah normalnya yang normal cenderung mengarah ke distribusi normal (secara informal merupakan "kurva lonceng") bahkan jika variabel asli sendiri tidak terdistribusi normal ... Ketika dikatakan "dalam kebanyakan situasi", …



2
Apakah jaringan permusuhan generatif diperkenalkan oleh Jürgen Schmidhuber?
Saya membaca di https://en.wikipedia.org/wiki/Generative_adversarial_networks : [Jaringan permusuhan generatif] diperkenalkan oleh Ian Goodfellow et al pada tahun 2014. tetapi Jurgen Schmidhuber mengklaim telah melakukan pekerjaan serupa sebelumnya dalam arah itu (misalnya, ada beberapa perdebatan di NIPS 2016 selama tutorial jaringan permusuhan generatif: https://channel9.msdn.com/Events/Neural-Information-Processing-Systems- Conference / Neural-Information-Processing-Systems-Conference-NIPS-2016 / Generative-Adversarial-Networks lihat 1h03 mnt). …

8
Haruskah saya mengajar statistik Bayesian atau frequentist terlebih dahulu?
Saya membantu anak laki-laki saya, saat ini di sekolah menengah, memahami statistik, dan saya sedang mempertimbangkan untuk memulai dengan beberapa contoh sederhana tanpa mengabaikan beberapa pandangan sekilas terhadap teori. Tujuan saya adalah memberi mereka pendekatan yang paling intuitif namun konstruktif secara instrumental untuk mempelajari statistik dari awal, untuk merangsang minat …


2
Apa yang dikatakan entropi kepada kita?
Saya membaca tentang entropi dan mengalami kesulitan mengkonseptualisasikan apa artinya dalam kasus berkelanjutan. Halaman wiki menyatakan sebagai berikut: Distribusi probabilitas peristiwa, ditambah dengan jumlah informasi setiap peristiwa, membentuk variabel acak yang nilainya diharapkan adalah jumlah rata-rata informasi, atau entropi, yang dihasilkan oleh distribusi ini. Jadi jika saya menghitung entropi yang …
32 entropy 

4
Mengapa menggunakan regularisasi dalam regresi polinomial daripada menurunkan derajat?
Ketika melakukan regresi, misalnya, dua parameter hiper untuk memilih seringkali adalah kapasitas fungsi (mis. Eksponen terbesar polinomial), dan jumlah regularisasi. Yang saya bingung, mengapa tidak hanya memilih fungsi kapasitas rendah, dan kemudian mengabaikan regularisasi? Dengan begitu, itu tidak akan overfit. Jika saya memiliki fungsi kapasitas tinggi bersama dengan regularisasi, bukankah …


Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.