Statistik dan Big Data

T&J untuk orang-orang yang tertarik dalam statistik, pembelajaran mesin, analisis data, penambangan data, dan visualisasi data


8
Definisi outlier yang keras?
Orang sering membicarakan tentang berurusan dengan pencilan dalam statistik. Hal yang menggangguku tentang hal ini adalah, sejauh yang bisa saya katakan, definisi pencilan adalah sepenuhnya subjektif. Misalnya, jika distribusi sebenarnya dari beberapa variabel acak sangat berekor atau bimodal, visualisasi standar atau statistik ringkasan untuk mendeteksi pencilan akan salah menghapus bagian …

4
Model statistik lembar contekan
Saya bertanya-tanya apakah ada model statistik "lembar contekan" yang mencantumkan informasi apa pun atau lebih: kapan harus menggunakan model kapan tidak menggunakan model input yang diperlukan dan opsional output yang diharapkan sudahkah model diuji di berbagai bidang (kebijakan, bio, teknik, manufaktur, dll)? apakah itu diterima dalam praktik atau penelitian? variasi …

5
Mengapa perbandingan berganda merupakan masalah?
Saya merasa sulit untuk memahami apa sebenarnya masalah dengan beberapa perbandingan . Dengan analogi sederhana, dikatakan bahwa seseorang yang akan membuat banyak keputusan akan membuat banyak kesalahan. Jadi pencegahan sangat konservatif diterapkan, seperti koreksi Bonferroni, sehingga untuk membuat probabilitas itu, orang ini akan membuat kesalahan sama sekali, serendah mungkin. Tetapi …

6
Mengapa multikolinieritas tidak diperiksa dalam statistik modern / pembelajaran mesin
Dalam statistik tradisional, saat membangun model, kami memeriksa multikolinieritas menggunakan metode seperti perkiraan variance inflation factor (VIF), tetapi dalam pembelajaran mesin, kami menggunakan regularisasi untuk pemilihan fitur dan sepertinya tidak memeriksa apakah fitur berkorelasi sama sekali. Mengapa kita melakukan itu?





4
Fungsi aktivasi mana untuk lapisan output?
Sementara pilihan fungsi aktivasi untuk lapisan tersembunyi cukup jelas (kebanyakan sigmoid atau tanh), saya bertanya-tanya bagaimana cara memutuskan fungsi aktivasi untuk lapisan output. Pilihan umum adalah fungsi linier, fungsi sigmoid dan fungsi softmax. Namun, kapan saya harus menggunakan yang mana?

3
Menguji kesetaraan koefisien dari dua regresi yang berbeda
Ini tampaknya menjadi masalah mendasar, tetapi saya baru sadar bahwa saya sebenarnya tidak tahu bagaimana cara menguji kesetaraan koefisien dari dua regresi yang berbeda. Adakah yang bisa menjelaskan ini? Secara lebih formal, misalkan saya menjalankan dua regresi berikut: dan mana merujuk ke matriks desain regresi , dan ke vektor koefisien …

5
Apakah penting untuk mengukur data sebelum pengelompokan?
Saya menemukan tutorial ini , yang menunjukkan bahwa Anda harus menjalankan fungsi skala pada fitur sebelum pengelompokan (saya percaya itu mengubah data menjadi z-skor). Saya bertanya-tanya apakah itu perlu. Saya bertanya sebagian besar karena ada titik siku yang bagus ketika saya tidak menskala data, tetapi menghilang ketika diskalakan. :)

4
Kesalahan standar untuk rata-rata sampel variabel acak binomial
Misalkan saya menjalankan percobaan yang dapat memiliki 2 hasil, dan saya berasumsi bahwa distribusi "benar" yang mendasari dari 2 hasil adalah distribusi binomial dengan parameter dan : .nnnpppBinomial(n,p)Binomial(n,p){\rm Binomial}(n, p) Saya dapat menghitung kesalahan standar, , dari bentuk varian dari : mana . Jadi, . Untuk kesalahan standar yang saya …



Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.