Statistik dan Big Data

T&J untuk orang-orang yang tertarik dalam statistik, pembelajaran mesin, analisis data, penambangan data, dan visualisasi data



10
Apa perbedaan antara "kemungkinan" dan "probabilitas"?
The halaman wikipedia mengklaim bahwa kemungkinan dan probabilitas adalah konsep-konsep yang berbeda. Dalam bahasa non-teknis, "kemungkinan" biasanya merupakan sinonim untuk "probabilitas," tetapi dalam penggunaan statistik ada perbedaan yang jelas dalam perspektif: jumlah yang merupakan probabilitas dari beberapa hasil yang diamati mengingat seperangkat nilai parameter dianggap sebagai kemungkinan himpunan nilai parameter …

11
Apa intuisi di balik distribusi beta?
Penafian: Saya bukan ahli statistik tetapi insinyur perangkat lunak. Sebagian besar pengetahuan saya dalam statistik berasal dari pendidikan mandiri, jadi saya masih memiliki banyak celah dalam memahami konsep-konsep yang mungkin tampak sepele bagi orang lain di sini. Jadi saya akan sangat berterima kasih jika jawaban termasuk istilah yang kurang spesifik …

11
Apa perbedaan antara set tes dan set validasi?
Saya menemukan ini membingungkan ketika saya menggunakan toolbox jaringan saraf di Matlab. Ini membagi set data mentah menjadi tiga bagian: perlengkapan latihan set validasi set tes Saya perhatikan dalam banyak pelatihan atau algoritma pembelajaran, data sering dibagi menjadi 2 bagian, set pelatihan dan set tes. Pertanyaan saya adalah: apa perbedaan …

20
Dua Budaya: statistik vs pembelajaran mesin?
Tahun lalu, saya membaca posting blog dari Brendan O'Connor yang berjudul "Statistics vs. Machine Learning, fight!" yang membahas beberapa perbedaan antara kedua bidang. Andrew Gelman menanggapi hal ini dengan baik : Simon Blomberg: Dari paket fortune R: Mengutip secara provokatif, 'pembelajaran mesin adalah statistik dikurangi pengecekan model dan asumsi'. - …


5
Bagaimana memahami kelemahan K-means
K-means adalah metode yang banyak digunakan dalam analisis cluster. Dalam pemahaman saya, metode ini TIDAK memerlukan asumsi APAPUN, yaitu, beri saya dataset dan jumlah cluster yang ditentukan sebelumnya, k, dan saya hanya menerapkan algoritma ini yang meminimalkan jumlah kesalahan kuadrat (SSE), dalam cluster cluster kuadrat kesalahan. Jadi k-means pada dasarnya …

25
Python sebagai meja kerja statistik
Banyak orang menggunakan alat utama seperti Excel atau spreadsheet lain, SPSS, Stata, atau R untuk kebutuhan statistik mereka. Mereka mungkin beralih ke beberapa paket khusus untuk kebutuhan yang sangat khusus, tetapi banyak hal dapat dilakukan dengan spreadsheet sederhana atau paket statistik umum atau lingkungan pemrograman statistik. Saya selalu menyukai Python …
355 r  spss  stata  python 


30
Apa kartun “analisis data” favorit Anda?
Ini adalah salah satu favorit saya: Satu entri per jawaban. (Ini ada di inti pertanyaan Stack Overflow Apa kartun “programmer” favorit Anda? ) PS Jangan hotlink kartun itu tanpa izin situs.
343 humor 


11
Menjelaskan kepada orang awam mengapa bootstrap berfungsi
Saya baru-baru ini menggunakan bootstrap untuk memperkirakan interval kepercayaan untuk suatu proyek. Seseorang yang tidak tahu banyak tentang statistik baru-baru ini meminta saya untuk menjelaskan mengapa bootstrap berfungsi, yaitu, mengapa melakukan resampling sampel yang sama berulang kali memberikan hasil yang baik. Saya menyadari bahwa walaupun saya telah menghabiskan banyak waktu …



Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.