Statistik dan Big Data

T&J untuk orang-orang yang tertarik dalam statistik, pembelajaran mesin, analisis data, penambangan data, dan visualisasi data

1
Bagaimana menentukan apakah sumbu y grafik harus dimulai dari nol?
Salah satu cara umum untuk "berbohong dengan data" adalah dengan menggunakan skala sumbu y yang membuatnya tampak seolah-olah perubahan lebih signifikan daripada yang sebenarnya. Ketika saya meninjau publikasi ilmiah, atau laporan laboratorium siswa, saya sering frustrasi dengan "dosa visualisasi data" ini (yang saya percaya penulis lakukan secara tidak sengaja, tetapi …


6
Apa teorema utama dalam Machine (Deep) Learning?
Al Rahimi baru-baru ini memberikan ceramah yang sangat provokatif di NIPS 2017 membandingkan Machine Learning saat ini dengan Alkimia. Salah satu klaimnya adalah bahwa kita perlu kembali ke perkembangan teoretis, untuk memiliki teorema sederhana yang membuktikan hasil dasar. Ketika dia mengatakan itu, saya mulai mencari teorema utama untuk ML, tetapi …

3
Apa efek dari memiliki prediktor yang berkorelasi dalam model regresi berganda?
Saya belajar di kelas model linier saya bahwa jika dua prediktor berkorelasi dan keduanya termasuk dalam model, satu akan tidak signifikan. Sebagai contoh, asumsikan ukuran rumah dan jumlah kamar tidur berkorelasi. Ketika memperkirakan biaya rumah menggunakan dua prediktor ini, salah satunya dapat dijatuhkan karena keduanya memberikan banyak informasi yang sama. …


10
Cara memplot tren dengan benar
Saya membuat grafik untuk menunjukkan tren tingkat kematian (per 1000 ppl.) Di berbagai negara dan kisah yang harus berasal dari plot adalah bahwa Jerman (garis biru muda) adalah satu-satunya yang trennya meningkat setelah 1932. Ini adalah percobaan (dasar) pertama saya Menurut pendapat saya, grafik ini sudah menunjukkan apa yang ingin …

2
Bagaimana cara mensimulasikan data buatan untuk regresi logistik?
Saya tahu saya kehilangan sesuatu dalam pemahaman saya tentang regresi logistik, dan akan sangat menghargai bantuan apa pun. Sejauh yang saya mengerti, regresi logistik mengasumsikan bahwa probabilitas hasil '1' diberikan input, adalah kombinasi linear dari input, melewati fungsi invers-logistik. Ini dicontohkan dalam kode R berikut: #create data: x1 = rnorm(1000) …



5
Menggunakan R online - tanpa menginstalnya [ditutup]
Apakah ada kemungkinan untuk menggunakan R di antarmuka web tanpa harus menginstalnya? Saya hanya punya satu skrip kecil yang ingin saya jalankan tetapi saya hanya ingin mencobanya tanpa prosedur instalasi yang panjang. Terima kasih.
45 r 

3
Apa itu Deviance? (khusus dalam CART / rpart)
Apa itu "Penyimpangan," bagaimana cara menghitungnya, dan apa kegunaannya dalam berbagai bidang dalam statistik? Secara khusus, saya pribadi tertarik dengan penggunaannya di CART (dan implementasinya dalam rpart in R). Saya menanyakan hal ini karena artikel wiki sepertinya kurang dan wawasan Anda akan sangat disambut.
45 r  cart  rpart  deviance 

15
Jumlah rasio kelahiran anak perempuan dan anak laki-laki yang diharapkan
Saya telah menemukan pertanyaan dalam tes bakat wawancara kerja untuk berpikir kritis. Ini berjalan kira-kira seperti ini: Republik Zorganian memiliki beberapa kebiasaan yang sangat aneh. Pasangan hanya ingin memiliki anak perempuan karena hanya perempuan yang dapat mewarisi kekayaan keluarga, jadi jika mereka memiliki anak laki-laki, mereka akan memiliki lebih banyak …

1
Bagaimana cara kerja metode Adam penurunan gradien stokastik?
Saya kenal dengan algoritma gradient descent dasar untuk pelatihan jaringan saraf. Saya telah membaca makalah yang mengusulkan Adam: ADAM: METODE UNTUK OPTIMISASI STOKASTIK . Meskipun saya pasti memiliki beberapa wawasan (setidaknya), makalah ini tampaknya terlalu tinggi bagi saya secara keseluruhan. Sebagai contoh, fungsi biaya sering merupakan jumlah dari banyak fungsi …


4
Normalisasi vs penskalaan
Apa perbedaan antara data 'Normalisasi' dan data 'Skala'? Sampai sekarang saya pikir kedua istilah mengacu pada proses yang sama tetapi sekarang saya menyadari ada sesuatu yang lebih yang saya tidak tahu / mengerti. Juga jika ada perbedaan antara Normalisasi dan Penskalaan, kapan kita harus menggunakan Normalisasi tetapi tidak untuk Penskalaan …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.