Statistik dan Big Data

T&J untuk orang-orang yang tertarik dalam statistik, pembelajaran mesin, analisis data, penambangan data, dan visualisasi data

3
Diagnostik untuk regresi logistik?
Untuk regresi linier, kita dapat memeriksa plot diagnostik (plot residual, plot QQ Normal, dll) untuk memeriksa apakah asumsi regresi linier dilanggar. Untuk regresi logistik, saya mengalami kesulitan menemukan sumber daya yang menjelaskan cara mendiagnosis model regresi logistik yang sesuai. Menggali beberapa catatan saja untuk GLM, itu hanya menyatakan bahwa memeriksa …

29
Contoh untuk mengajar: Korelasi tidak berarti sebab-akibat
Ada pepatah lama: "Korelasi tidak berarti sebab akibat". Ketika saya mengajar, saya cenderung menggunakan contoh-contoh standar berikut untuk menggambarkan hal ini: jumlah bangau dan tingkat kelahiran di Denmark; jumlah imam di Amerika dan alkoholisme; pada awal abad ke-20 tercatat bahwa ada korelasi kuat antara 'Jumlah radio' dan 'Jumlah orang di …


5
Apa itu regularisasi dalam bahasa Inggris biasa?
Tidak seperti artikel lain, saya menemukan entri wikipedia untuk subjek ini tidak dapat dibaca oleh orang yang bukan ahli matematika (seperti saya). Saya mengerti ide dasar, bahwa Anda menyukai model dengan aturan yang lebih sedikit. Apa yang tidak saya dapatkan adalah bagaimana Anda mendapatkan dari seperangkat aturan ke 'skor regularisasi' …


4
Jurnal psikologi melarang nilai-p dan interval kepercayaan; apakah memang bijaksana untuk berhenti menggunakannya?
Pada 25 Februari 2015, jurnal Basic and Applied Social Psychology mengeluarkan editorial yang melarang nilai- dan interval kepercayaan dari semua makalah yang akan datang.ppp Secara khusus, kata mereka (format dan penekanan adalah milikku): [...] sebelum publikasi, penulis harus menghapus semua sisa-sisa NHSTP [prosedur pengujian signifikansi nol hipotesis] (nilai- , nilai- …

3
Apa itu "kemungkinan maksimum terbatas" dan kapan itu harus digunakan?
Saya telah membaca dalam abstrak makalah ini bahwa: "Prosedur kemungkinan maksimum (ML) dari Hartley aud Rao dimodifikasi dengan mengadaptasi transformasi dari Patterson dan Thompson yang membagi kemungkinan membuat normalitas menjadi dua bagian, satu bebas dari efek tetap. Memaksimalkan bagian ini menghasilkan apa yang disebut kemungkinan maksimum terbatas (REML) estimator. " …

11
Memiliki pekerjaan dalam penambangan data tanpa gelar PhD
Saya sudah sangat tertarik dalam penambangan data dan pembelajaran mesin untuk sementara waktu, sebagian karena saya mengambil jurusan di sekolah itu, tetapi juga karena saya benar-benar jauh lebih bersemangat mencoba menyelesaikan masalah yang memerlukan sedikit pemikiran lebih dari sekadar pemrograman pengetahuan dan yang solusinya dapat memiliki berbagai bentuk. Saya tidak …

6
Model untuk memprediksi jumlah tampilan Youtube dari Gangnam Style
Video musik PSY "Gangnam style" sangat populer, setelah lebih dari 2 bulan memiliki sekitar 540 juta pemirsa. Saya belajar ini dari anak-anak praremaja saya saat makan malam minggu lalu dan segera diskusi berjalan ke arah apakah mungkin untuk melakukan semacam prediksi tentang berapa banyak penonton akan ada dalam 10-12 hari …
73 modeling  web 



6
Memilih metode pengelompokan
Ketika menggunakan analisis klaster pada kumpulan data untuk mengelompokkan kasus-kasus serupa, seseorang perlu memilih di antara sejumlah besar metode pengelompokan dan ukuran jarak. Terkadang, satu pilihan mungkin memengaruhi yang lain, tetapi ada banyak kemungkinan kombinasi metode. Apakah ada yang punya rekomendasi tentang bagaimana memilih di antara berbagai algoritma / metode …

9
Bagaimana seharusnya outlier ditangani dalam analisis regresi linier?
Sering kali seorang analis statistik menyerahkan set dataset dan diminta untuk mencocokkan suatu model menggunakan teknik seperti regresi linier. Seringkali dataset disertai dengan penafian yang mirip dengan "Oh yeah, kami mengacaukan mengumpulkan beberapa poin data ini - lakukan apa yang Anda bisa". Situasi ini mengarah pada kecocokan regresi yang sangat …

6
Apakah ada alasan bagus untuk menggunakan PCA dan bukannya EFA? Juga, dapatkah PCA menjadi pengganti untuk analisis faktor?
Dalam beberapa disiplin ilmu, PCA (analisis komponen utama) secara sistematis digunakan tanpa justifikasi, dan PCA dan EFA (analisis faktor eksplorasi) dianggap sebagai sinonim. Karena itu saya baru-baru ini menggunakan PCA untuk menganalisis hasil studi validasi skala (21 item pada skala Likert 7 poin, diasumsikan menyusun 3 faktor masing-masing 7 item) …

4
Kapan harus menggunakan kerangka kerja Fisher dan Neyman-Pearson?
Saya telah membaca banyak akhir-akhir ini tentang perbedaan antara metode pengujian hipotesis Fisher dan sekolah pemikiran Neyman-Pearson. Pertanyaan saya adalah, mengabaikan keberatan filosofis sejenak; kapan kita harus menggunakan pendekatan pemodelan statistik Fisher dan kapan harus menggunakan metode tingkat signifikansi Neyman-Pearson dan lain-lain? Apakah ada cara praktis untuk memutuskan sudut pandang …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.