Statistik dan Big Data

4

Saya punya pertanyaan tentang klasifikasi secara umum. Misalkan f adalah classifier, yang menampilkan sekumpulan probabilitas yang diberikan beberapa data D. Biasanya, orang akan mengatakan: well, jika P (c | D)> 0,5, kami akan menetapkan kelas 1, jika tidak 0 (biarkan ini menjadi biner klasifikasi). Pertanyaan saya adalah, bagaimana jika saya …

49 machine-learning classification binary-data threshold

1

Berapa besar ukuran batch untuk keturunan gradien stokastik?

Saya mengerti bahwa penurunan gradien stokastik dapat digunakan untuk mengoptimalkan jaringan saraf menggunakan backpropagation dengan memperbarui setiap iterasi dengan sampel yang berbeda dari dataset pelatihan. Seberapa besar ukuran batch?

49 machine-learning neural-networks gradient-descent backpropagation

2

Bagaimana seharusnya seseorang menafsirkan perbandingan rata-rata dari ukuran sampel yang berbeda?

Ambil contoh peringkat buku di situs web. Buku A dinilai oleh 10.000 orang dengan peringkat rata - rata 4,25 dan varians . Demikian pula Buku B dinilai oleh 100 orang dan memiliki peringkat 4,5 dengan σ = 0,25 .σ=0.5σ=0.5\sigma = 0.5σ=0.25σ=0.25\sigma = 0.25 Sekarang karena ukuran sampel besar Buku A …

49 t-test mean sample-size

4

Mengapa koefisien korelasi antara X dan variabel acak XY cenderung 0,7

Diambil dari Statistik Praktis untuk Penelitian Medis di mana Douglas Altman menulis di halaman 285: ... untuk dua kuantitas X dan Y, X akan dikorelasikan dengan XY. Memang, bahkan jika X dan Y adalah sampel angka acak, kita akan mengharapkan korelasi X dan XY menjadi 0,7 Saya mencoba ini di …

49 correlation random-variable intuition

4

Bagaimana regresi, uji-t, dan ANOVA semua versi dari model linear umum?

Bagaimana mereka semua versi dari metode statistik dasar yang sama?

49 regression self-study anova generalized-linear-model t-test

1

Bootstrap vs jackknife

Baik metode bootstrap dan jackknife dapat digunakan untuk memperkirakan bias dan kesalahan standar estimasi dan mekanisme kedua metode resampling tidak jauh berbeda: pengambilan sampel dengan penggantian vs tinggalkan satu pengamatan pada satu waktu. Namun, jackknife tidak sepopuler bootstrap dalam penelitian dan praktik. Apakah ada keuntungan jelas menggunakan bootstrap daripada menggunakan …

49 r confidence-interval bootstrap jackknife

6

Apakah "peringkat rata-rata" Amazon menyesatkan?

Jika saya mengerti benar, peringkat buku pada skala 1-5 adalah skor Likert. Artinya, angka 3 bagi saya belum tentu menjadi angka 3 untuk orang lain. Ini adalah IMO skala ordinal. Seseorang seharusnya tidak benar-benar skala ordinal tetapi pasti dapat mengambil mode, median dan persentil. Jadi, bolehkah membengkokkan aturan karena sebagian …

49 mean ordinal-data likert

3

Mengapa regresi logistik adalah classifier linier?

Karena kita menggunakan fungsi logistik untuk mengubah kombinasi linear dari input menjadi output non-linear, bagaimana regresi logistik dapat dianggap sebagai classifier linier? Regresi linier sama seperti jaringan saraf tanpa lapisan tersembunyi, jadi mengapa jaringan saraf dianggap sebagai pengklasifikasi non-linear dan regresi logistik linear?

49 logistic classification neural-networks

4

Menghitung nilai P secara manual dari nilai-t dalam uji-t

Saya memiliki dataset sampel dengan 31 nilai. Saya menjalankan uji dua sisi menggunakan R untuk menguji apakah rata-rata sebenarnya sama dengan 10: t.test(x=data, mu=10, conf.level=0.95) Keluaran: t = 11.244, df = 30, p-value = 2.786e-12 alternative hypothesis: true mean is not equal to 10 95 percent confidence interval: 19.18980 23.26907 …

49 r statistical-significance t-test p-value

2

Apa perbedaan antara model efek acak, efek tetap- dan marginal?

Saya mencoba memperluas pengetahuan saya tentang statistik. Saya berasal dari latar belakang ilmu fisika dengan pendekatan "berbasis resep" untuk pengujian statistik, di mana kami katakan itu berkelanjutan, apakah biasanya terdistribusi - regresi OLS . Dalam bacaan saya, saya menemukan istilah: model efek acak, model efek tetap, model marginal. Pertanyaan saya …

49 random-effects-model fixed-effects-model marginal

6

Apa cara terbaik untuk mengingat perbedaan antara sensitivitas, spesifisitas, presisi, akurasi, dan daya ingat?

Meskipun telah melihat istilah ini 502847894789 kali, saya tidak bisa seumur hidup saya mengingat perbedaan antara sensitivitas, spesifisitas, ketepatan, akurasi, dan daya ingat. Itu konsep yang cukup sederhana, tetapi nama-nama itu sangat tidak intuitif bagi saya, jadi saya terus membuat mereka bingung satu sama lain. Apa cara yang baik untuk …

49 terminology accuracy sensitivity-specificity

4

Waktu komputasi hutan acak dalam R

Saya menggunakan paket pesta dalam R dengan 10.000 baris dan 34 fitur, dan beberapa fitur fitur memiliki lebih dari 300 level. Waktu komputasi terlalu lama. (Butuh 3 jam sejauh ini dan belum selesai.) Saya ingin tahu elemen apa yang berpengaruh besar pada waktu komputasi hutan acak. Apakah ada faktor dengan …

49 r random-forest

1

Metrik kinerja untuk mengevaluasi pembelajaran tanpa pengawasan

Sehubungan dengan pembelajaran tanpa pengawasan (seperti pengelompokan), apakah ada metrik untuk mengevaluasi kinerja?

49 machine-learning clustering data-mining unsupervised-learning

6

Apa yang dimaksud dengan variabel acak iid?

Bagaimana Anda akan menjelaskan iid (independen dan didistribusikan secara identik) kepada orang-orang non-teknis?

49 random-variable intuition

4

Apakah korelasi = 0,2 berarti ada hubungan “hanya 1 dalam 5 orang”?

Dalam Otak Idiot: Seorang Ilmuwan Saraf Menjelaskan Apa yang Sebenarnya Diperhatikan oleh Kepala Anda , tulis Dean Burnett Korelasi antara tinggi dan kecerdasan biasanya disebut sekitar , yang berarti tinggi dan kecerdasan tampaknya terkait hanya dalam orang.0.20.20.2111555 Bagi saya, ini kedengarannya salah: Saya memahami korelasi lebih seperti (kurangnya) kesalahan yang …

48 correlation neuroscience