Statistik dan Big Data

T&J untuk orang-orang yang tertarik dalam statistik, pembelajaran mesin, analisis data, penambangan data, dan visualisasi data

4
Ambang peluang klasifikasi
Saya punya pertanyaan tentang klasifikasi secara umum. Misalkan f adalah classifier, yang menampilkan sekumpulan probabilitas yang diberikan beberapa data D. Biasanya, orang akan mengatakan: well, jika P (c | D)> 0,5, kami akan menetapkan kelas 1, jika tidak 0 (biarkan ini menjadi biner klasifikasi). Pertanyaan saya adalah, bagaimana jika saya …





1
Bootstrap vs jackknife
Baik metode bootstrap dan jackknife dapat digunakan untuk memperkirakan bias dan kesalahan standar estimasi dan mekanisme kedua metode resampling tidak jauh berbeda: pengambilan sampel dengan penggantian vs tinggalkan satu pengamatan pada satu waktu. Namun, jackknife tidak sepopuler bootstrap dalam penelitian dan praktik. Apakah ada keuntungan jelas menggunakan bootstrap daripada menggunakan …

6
Apakah "peringkat rata-rata" Amazon menyesatkan?
Jika saya mengerti benar, peringkat buku pada skala 1-5 adalah skor Likert. Artinya, angka 3 bagi saya belum tentu menjadi angka 3 untuk orang lain. Ini adalah IMO skala ordinal. Seseorang seharusnya tidak benar-benar skala ordinal tetapi pasti dapat mengambil mode, median dan persentil. Jadi, bolehkah membengkokkan aturan karena sebagian …

3
Mengapa regresi logistik adalah classifier linier?
Karena kita menggunakan fungsi logistik untuk mengubah kombinasi linear dari input menjadi output non-linear, bagaimana regresi logistik dapat dianggap sebagai classifier linier? Regresi linier sama seperti jaringan saraf tanpa lapisan tersembunyi, jadi mengapa jaringan saraf dianggap sebagai pengklasifikasi non-linear dan regresi logistik linear?



6
Apa cara terbaik untuk mengingat perbedaan antara sensitivitas, spesifisitas, presisi, akurasi, dan daya ingat?
Meskipun telah melihat istilah ini 502847894789 kali, saya tidak bisa seumur hidup saya mengingat perbedaan antara sensitivitas, spesifisitas, ketepatan, akurasi, dan daya ingat. Itu konsep yang cukup sederhana, tetapi nama-nama itu sangat tidak intuitif bagi saya, jadi saya terus membuat mereka bingung satu sama lain. Apa cara yang baik untuk …

4
Waktu komputasi hutan acak dalam R
Saya menggunakan paket pesta dalam R dengan 10.000 baris dan 34 fitur, dan beberapa fitur fitur memiliki lebih dari 300 level. Waktu komputasi terlalu lama. (Butuh 3 jam sejauh ini dan belum selesai.) Saya ingin tahu elemen apa yang berpengaruh besar pada waktu komputasi hutan acak. Apakah ada faktor dengan …
49 r  random-forest 



4
Apakah korelasi = 0,2 berarti ada hubungan “hanya 1 dalam 5 orang”?
Dalam Otak Idiot: Seorang Ilmuwan Saraf Menjelaskan Apa yang Sebenarnya Diperhatikan oleh Kepala Anda , tulis Dean Burnett Korelasi antara tinggi dan kecerdasan biasanya disebut sekitar , yang berarti tinggi dan kecerdasan tampaknya terkait hanya dalam orang.0.20.20.2111555 Bagi saya, ini kedengarannya salah: Saya memahami korelasi lebih seperti (kurangnya) kesalahan yang …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.