Saat memecahkan masalah bisnis menggunakan data, sudah umum bahwa setidaknya satu asumsi utama bahwa statistik klasik under-pin tidak valid. Sebagian besar waktu, tidak ada yang mengganggu untuk memeriksa asumsi-asumsi itu sehingga Anda tidak pernah benar-benar tahu.
Misalnya, bahwa begitu banyak metrik web umum "berekor panjang" (relatif terhadap distribusi normal), saat ini, telah didokumentasikan dengan sangat baik sehingga kami menganggapnya biasa saja. Contoh lain, komunitas online - bahkan di komunitas dengan ribuan anggota, didokumentasikan dengan baik bahwa sejauh ini kontribusi terbesar untuk / partisipasi dalam banyak komunitas ini disebabkan oleh sekelompok kecil 'super-kontributor'. (Misalnya, beberapa bulan yang lalu, tepat setelah SO API tersedia dalam versi beta, anggota StackOverflow menerbitkan analisis singkat dari data yang ia kumpulkan melalui API; kesimpulannya - kurang dari satu persen dari akun anggota SO untuk sebagian besar dari aktivitas di SO (mungkin mengajukan pertanyaan, dan menjawabnya), 1-2% lainnya menyumbang sisanya, dan sebagian besar anggota tidak melakukan apa-apa).
Distribusi semacam itu - sekali lagi lebih sering aturan daripada pengecualian - sering dimodelkan dengan fungsi kepadatan hukum kekuasaan . Untuk jenis distribusi ini, bahkan teorema limit pusat bermasalah untuk diterapkan.
Jadi mengingat banyaknya populasi seperti ini yang menarik bagi analis, dan mengingat bahwa model klasik menunjukkan kinerja yang buruk pada data ini, dan mengingat bahwa metode yang kuat dan tahan telah ada untuk sementara waktu (setidaknya 20 tahun, saya percaya) - mengapa bukankah mereka lebih sering digunakan? (Saya juga bertanya-tanya mengapa saya tidak sering menggunakannya, tapi itu bukan pertanyaan untuk CrossValidated .)
Ya saya tahu bahwa ada bab buku teks yang sepenuhnya ditujukan untuk statistik yang kuat dan saya tahu ada (beberapa) Paket R ( robustbase adalah yang saya kenal dan gunakan), dll.
Namun mengingat keuntungan nyata dari teknik ini, mereka seringkali jelas merupakan alat yang lebih baik untuk pekerjaan itu - mengapa mereka tidak digunakan lebih sering ? Tidakkah seharusnya kita berharap untuk melihat statistik yang kuat (dan tahan) yang digunakan jauh lebih sering (bahkan mungkin dugaan) dibandingkan dengan analog klasik?
Satu-satunya penjelasan substantif (yaitu, teknis) yang saya dengar adalah bahwa teknik yang kuat (juga untuk metode yang resisten) tidak memiliki kekuatan / sensitivitas teknik klasik. Saya tidak tahu apakah ini memang benar dalam beberapa kasus, tetapi saya tahu itu tidak benar dalam banyak kasus.
Akhir kata preemption: ya saya tahu pertanyaan ini tidak memiliki satu jawaban yang benar terbukti; sangat sedikit pertanyaan di Situs ini yang dapat dilakukan. Selain itu, pertanyaan ini adalah pertanyaan asli; itu bukan alasan untuk mengajukan sudut pandang - saya tidak punya sudut pandang di sini, hanya pertanyaan yang saya harapkan untuk beberapa jawaban mendalam.