Mengapa statistik yang kuat (dan tahan) tidak menggantikan teknik klasik?

82

Saat memecahkan masalah bisnis menggunakan data, sudah umum bahwa setidaknya satu asumsi utama bahwa statistik klasik under-pin tidak valid. Sebagian besar waktu, tidak ada yang mengganggu untuk memeriksa asumsi-asumsi itu sehingga Anda tidak pernah benar-benar tahu.

Misalnya, bahwa begitu banyak metrik web umum "berekor panjang" (relatif terhadap distribusi normal), saat ini, telah didokumentasikan dengan sangat baik sehingga kami menganggapnya biasa saja. Contoh lain, komunitas online - bahkan di komunitas dengan ribuan anggota, didokumentasikan dengan baik bahwa sejauh ini kontribusi terbesar untuk / partisipasi dalam banyak komunitas ini disebabkan oleh sekelompok kecil 'super-kontributor'. (Misalnya, beberapa bulan yang lalu, tepat setelah SO API tersedia dalam versi beta, anggota StackOverflow menerbitkan analisis singkat dari data yang ia kumpulkan melalui API; kesimpulannya - kurang dari satu persen dari akun anggota SO untuk sebagian besar dari aktivitas di SO (mungkin mengajukan pertanyaan, dan menjawabnya), 1-2% lainnya menyumbang sisanya, dan sebagian besar anggota tidak melakukan apa-apa).

Distribusi semacam itu - sekali lagi lebih sering aturan daripada pengecualian - sering dimodelkan dengan fungsi kepadatan hukum kekuasaan . Untuk jenis distribusi ini, bahkan teorema limit pusat bermasalah untuk diterapkan.

Jadi mengingat banyaknya populasi seperti ini yang menarik bagi analis, dan mengingat bahwa model klasik menunjukkan kinerja yang buruk pada data ini, dan mengingat bahwa metode yang kuat dan tahan telah ada untuk sementara waktu (setidaknya 20 tahun, saya percaya) - mengapa bukankah mereka lebih sering digunakan? (Saya juga bertanya-tanya mengapa saya tidak sering menggunakannya, tapi itu bukan pertanyaan untuk CrossValidated .)

Ya saya tahu bahwa ada bab buku teks yang sepenuhnya ditujukan untuk statistik yang kuat dan saya tahu ada (beberapa) Paket R ( robustbase adalah yang saya kenal dan gunakan), dll.

Namun mengingat keuntungan nyata dari teknik ini, mereka seringkali jelas merupakan alat yang lebih baik untuk pekerjaan itu - mengapa mereka tidak digunakan lebih sering ? Tidakkah seharusnya kita berharap untuk melihat statistik yang kuat (dan tahan) yang digunakan jauh lebih sering (bahkan mungkin dugaan) dibandingkan dengan analog klasik?

Satu-satunya penjelasan substantif (yaitu, teknis) yang saya dengar adalah bahwa teknik yang kuat (juga untuk metode yang resisten) tidak memiliki kekuatan / sensitivitas teknik klasik. Saya tidak tahu apakah ini memang benar dalam beberapa kasus, tetapi saya tahu itu tidak benar dalam banyak kasus.

Akhir kata preemption: ya saya tahu pertanyaan ini tidak memiliki satu jawaban yang benar terbukti; sangat sedikit pertanyaan di Situs ini yang dapat dilakukan. Selain itu, pertanyaan ini adalah pertanyaan asli; itu bukan alasan untuk mengajukan sudut pandang - saya tidak punya sudut pandang di sini, hanya pertanyaan yang saya harapkan untuk beberapa jawaban mendalam.

— doug
sumber

12

The Black Swann oleh Nassim Nicholas Taleb menjelaskan mengapa model sederhana telah digunakan di dunia keuangan dan bahaya yang ditimbulkannya. Kesalahan tertentu adalah menyamakan probabilitas yang sangat rendah dengan nol dan secara buta menerapkan distribusi normal dalam manajemen risiko!

— James

9

Tes yang mengandalkan banyak asumsi lebih kuat ketika asumsi tersebut dipenuhi. Kita dapat menguji signifikansi penyimpangan dengan asumsi bahwa pengamatan adalah IID Gaussian, yang memberikan makna sebagai statistik. Serangkaian asumsi yang tidak terlalu membatasi memberitahu kita untuk menggunakan median. Kita bisa melangkah lebih jauh dan mengasumsikan bahwa pengamatan berkorelasi untuk mendapatkan lebih banyak kekuatan. Tetapi setiap langkah mengurangi kekuatan pengujian kami, dan jika kami tidak membuat asumsi sama sekali, pengujian kami tidak berguna. Tes yang kuat secara implisit membuat asumsi tentang data dan lebih baik daripada klasik hanya ketika asumsi tersebut sesuai dengan kenyataan dengan lebih baik

— Yaroslav Bulatov

69

Para peneliti menginginkan nilai-p yang kecil, dan Anda bisa mendapatkan nilai-p yang lebih kecil jika Anda menggunakan metode yang membuat asumsi distribusi yang lebih kuat. Dengan kata lain, metode yang tidak kuat memungkinkan Anda menerbitkan lebih banyak makalah. Tentu saja lebih dari makalah ini mungkin positif palsu, tetapi publikasi adalah publikasi. Itu penjelasan yang sinis, tetapi kadang-kadang valid.

— John D. Cook
sumber

4

"Kadang-kadang" adalah pernyataan yang meremehkan ... logika penulis tidak sering ini langsung tetapi skenario stimulus / imbalan sedemikian rupa sehingga orang akan melakukan ini sebagai masalah pengondisian

— John

2

Saya tidak berpikir peneliti bertindak tidak jujur seperti bertindak karena ketidaktahuan. Mereka tidak mengerti apa arti statistik atau asumsi apa yang mereka butuhkan, tetapi seperti yang Anda katakan, mereka memahami dengan jelas stimulus / hadiah: p> 0,05 => tidak ada publikasi.

— John D. Cook

10

Anda juga harus menyajikan sesuatu yang dipahami "yang berkuasa" (pengambil keputusan, pengawas, pengulas). Oleh karena itu harus dalam bahasa umum yang berkembang cukup lambat, karena orang-orang itu cenderung lebih tua dan lebih tahan terhadap perubahan, sebagian besar karena dapat membatalkan karier mereka sampai sekarang!

— James

12

Poin bagus. "Aku mengerti nilai-p. Beri aku nilai-p." Ironisnya, mereka mungkin tidak mengerti nilai-p, tapi itu masalah lain.

— John D. Cook

2

Saya tidak percaya ini benar. Setidaknya, saya pernah mendengar nonparametrik modern sering mengorbankan kekuatan yang sangat kecil, jika ada. AFAIK, kehilangan daya paling menonjol dalam pengujian yang melibatkan transformasi peringkat, yang hampir tidak ada di mana-mana di antara metode yang kuat.

— Nick Stauner

42

Jadi 'model klasik' (apa pun itu - saya berasumsi Anda bermaksud sesuatu seperti model sederhana yang diajarkan dalam buku teks dan diperkirakan oleh ML) gagal pada beberapa, mungkin banyak, kumpulan data dunia nyata.

Jika model gagal maka ada dua pendekatan dasar untuk memperbaikinya:

Buat lebih sedikit asumsi (lebih sedikit model)
Buat lebih banyak asumsi (lebih banyak model)

Statistik yang kuat, kemungkinan semu, dan pendekatan GEE mengambil pendekatan pertama dengan mengubah strategi estimasi menjadi satu di mana model tidak berlaku untuk semua titik data (kuat) atau tidak perlu mengkarakterisasi semua aspek data (QL dan GEE).

Alternatifnya adalah mencoba membangun model yang secara eksplisit memodelkan sumber titik data yang terkontaminasi, atau aspek-aspek dari model asli yang tampaknya salah, sambil menjaga metode estimasi tetap sama seperti sebelumnya.

Beberapa secara intuitif lebih menyukai yang pertama (ini sangat populer di bidang ekonomi), dan beberapa secara intuitif lebih suka yang kedua (ini sangat populer di kalangan orang Bayesian, yang cenderung lebih bahagia dengan model yang lebih kompleks, terutama sekali mereka menyadari bahwa mereka akan menggunakan alat simulasi untuk inferensi pula).

Asumsi distribusi tailed fat, misalnya menggunakan binomial negatif daripada poisson atau t daripada normal, termasuk dalam strategi kedua. Kebanyakan hal yang berlabel 'statistik kuat' termasuk dalam strategi pertama.

Sebagai masalah praktis, menurunkan estimator untuk strategi pertama untuk masalah kompleks yang realistis tampaknya cukup sulit. Bukan itu alasan untuk tidak melakukannya, tetapi mungkin penjelasan mengapa hal itu tidak dilakukan terlalu sering.

— conjugateprior
sumber

4

+1. Penjelasan yang sangat bagus. Saya juga berpikir bahwa beberapa "kuat" metode agak ad hoc (berarti terpotong), dan bahwa "kuat" terkait dengan aspek tertentu dari suatu metode dan bukan kualitas umum tetapi banyak orang mengartikan "kuat" berarti "Saya tidak tidak perlu khawatir tentang data saya, karena metode saya kuat ".

— Wayne

Jawaban yang bagus Saya merasa terganggu karena begitu banyak jawaban yang berfokus pada sulitnya memahami statistik yang kuat atau pada insentif untuk mengabaikan pelanggaran asumsi. Mereka mengabaikan orang - orang di luar sana yang tahu bahwa ada kasus-kasus ketika statistik yang kuat diperlukan dan ketika mereka tidak.

— Kenji

29

Saya akan menyarankan bahwa ini adalah keterlambatan dalam mengajar. Kebanyakan orang belajar statistik di perguruan tinggi atau universitas. Jika statistik bukan gelar pertama Anda dan bukannya gelar matematika atau ilmu komputer maka Anda mungkin hanya mencakup modul statistik dasar:

Kemungkinan; Peluang; probabilitas
Pengujian hipotesis
Regresi

Ini berarti bahwa ketika dihadapkan dengan masalah Anda mencoba dan menggunakan apa yang Anda ketahui untuk menyelesaikan masalah.

Data tidak Normal - ambil log.
Data memiliki outlier yang mengganggu - hapus data tersebut.

Kecuali Anda menemukan sesuatu yang lain, maka sulit untuk melakukan sesuatu yang lebih baik. Sangat sulit menggunakan Google untuk menemukan sesuatu jika Anda tidak tahu apa namanya!

Saya pikir dengan semua teknik itu akan membutuhkan waktu sebelum teknik yang lebih baru menyaring. Berapa lama dibutuhkan tes hipotesis standar untuk menjadi bagian dari kurikulum statistik standar?

BTW, dengan gelar statistik masih akan ada jeda dalam mengajar - hanya lebih pendek!

— csgillespie
sumber

4

Tapi ini menimbulkan masalah pedagogis yang menarik, setidaknya dalam Psikologi, karena sejauh yang saya tahu sebagian besar buku statistik pengantar yang digunakan di bidang saya tidak benar-benar membahas langkah-langkah yang kuat kecuali sebagai tambahan.

— russellpierce

3

Itu sangat benar, dan juga dalam psikologi, ada kebingungan yang mengganggu antara non-parametrik dan non-normal, yang tampaknya menghambat pemahaman.

— richiemorrisroe

2

Sebagian dari kita psikolog hanya bingung tentang semua statistik! :)

— Nick Stauner

21

Siapa pun yang terlatih dalam analisis data statistik pada tingkat yang wajar menggunakan konsep statistik yang kuat secara teratur. Sebagian besar peneliti cukup tahu untuk mencari outlier serius dan kesalahan perekaman data; kebijakan menghapus titik data yang dicurigai kembali ke abad ke-19 dengan Lord Rayleigh, GG Stokes, dan yang lainnya seusia mereka. Jika pertanyaannya adalah:

Mengapa peneliti tidak menggunakan metode yang lebih modern untuk menghitung lokasi, skala, regresi, dll. Estimasi?

maka jawabannya diberikan di atas - metode sebagian besar telah dikembangkan dalam 25 tahun terakhir, katakanlah 1985 - 2010. Keterlambatan untuk mempelajari faktor-faktor metode baru, serta inersia yang diperparah oleh 'mitos' bahwa tidak ada yang salah dengan secara membabi buta menggunakan metode klasik. John Tukey berkomentar bahwa metode kuat / tahan yang Anda gunakan tidak penting — yang penting adalah Anda menggunakannya. Sangat tepat untuk menggunakan kedua metode klasik dan kuat / tahan secara rutin, dan hanya khawatir ketika mereka berbeda cukup penting. Tetapi ketika mereka berbeda , Anda harus berpikir keras .

Jika sebaliknya, pertanyaannya adalah:

Mengapa para peneliti tidak berhenti dan bertanya tentang data mereka, alih-alih menerapkan secara membabi buta perkiraan yang tidak stabil?

maka jawabannya benar-benar turun ke pelatihan. Ada terlalu banyak peneliti yang tidak pernah dilatih dalam statistik dengan benar, disimpulkan oleh ketergantungan umum pada nilai-p sebagai semua-dan akhir-semua 'signifikansi statistik'.

@Kwak: perkiraan Huber dari tahun 1970-an yang kuat, dalam arti klasik kata: mereka menolak outlier. Dan penaksir redescending sebenarnya sudah ada jauh sebelum tahun 1980-an: studi ketahanan Princeton (tahun 1971) mencakup estimasi lokasi bisquare, perkiraan redescending.

— Wesley Burr
sumber

2

projecteuclid.org/... Dokumen yang tersedia secara bebas ditulis oleh Peter Huber tentang kontribusi John Tukey untuk statistik yang kuat. Cukup mudah dibaca, ringan pada formula.

— Wesley Burr

20

Statistik adalah alat untuk peneliti yang berpikiran non-statistik, dan mereka tidak peduli.

Saya pernah mencoba membantu dengan artikel Kedokteran yang mantan istri saya ikut menulis. Saya menulis beberapa halaman yang menggambarkan data, apa yang disarankan, mengapa pengamatan tertentu telah dikeluarkan dari penelitian ... dan peneliti utama, seorang dokter, membuang semuanya dan meminta seseorang untuk menghitung nilai p, yang hanya dia (dan hampir semua orang yang akan membaca artikel) peduli.

— Carlos Accioly
sumber

12

Saya Berikan jawaban dalam dua arah:

hal-hal yang kuat belum tentu dilabeli kuat. Jika Anda percaya kekokohan terhadap segala sesuatu ada maka Anda naif.
Pendekatan statistik yang meninggalkan masalah ketahanan appart kadang-kadang tidak disesuaikan dengan dunia nyata tetapi seringkali lebih berharga (sebagai konsep) daripada algoritma yang terlihat seperti dapur.

pengembangan

Pertama, saya pikir ada banyak pendekatan yang baik dalam statistik (Anda akan menemukan mereka dalam paket R belum tentu dengan yang disebutkan di suatu tempat kuat) yang secara alami kuat dan diuji pada data nyata dan fakta bahwa Anda tidak menemukan algoritma dengan "robust "Disebutkan di suatu tempat bukan berarti tidak kuat. Pokoknya jika Anda berpikir menjadi kuat berarti universal maka Anda tidak akan pernah menemukan prosedur yang kuat (tidak ada makan siang gratis) Anda perlu memiliki pengetahuan / keahlian pada data yang Anda analisis untuk menggunakan alat yang disesuaikan atau untuk membuat model yang disesuaikan.

Di sisi lain, beberapa pendekatan dalam statistik tidak kuat karena mereka didedikasikan untuk satu jenis model tunggal. Saya pikir itu baik kadang-kadang bekerja di laboratorium untuk mencoba memahami sesuatu. Juga baik untuk memperlakukan masalah secara terpisah untuk memahami masalah apa yang menjadi solusi kita ... ini adalah cara kerja matematikawan. Contoh model Gaussian elocant: begitu banyak dikritik karena asumsi gaussian tidak pernah dipenuhi tetapi telah membawa 75% dari ide-ide yang digunakan secara praktis dalam statistik saat ini. Apakah Anda benar-benar berpikir semua ini tentang menulis makalah untuk mengikuti aturan penerbitan atau binasa (yang saya tidak suka, saya setuju)?

— robin girard
sumber

11

Sebagai seseorang yang telah belajar sedikit statistik untuk penelitian saya sendiri, saya akan menebak bahwa alasannya pedagogis dan lembam.

Saya telah mengamati dalam bidang saya sendiri bahwa urutan topik yang diajarkan mencerminkan sejarah bidang tersebut. Ide-ide yang datang pertama diajarkan terlebih dahulu, dan seterusnya. Untuk orang yang hanya mempelajari statistik untuk instruksi sepintas, ini berarti mereka akan mempelajari statistik klasik terlebih dahulu, dan mungkin yang terakhir. Kemudian, bahkan jika mereka belajar lebih banyak, barang-barang klasik dengan tongkat lebih baik karena efek keutamaan.

Juga, semua orang tahu apa uji-t dua sampel itu. Kurang dari semua orang yang tahu apa itu tes Jumlah Mann-Whitney atau Wilcoxon Rank. Ini berarti bahwa saya harus mengerahkan sedikit energi untuk menjelaskan apa tes kuat saya, dibandingkan tidak harus mengerahkan apa pun dengan tes klasik. Kondisi seperti itu jelas akan menghasilkan lebih sedikit orang menggunakan metode yang kuat dari yang seharusnya.

— JoFrhwld
sumber

9

Wooldridge "Pengantar Ekonometrika - Pendekatan Modern" 2E hal.261.

Jika kesalahan standar Heteroskedasticity-robust lebih valid daripada kesalahan standar OLS biasa, mengapa kita repot-repot kita kesalahan standar biasa sama sekali? ... Salah satu alasan mereka masih digunakan dalam pekerjaan cross sectional adalah bahwa, jika asumsi homoskedasticity berlaku dan erro terdistribusi normal, maka t-statistik biasa memiliki distribusi t yang tepat, terlepas dari ukuran sampel. Kesalahan standar yang kuat dan statistik t yang kuat dibenarkan hanya karena ukuran sampel menjadi besar. Dengan ukuran sampel yang kecil, statistik t yang kuat dapat memiliki distribusi yang tidak terlalu dekat dengan distribusi t, dan itu dapat membuang kesimpulan kami. Dalam ukuran sampel yang besar, kami dapat membuat kasus untuk selalu melaporkan hanya kesalahan standar Heteroskedasticity-robust dalam aplikasi cross-sectional,

2

Berita buruk di sini: pan.oxfordjournals.org/content/23/2/159

— conjugateprior

7

Meskipun mereka tidak saling eksklusif, saya pikir semakin populernya statistik Bayesian adalah bagian darinya. Statistik Bayesian dapat mencapai banyak tujuan yang sama melalui prior dan model rata-rata, dan cenderung sedikit lebih kuat dalam praktik.

— Joe
sumber

6

Saya bukan ahli statistik, pengalaman saya dalam statistik cukup terbatas, saya hanya menggunakan statistik yang kuat dalam visi komputer / estimasi / rekonstruksi 3d. Inilah pendapat saya tentang masalah dari sudut pandang pengguna:

Pertama, statistik yang kuat banyak digunakan dalam bidang teknik dan sains tanpa menyebutnya "statistik yang kuat". Banyak orang menggunakannya secara intuitif, dalam proses menyesuaikan metode spesifik dengan masalah dunia nyata. Misalnya kuadrat berulang berulang berulang dan rata-rata terpangkas / terpangkas kuadrat digunakan secara umum, bahwa hanya pengguna tidak tahu mereka menggunakan statistik yang kuat - mereka hanya membuat metode yang bisa diterapkan untuk data nyata, non-sintetis.

Kedua, statistik kuat "intuitif" dan statistik sadar secara praktis selalu digunakan dalam kasus di mana hasilnya dapat diverifikasi, atau di mana ada metrik kesalahan yang terlihat jelas. Jika hasil yang diperoleh dengan distribusi normal jelas tidak valid atau salah, orang mulai mengutak-atik bobot, pemangkasan, pengambilan sampel, membaca beberapa kertas dan akhirnya menggunakan penduga yang kuat, apakah mereka tahu istilah atau tidak. Di sisi lain, jika hasil akhir dari penelitian hanya beberapa grafik dan diagram, dan tidak ada ketidakpekaan untuk memverifikasi hasil, atau jika statistik normal menghasilkan hasil yang cukup baik - orang tidak peduli.

Dan terakhir, tentang kegunaan statistik yang kuat sebagai teori - sementara teori itu sendiri sangat menarik itu tidak sering memberikan keuntungan praktis. Sebagian besar penaksir yang kuat cukup sepele dan intuitif, sering orang menciptakannya kembali tanpa pengetahuan statistik. Teori, seperti estimasi titik kerusakan, asimptotik, kedalaman data, heteroskedacity dll memungkinkan pemahaman yang lebih dalam tentang data, tetapi dalam kebanyakan kasus itu hanya tidak perlu. Satu pengecualian besar adalah persimpangan statistik yang kuat dan penginderaan tekan, yang menghasilkan beberapa metode praktis baru seperti "cross-and-bouquet"

— mirror2image
sumber

5

Pengetahuan saya tentang estimator yang kuat semata-mata dalam hal kesalahan standar yang kuat untuk parameter regresi sehingga komentar saya hanya akan mengenai hal itu. Saya sarankan orang membaca artikel ini,

Tentang "Pengukur Sandwich Huber" dan "Kesalahan Standar yang Kuat" oleh: Freedman, A. David Ahli Statistik Amerika, Vol. 60, No. 4. (November 2006), hlm. 299-302. doi: 10.1198 / 000313006X152207 ( Versi PDF )

Khususnya apa yang saya khawatirkan dengan pendekatan ini bukanlah bahwa mereka salah, tetapi mereka hanya mengalihkan perhatian dari masalah yang lebih besar. Jadi saya sepenuhnya setuju dengan jawaban Robin Girard dan penyebutannya "tidak makan siang gratis".

— Andy W
sumber

3

Kalkulus dan probabilitas yang diperlukan untuk statistik yang kuat (biasanya) lebih sulit, jadi (a) ada lebih sedikit teori dan (b) lebih sulit untuk dipahami.

— JohnRos
sumber

2

Saya terkejut melihat teorema Gauss-Markov tidak disebutkan dalam daftar panjang jawaban ini, afaics:

Dalam model linier dengan kesalahan bola (yang sepanjang itu mencakup asumsi tidak ada pencilan, melalui varians kesalahan terbatas), OLS efisien dalam kelas penaksir tidak bias linier - terdapat (membatasi, untuk memastikan) kondisi di mana " Anda tidak dapat melakukan lebih baik daripada OLS ".

Saya tidak berargumen ini harus dibenarkan menggunakan OLS hampir sepanjang waktu, tetapi tentu memberikan kontribusi mengapa (terutama karena itu adalah alasan yang baik untuk fokus pada OLS dalam mengajar).

— Christoph Hanck
sumber

Ya, tapi itu mengasumsikan bahwa meminimalkan varians adalah kriteria yang relevan, dan dengan ekor yang berat, mungkin tidak begitu!

— kjetil b halvorsen

1

Tentu. Saya hanya ingin menambahkan apa yang saya yakini mungkin merupakan alasan paling terkenal untuk berpikir OLS adalah teknik yang berguna untuk daftar alasan yang dapat dimengerti mengapa teknik yang kuat belum menggantinya : ada kasus di mana Anda tidak boleh menggantinya.

— Christoph Hanck

0

Dugaan saya adalah bahwa statistik yang kuat tidak pernah cukup yaitu untuk menjadi kuat statistik ini melewatkan beberapa informasi tentang distribusi. Dan saya curiga itu tidak selalu baik. Dengan kata lain ada trade-off antara ketahanan dan hilangnya informasi.

m e d i a n ({1, 2, 3, 4, 5}) = 3 = m e d i a n ({0.1, 0.2, 3, 4000, 5000})

$median(\{1, 2, 3, 4, 5\})=3=median(\{0.1, 0.2, 3, 4000, 5000\})$

— ayorgo
sumber

1

Lihat stats.stackexchange.com/questions/74113/… untuk situasi di mana median sangat rapuh dan rerata berperilaku sangat baik.

— Nick Cox