Apakah lebih baik untuk memilih distribusi berdasarkan teori, kecocokan atau sesuatu yang lain?

Ini berbatasan dengan pertanyaan filosofis, tetapi saya tertarik pada bagaimana orang lain dengan pengalaman lebih banyak berpikir tentang pemilihan distribusi. Dalam beberapa kasus tampak jelas bahwa teori mungkin paling berhasil (panjang ekor tikus mungkin terdistribusi normal). Dalam banyak kasus, mungkin tidak ada teori untuk mendeskripsikan sekumpulan data, jadi Anda hanya menggunakan sesuatu yang sesuai dengan apa yang Anda miliki dengan cukup baik terlepas dari apa yang semula dikembangkan untuk menggambarkannya? Saya bisa membayangkan beberapa perangkap untuk pergi dengan yang satu ini atau yang lain, dan tentu saja tampaknya ada masalah yang mungkin Anda harus menggunakan distribusi empiris jika Anda benar-benar tidak tahu.

Jadi saya kira apa yang sebenarnya saya tanyakan: apakah seseorang memiliki cara yang koheren untuk mendekati / memikirkan masalah ini? Dan adakah sumber daya yang bisa Anda sarankan untuk memberikan perawatan yang baik untuk ini?

distributions overfitting heuristic

— HF Mendengkur
sumber

Itu tergantung secara mendasar pada mengapa seseorang cocok atau menganggap distribusi dan apa yang dimaksudkan untuk diwakilkan. Kami mengajukan banyak pertanyaan di situs ini di mana tampaknya orang merasa mereka harus menyesuaikan distribusi dengan data atau jumlah yang diturunkan (seperti residu regresi) ketika kenyataannya latihan itu tidak ada gunanya (atau lebih buruk, menipu) sejauh memecahkan masalah statistik yang mereka benar - benar lakukan. miliki prihatin. Bisakah Anda mengklarifikasi jenis-jenis kasus yang ada dalam pikiran Anda?

— whuber

Hai Whuber, terima kasih atas komentarnya. Karena saya sudah mulai bekerja sedikit pada penilaian risiko probablistik, saya diminta untuk memasukkan semua data saya ke distribusi dan itu membuat saya ingin tahu tentang memiliki pandangan yang lebih konsisten tentang bagaimana pemilihan distribusi dilakukan. Jadi saya kira untuk mengklarifikasi, saya hanya benar-benar tertarik pada saat-saat ketika Anda harus menggunakan distribusi, dan bagaimana cara melakukannya dengan benar. Seperti yang saya katakan, beberapa kasus mudah dari teori, di lain waktu saya menggunakan distribusi empiris karena sepertinya yang terbaik, tetapi pengambilan keputusan saya lebih serampangan daripada yang saya inginkan.

— HFBrowning

Itu adalah kaleng cacing yang menarik, karena apa yang sebenarnya Anda lakukan (agak abstrak) adalah mencoba menyebarkan ketidakpastian pengambilan sampel melalui perhitungan. Alasan untuk melihat prosedur dari level tinggi ini adalah karena ia mengungkapkan kesalahan mendasar yang sering dibuat: dengan mengganti data dengan distribusi, orang gagal untuk memasukkan ketidakpastian dalam estimasi parameter distribusi. Akuntansi untuk ini disebut PRA "urutan kedua" oleh beberapa praktisi. Saya ingin menyarankan Anda mempersempit pertanyaan Anda untuk fokus pada masalah ini daripada bertanya tentang distribusi pas secara umum.

— whuber

Paket yang saya gunakan untuk PRA saya adalah monte carlo pesanan kedua ( paket mc2d dalam R), jadi saya menetapkan distribusi saya baik sebagai "ketidakpastian", "variabilitas" atau keduanya. Jadi semoga saya memperhitungkan masalah itu sejauh yang saya bisa. Namun, tujuan awal saya untuk pertanyaan ini adalah untuk mendapatkan pandangan tingkat yang lebih tinggi, dan saya mengemukakan penilaian risiko hanya untuk memberikan konteks mengapa saya tertarik. Dan mungkin tidak ada cara yang lebih baik daripada "kadang-kadang Anda melakukan ini, kadang-kadang Anda melakukannya dengan cara itu" tapi saya berharap seseorang punya saran :) Terutama karena saya tidak dapat dengan mudah menentukan kapan mungkin lebih baik -

— HFBrowning

Ini jelas tempat yang tepat untuk posting Anda. Apakah Anda mengatakan Anda mengalami masalah saat mengedit? Kebetulan, saya ingin tahu tentang bagaimana prosedur Anda mengukur ketidakpastian dalam menggunakan distribusi empiris. Ini juga dilengkapi dengan variabilitas pengambilan sampel (yang bisa mendalam pada bagian ekornya, yang seringkali paling penting dalam penilaian risiko), meskipun Anda belum secara eksplisit memperkirakan parameter apa pun.

— whuber

Jawaban:

Jelas tergantung pada apa data yang dimaksud dan seberapa banyak yang diketahui atau ingin diambil orang tentang data tersebut. Seperti yang dikatakan @whuber dalam obrolan baru-baru ini , "Di mana hukum fisik terlibat, Anda hampir selalu dapat membuat perkiraan yang masuk akal tentang cara yang tepat untuk memodelkan data." (Saya menduga ini lebih benar darinya daripada saya! Namun, saya harap ini tidak salah diterapkan dari konteks aslinya ...) Dalam kasus yang lebih mirip pembuatan model laten dalam ilmu sosial, sering berguna untuk fokus pada distribusi empiris sebagai cara memahami nuansa fenomena yang kurang dikenal. Agak terlalu mudah untuk menganggap distribusi normal dan menganggap ketidakcocokan dalam bentuk keseluruhan dapat diabaikan, dan cukup spekulatif untuk menganggap pencilan yang keliru sebagai sesuatu yang keliru tanpa lebih banyak pembenaran daripada yang mereka lakukan.

Tentu saja, banyak dari perilaku ini dimotivasi oleh asumsi analisis yang ingin diterapkan. Seringkali pertanyaan yang paling menarik jauh melampaui deskripsi atau klasifikasi distribusi variabel. Ini juga memengaruhi jawaban yang tepat untuk skenario tertentu; mungkin ada alasan (misalnya, kebutuhan daya ) untuk mengasumsikan distribusi normal ketika tidak cocok dengan baik (atau tidak cocok terlalu buruk), karena metode nonparametrik dan kuat tidak sempurna juga. Meskipun demikian, risiko melakukannya biasanya lupa untuk menanyakan pertanyaan menarik yang dapat ditanyakan tentang distribusi variabel tunggal.

Misalnya, pertimbangkan hubungan antara kekayaan dan kebahagiaan: pertanyaan populer yang umumnya ingin ditanyakan orang. Mungkin aman untuk mengasumsikan kekayaan mengikuti distribusi gamma ^{(Salem & Mount, 1974)} atau beta umum ^{(Parker, 1999)} , tetapi apakah benar-benar aman untuk menganggap bahwa kebahagiaan biasanya terdistribusi? Sungguh, seharusnya tidak perlu mengasumsikan ini sama sekali hanya untuk menjawab pertanyaan awal, tetapi orang kadang-kadang melakukannya, dan kemudian mengabaikan isu-isu penting yang potensial seperti bias respon dan perbedaan budaya. Sebagai contoh, beberapa budaya cenderung memberikan respons yang lebih atau kurang ekstrim (lihat jawaban @ chl tentang analisis faktor kuesioner yang terdiri dari item-item Likert ), dan norma bervariasi berkenaan dengan ekspresi terbuka emosi positif dan negatif ^{(Tucker, Ozer, Lyubomirsky, & Boehm, 2006 )} . Ini dapat meningkatkan pentingnya perbedaan dalam karakteristik distribusi empiris seperti skewness dan kurtosis. Jika saya membandingkan hubungan kekayaan dengan peringkat subjektif kebahagiaan di Rusia, Cina, dan AS, saya mungkin ingin menilai perbedaan kecenderungan kecenderungan peringkat kebahagiaan. Dengan demikian, saya akan ragu untuk menganggap distribusi normal di masing-masing demi ANOVA satu arah (meskipun mungkin cukup kuat untuk pelanggaran) ketika ada alasan untuk mengharapkan distribusi "ekor lebih gemuk" di Cina, distribusi condong positif di Rusia, dan distribusi condong negatif di AS karena berbagai norma yang bergantung pada budaya dan bias respon. Demi uji signifikansi (walaupun saya mungkin lebih suka melaporkan ukuran efek, jujur), saya lebih suka menggunakan metode nonparametrik, dan demi benar-benar memahami kebahagiaan subyektif di setiap populasi secara individual, saya akan lebih baik menggambarkan distribusi secara empiris daripada mencoba untuk mengkategorikannya sebagai beberapa distribusi teoritis sederhana dan mengabaikan atau mengabaikan ketidakcocokan. Itu buang-buang info IMO.

^{Referensi

- Parker, SC (1999). Beta umum sebagai model untuk distribusi pendapatan. Economics Letters, 62 (2), 197-200.

- Salem, ABZ, & Mount, TD (1974). Model deskriptif distribusi pendapatan yang nyaman: Kepadatan gamma. Econometrica, 42 (6), 1115-1127.

- Tucker, KL, Ozer, DJ, Lyubomirsky, S., & Boehm, JK (2006). Pengujian untuk invariansi pengukuran dalam kepuasan dengan skala hidup: Perbandingan Rusia dan Amerika Utara. Penelitian Indikator Sosial, 78 (2), 341–360. Diperoleh dari http://drsonja.net/wp-content/themes/drsonja/papers/TOLB2006.pdf .}

— Nick Stauner
sumber

Terima kasih atas jawaban Anda, Nick. Saya menemukan contohnya sangat membantu.

— HFBrowning

panjang ekor tikus mungkin terdistribusi normal

Saya akan meragukannya. Distribusi normal muncul dari banyak efek aditif independen. Sistem biologis terdiri dari banyak loop umpan balik yang berinteraksi (efek multiplikasi yang saling tergantung). Juga sering ada beberapa negara yang lebih stabil daripada yang lain (yaitu penarik). Jadi beberapa jenis distribusi ekor panjang atau multimoda mungkin akan menggambarkan panjang ekor. Bahkan, distribusi normal mungkin merupakan pilihan standar yang sangat buruk untuk menggambarkan sesuatu yang biologis dan penyalahgunaannya bertanggung jawab atas banyak "pencilan" yang dilaporkan dalam literatur itu. Prevalensi distribusi ini di alam adalah mitos dan tidak hanya dalam pengertian "lingkaran sempurna tidak benar-benar ada". Namun tidak berarti bahwa mean dan sd tidak berguna sebagai ringkasan statistik.

Terutama karena saya tidak dapat dengan mudah menentukan kapan mungkin lebih baik untuk "mempercayai data" (seperti kumpulan data miring kanan funky yang saya miliki, tetapi n = 160 yang diberi data tidak tampak cukup) dan berjalan dengan empiris, atau paskan ke distribusi Beta seperti rekan saya terus bersikeras. Saya curiga dia memilih itu hanya karena dibatasi pada [0,1]. Semuanya sepertinya benar-benar ad hoc. Semoga ini menjelaskan maksud saya!

Distribusi empiris yang pas memberikan petunjuk pada proses yang mendasarinya, yang memfasilitasi pengembangan distribusi teoritis. Kemudian distribusi teoritis dibandingkan dengan distribusi empiris untuk menguji bukti teori.

Jika tujuan Anda menilai probabilitas hasil tertentu berdasarkan bukti saat ini yang tersedia dan Anda tidak punya alasan untuk memilih distribusi tertentu, saya kira saya tidak melihat bagaimana membuat asumsi tambahan bisa membantu. Alih-alih tampaknya membingungkan masalah.

Namun, jika Anda mencoba untuk mendeskripsikan atau meringkas data, mungkin masuk akal untuk menyesuaikan distribusi.

— Marah
sumber

Meskipun saya hanya dapat menerima satu jawaban, saya ingin mengucapkan terima kasih karena telah menunjukkan bagaimana distribusi normal sebenarnya muncul. Itu memaksa saya untuk berpikir lebih hati-hati tentang apa artinya sesuatu didasarkan pada teori.

— HFBrowning

Dalam beberapa kasus tampak jelas bahwa teori mungkin paling berhasil (panjang ekor tikus mungkin terdistribusi normal).

Panjang ekor tentu tidak terdistribusi normal.

Distribusi normal memiliki probabilitas nol untuk mengambil nilai negatif; panjang ekor tidak.

Garis terkenal George Box , " semua model salah, tetapi ada yang berguna " membuat titik agak baik. Kasus-kasus di mana kita mungkin secara wajar menyatakan normalitas (bukan hanya perkiraan normalitas) memang sangat jarang, hampir makhluk legenda, fatamorgana kadang-kadang hampir sekilas keluar dari sudut mata.

Dalam banyak kasus, mungkin tidak ada teori untuk mendeskripsikan sekumpulan data, jadi Anda hanya menggunakan sesuatu yang sesuai dengan apa yang Anda miliki dengan cukup baik terlepas dari apa yang semula dikembangkan untuk menggambarkannya?

Dalam kasus di mana jumlah yang Anda minati tidak terlalu sensitif terhadap pilihan (selama fitur luas dari distribusi konsisten dengan apa yang diketahui), maka ya, Anda bisa menggunakan sesuatu yang cocok dengan cukup baik.

Dalam kasus di mana ada tingkat sensitivitas yang lebih besar, 'hanya menggunakan sesuatu yang sesuai' tidak cukup sendiri. Kami mungkin menggunakan beberapa pendekatan yang tidak membuat asumsi tertentu (mungkin prosedur bebas distribusi, seperti permutasi, bootstrap atau pendekatan resampling lainnya, atau prosedur yang kuat). Atau kita dapat mengukur sensitivitas terhadap asumsi distribusi, seperti melalui simulasi (memang saya pikir ini umumnya ide yang baik).

tampaknya ada masalah yang mungkin Anda harus menggunakan distribusi empiris jika Anda benar-benar tidak tahu.

Saya tidak akan menggambarkan bahwa sebagai masalah - mendasarkan kesimpulan pada distribusi empiris tentu saja pendekatan yang sah cocok untuk berbagai jenis masalah (permutasi / pengacakan dan bootstrap adalah dua contoh).

apakah seseorang memiliki cara yang koheren untuk mendekati / memikirkan masalah ini?

secara luas, dalam banyak kasus, saya cenderung mempertimbangkan pertanyaan seperti:

1) Apa yang saya mengerti * tentang bagaimana cara (atau jumlah tipe lokasi lainnya) berperilaku untuk data dari formulir ini?

* (apakah dari teori, atau pengalaman dari bentuk data ini, atau saran ahli, atau jika perlu, dari data itu sendiri, meskipun itu membawa masalah yang harus dihadapi)

2) Bagaimana dengan penyebaran (varian, IQR, dll) - bagaimana cara kerjanya?

3) Bagaimana dengan fitur distribusi lainnya (batas, kemiringan, kelonggaran, dll)

4) Bagaimana dengan ketergantungan, heterogenitas populasi, kecenderungan nilai yang kadang sangat berbeda, dll

Pertimbangan semacam ini mungkin memandu pilihan antara model normal, GLM, beberapa model lain atau beberapa pendekatan yang kuat atau bebas distribusi (seperti pendekatan bootstrap atau permutasi / pengacakan, termasuk prosedur berbasis peringkat)

— Glen_b -Reinstate Monica
sumber