Apakah ada perbedaan dalam pendekatan Bayesian dan sering untuk EDA?

Sederhananya: Apakah ada perbedaan dalam pendekatan Bayesian dan Frequentist untuk Analisis Data Eksplorasi?

Saya tahu tidak ada bias yang melekat dalam metode EDA sebagai histogram adalah histogram, sebar sebar adalah sebar sebar, dll, juga tidak saya menemukan contoh perbedaan dalam bagaimana EDA diajarkan atau disajikan (mengabaikan makalah teoretis khusus oleh A. Gelman) . Akhirnya, saya melihat CRAN, wasit dari semua hal yang diterapkan: Saya belum menemukan paket yang disesuaikan dengan pendekatan Bayesian. Namun, saya pikir CV mungkin memiliki beberapa orang yang bisa menjelaskan hal ini.

Mengapa harus ada perbedaan?

Sebagai permulaan:

Ketika mengidentifikasi distribusi yang sesuai sebelumnya, tidakkah orang harus menyelidiki ini secara visual?
Ketika meringkas data dan menyarankan apakah akan menggunakan model frequentist atau Bayesian, bukankah EDA menyarankan ke arah mana harus pergi?
Kedua pendekatan memiliki perbedaan yang sangat jelas tentang cara menangani model campuran. Mengidentifikasi bahwa sampel yang kemungkinan berasal dari campuran populasi merupakan tantangan dan terkait langsung dengan metodologi yang digunakan untuk memperkirakan parameter campuran.
Kedua pendekatan menggabungkan model stokastik dan pemilihan model didorong oleh pemahaman data. Data yang lebih kompleks atau model yang lebih kompleks memerlukan lebih banyak waktu dalam EDA. Dengan perbedaan antara model stokastik atau proses menghasilkan, ada perbedaan dalam kegiatan EDA, jadi bukankah seharusnya ada perbedaan yang timbul dari berbagai pendekatan stokastik?

Catatan 1: Saya tidak peduli dengan filosofi dari kedua "kamp" - Saya hanya ingin mengatasi kesenjangan dalam toolkit dan metode EDA saya.

bayesian frequentist eda

— Iterator
sumber

Jawaban:

Dalam pikiran saya, Bayes vs frequentist adalah tentang inferensi formal, dan analisis data eksplorasi juga tidak.

Tentu saja, ketika datang ke model penilaian / analisis goodness-of-fit dan sensitivitas, di mana saya akan mengklasifikasikan poin Anda (1), (3), dan (4), akan ada perbedaan dalam bagaimana seseorang akan melanjutkan, tetapi itu karena sifat perbedaan antara analisis dan metode komputasi daripada tentang filsafat.

Mengenai Anda (2), saya biasanya tidak melihat hasil EDA menunjukkan Anda ke arah pendekatan Bayesian atau frquentist, tetapi saya pikir tujuan penelitianlah yang paling penting.

Bagi saya pribadi, EDA (plus introspeksi mendalam) akan mengarahkan saya ke arah model, dan jika saya dapat menemukan pendekatan kerap alami yang menjawab pertanyaan ilmiah dengan cukup baik, saya akan setuju dengan itu, tetapi jika berdasarkan sifat situasi , tidak ada metode frequentist yang akan bekerja dengan baik, dan jika ada sebelumnya yang masuk akal, saya akan menggunakan Bayes.

— Karl
sumber

(+1) Sangat baik dikatakan - terutama, "EDA (plus introspeksi mendalam) akan mengarahkan saya ke arah model"

— suncoolsu

+1 juga. EDA sebenarnya bukan tentang memilih perspektif, ini tentang memahami data Anda untuk membuat keputusan lebih banyak informasi.

— Fomite

+1 Untuk jawaban yang bagus. Sayangnya, saya pikir pertanyaan awalnya disalahpahami. Saya tidak bertanya tentang menggunakan EDA untuk memutuskan antara model Bayesian atau sering. Saya perlu meninjau bagaimana saya mengucapkannya jika tampaknya beberapa orang memiliki kesalahpahaman yang sama.

— Iterator

@Iterator Saya mengerti pertanyaan utama Anda: apakah ada perbedaan antara pendekatan Bayesians dan frequentists 'ke EDA? Jawaban saya adalah: tidak; EDA tidak sering atau Bayesian.

— Karl

Saya pikir definisi saya tentang "analisis data eksplorasi" lebih sempit dari definisi Anda. Dalam pandangan saya, semua analisis data yang baik melibatkan eksplorasi. Yang membedakan "analisis data eksplorasi" adalah kurangnya model atau upaya apa pun terhadap inferensi formal.

— Karl

Saya pikir itu, EDA membantu Anda untuk membangun model, membuat beberapa asumsi dan (jika perlu) memperbarui model dan asumsi-asumsinya. Saya memilih pendekatan pragmatik untuk digunakan untuk pemasangan dan penilaian model.

— hbaghishani
sumber