Apa tepatnya yang dimaksud dengan meminjam informasi?


11

Saya sering berbicara tentang peminjaman informasi atau berbagi informasi dalam model hirarki Bayesian. Saya sepertinya tidak bisa mendapatkan jawaban langsung tentang apa arti sebenarnya ini dan apakah itu unik untuk model hierarkis Bayesian. Saya mendapatkan semacam ide: beberapa level dalam hierarki Anda berbagi parameter umum. Saya tidak tahu bagaimana ini berarti "meminjam informasi".

  1. Apakah "meminjam informasi" / "berbagi informasi" adalah kata buzz yang suka dibuang orang?

  2. Apakah ada contoh dengan eksterior bentuk tertutup yang menggambarkan fenomena berbagi ini?

  3. Apakah ini unik untuk analisis Bayesian? Secara umum, ketika saya melihat contoh "peminjaman informasi" mereka hanya model campuran. Mungkin saya mempelajari model ini dengan cara lama, tapi saya tidak melihat ada yang berbagi.

Saya tidak tertarik memulai debat filosofis tentang metode. Saya hanya ingin tahu tentang penggunaan istilah ini.


1
Untuk pertanyaan Anda 2., Anda mungkin menemukan tautan ini menerangi: tjmahr.com/plotting-partial-pooling-in-mixed-effects-models .
Isabella Ghement

Saya akan senang melihat beberapa penyebutan teori informasi dalam jawaban di sini.
shadowtalker

Jawaban:


10

Ini adalah istilah yang secara khusus dari Bayes empiris (EB), pada kenyataannya konsep yang dimaksud tidak ada dalam inferensi Bayesian sejati. Istilah aslinya adalah "meminjam kekuatan", yang diciptakan oleh John Tukey kembali pada 1960-an dan dipopulerkan lebih lanjut oleh Bradley Efron dan Carl Morris dalam serangkaian artikel statistik tentang paradoks Stein dan EB parametrik pada 1970-an dan 1980-an. Banyak orang sekarang menggunakan "peminjaman informasi" atau "berbagi informasi" sebagai sinonim untuk konsep yang sama. Alasan mengapa Anda mungkin mendengarnya dalam konteks model campuran adalah bahwa analisis yang paling umum untuk model campuran memiliki interpretasi EB.

EB memiliki banyak aplikasi dan berlaku untuk banyak model statistik, tetapi konteksnya selalu adalah bahwa Anda memiliki sejumlah besar (mungkin independen) kasus dan Anda mencoba untuk memperkirakan parameter tertentu (seperti rata-rata atau varians) dalam setiap kasus. Dalam inferensi Bayesian, Anda membuat kesimpulan posterior tentang parameter berdasarkan data yang diamati untuk setiap kasus dan distribusi sebelumnya untuk parameter itu. Dalam inferensi EB, distribusi sebelumnya untuk parameter diperkirakan dari seluruh kumpulan kasus data, setelah inferensi berlanjut seperti inferensi Bayesian. Oleh karena itu, ketika Anda memperkirakan parameter untuk kasus tertentu, Anda menggunakan data untuk kasus itu dan juga perkiraan distribusi sebelumnya, dan yang terakhir mewakili "informasi" atau "kekuatan"

Sekarang Anda dapat melihat mengapa EB memiliki "pinjaman" tetapi Bayes benar tidak. Di Bayes yang sebenarnya, distribusi sebelumnya sudah ada sehingga tidak perlu diemis atau dipinjam. Dalam EB, distribusi sebelumnya telah dibuat dari data yang diamati itu sendiri. Ketika kami membuat kesimpulan tentang kasus tertentu, kami menggunakan semua informasi yang diamati dari kasus itu dan sedikit informasi dari masing-masing kasus lainnya. Kami mengatakan itu hanya "dipinjam", karena informasi diberikan kembali ketika kami melanjutkan untuk membuat kesimpulan tentang kasus berikutnya.

Gagasan EB dan "peminjaman informasi" banyak digunakan dalam genomik statistik, ketika setiap "kasus" biasanya merupakan gen atau fitur genom (Smyth, 2004; Phipson et al, 2016).

Referensi

Efron, Bradley, dan Carl Morris. Paradoks Stein dalam statistik. Scientific American 236, no. 5 (1977): 119-127. http://statweb.stanford.edu/~ckirby/brad/other/Article1977.pdf

Smyth, GK (2004). Model linear dan metode Bayes empiris untuk menilai ekspresi diferensial dalam eksperimen microarray. Aplikasi Statistik dalam Genetika dan Biologi Molekuler Volume 3, Edisi 1, Pasal 3. http://www.statsci.org/smyth/pubs/ebayes.pdf

Phipson, B, Lee, S, Majewski, IJ, Alexander, WS, dan Smyth, GK (2016). Estimasi hiperparameter yang kuat melindungi terhadap gen yang hipervariabel dan meningkatkan kekuatan untuk mendeteksi ekspresi diferensial. Sejarah Statistik Terapan 10, 946-963. http://dx.doi.org/10.1214/16-AOAS920


1
Saya pikir interpretasi ini tidak benar. Misalnya, model efek campuran meminjam informasi, namun dapat dianalisis dalam konteks Bayesian tradisional
Cliff AB

1
@CliffAB Jika Anda menggali ke dalam analisis model campuran, Anda akan menemukan bahwa analisis tersebut selalu merupakan Bayes empiris daripada Bayes sejati. Sebagian besar penulis tentu saja akan mengatakan mereka melakukan Bayes ketika itu sebenarnya EB karena kebanyakan penulis tidak membuat perbedaan. Jika Anda pikir dapat memberikan contoh analisis model campuran Bayes yang sebenarnya, maka saya mengundang Anda untuk melakukannya.
Gordon Smyth

1
@CliffAB Dalam sebagian kecil kasus ketika analisis Bayes yang sebenarnya digunakan untuk model campuran (misalnya, oleh MCMC atau Winbugs) maka penggunaan istilah "informasi pinjaman" akan IMO tidak pada tempatnya. Itu tentu tidak akan setuju dengan apa yang dimaksud Tukey dan Efron dengan "meminjam".
Gordon Smyth

1
@CliffAB Saya setuju bahwa brms adalah paket Bayesian, itulah mengapa istilah "meminjam informasi" tidak muncul dalam dokumentasi brms.
Gordon Smyth

1
Model Bayesian sederhana tidak "meminjam informasi", tetapi model multilevel melakukannya, walaupun saya pikir istilah yang lebih populer di bidang itu adalah "pengumpulan sebagian". Ini adalah diskusi klasik tentang ini dari A. Gelman. Secara umum, jika Anda menerima gagasan bahwa model efek campuran "meminjam informasi", saya tidak yakin bagaimana orang dapat mengatakan bahwa efek campuran Bayesian tidak; sebelum muncul di tingkat di bawah informasi yang dipinjam. Jika mengatakan model efek campuran tidak meminjam informasi, itu menjelaskan kebingungan saya pada klaim Anda.
Cliff AB

5

Pertimbangkan masalah sederhana seperti memperkirakan cara beberapa kelompok. Jika model Anda memperlakukannya sebagai sama sekali tidak terkait maka satu-satunya informasi yang Anda miliki tentang masing-masing mean adalah informasi dalam kelompok itu. Jika model Anda memperlakukan sarana mereka sebagai agak terkait (seperti dalam beberapa model jenis efek campuran) maka perkiraan akan lebih tepat karena informasi dari kelompok lain menginformasikan (mengatur, menyusut ke arah rata-rata umum) perkiraan untuk kelompok tertentu. Itu contoh 'informasi pinjaman'.

Gagasan muncul dalam pekerjaan aktuaria terkait dengan kredibilitas (tidak harus dengan istilah 'pinjaman' tertentu meskipun meminjam dalam pengertian itu secara eksplisit dalam formula); ini berjalan jauh, setidaknya satu abad yang lalu, dengan prekursor yang jelas akan kembali ke pertengahan abad kesembilan belas. Sebagai contoh, lihat Longley-Cook, LH (1962) Pengantar teori kredibilitas PCAS, 49, 194-221.

Inilah Whitney, 1918 (Theory of Experience Rating, PCAS, 4, 274-292):

Inilah risiko, misalnya, yang jelas-jelas harus diklasifikasikan sebagai bengkel mesin. Karena tidak adanya informasi lain, maka karenanya harus memalsukan tingkat toko mesin, yaitu tingkat rata-rata untuk semua risiko kelas ini. Di sisi lain risiko memiliki pengalaman sendiri. Jika risikonya besar, ini mungkin panduan yang lebih baik untuk bahayanya daripada pengalaman di kelas. Dalam hal apa pun, apakah risikonya besar atau kecil, kedua elemen ini memiliki nilai sebagai bukti, dan keduanya harus diperhitungkan. Kesulitan timbul dari fakta bahwa secara umum bukti itu bertentangan; masalahnya karena itu adalah untuk menemukan dan menerapkan kriteria yang akan memberikan bobot masing-masing.

Sementara istilah meminjam tidak ada di sini gagasan menggunakan informasi tingkat grup untuk memberi tahu kami tentang bengkel ini jelas ada. [Gagasan tetap tidak berubah ketika "kekuatan pinjaman" dan "informasi pinjaman" mulai diterapkan pada situasi ini]


1
Saya menghargai contohnya, karena menjelaskan dengan jelas apa yang dipinjam, tetapi saya sedang mencari definisi yang lebih tepat.
EliK

Sebuah tepat definisi tepat, istilah intuitif? Saya kira seseorang mungkin saja - seseorang mungkin mendefinisikannya dalam hal mengurangi varians dengan menghubungkan parameter antar kelompok tetapi seseorang dapat dengan mudah mengecualikan penggunaan gagasan yang masuk akal dengan melakukan hal itu
Glen_b -Reinstate Monica

Tidak jelas bagi saya apakah intuisi yang tidak tepat memiliki definisi yang sebenarnya.
EliK

3

σR2

σR2σR2

σR2σR2σRσR2. Semakin sedikit informasi dalam data, semakin penting informasi sebelumnya. Jika Anda belum melakukannya, saya sarankan mencoba mensimulasikan model efek campuran dengan hanya beberapa subjek. Anda mungkin terkejut betapa tidak stabilnya estimasi dari metode Frequentist, terutama ketika Anda menambahkan hanya satu atau dua outlier ... dan seberapa sering seseorang melihat dataset nyata tanpa outlier? Saya percaya masalah ini tercakup dalam Analisis Data Bayesian oleh Gelman et al, tapi sayangnya saya tidak berpikir itu tersedia untuk umum sehingga tidak ada hyperlink.

Akhirnya, pemodelan bertingkat bukan hanya efek campuran, meskipun mereka adalah yang paling umum. Model mana pun di mana parameter dipengaruhi tidak hanya oleh prior dan data, tetapi juga parameter tidak dikenal lainnya dapat disebut model multilevel. Tentu saja, ini adalah serangkaian model yang sangat fleksibel, tetapi dapat ditulis dari awal dan cocok dengan jumlah minimal pekerjaan menggunakan alat-alat seperti Stan, NIMBLE, JAGS, dll. Sejauh ini, saya tidak yakin saya akan mengatakan bertingkat pemodelan adalah "hype"; pada dasarnya, Anda dapat menulis model apa saja yang dapat direpresentasikan sebagai Grafik Acyclic yang Diarahkandan pas segera (dengan asumsi itu memiliki jangka waktu yang masuk akal, yaitu). Ini memberi jauh lebih banyak kekuatan dan potensi kreativitas daripada pilihan tradisional (yaitu, paket model regresi) namun tidak memerlukan satu untuk membangun seluruh paket R dari awal hanya agar sesuai dengan jenis model baru.


Terima kasih atas jawabannya. Untuk memperjelas saya tidak menyarankan pemodelan multi-level adalah "hype". Saya bertanya apakah "peminjaman informasi" memiliki makna yang tepat atau apakah istilah tertentu itu hanya hype.
EliK

@EliK: Saya tidak yakin itu memiliki arti yang tepat ; Gordon Smyth memberikan apa yang beberapa orang mungkin anggap sebagai makna yang tepat, yaitu, Empiris Bayes, tetapi cara saya melihat istilah yang umum digunakan sekarang tampaknya tidak sesuai dengan makna itu. Secara pribadi, saya tidak berpikir itu hanya istilah hype; itu persis motivasi untuk menggunakan model efek campuran atas model efek tetap, meskipun ini melampaui hanya kerangka model regresi standar. Saya pikir banyak orang mengatakan "pemodelan multilevel" lebih samar daripada "pemodelan efek campuran" yang lebih tepat karena sekarang lebih modis.
Cliff AB

Saya akan mengatakan hype ada di makalah ML dan blog, di mana dikatakan bahwa Anda membutuhkan model Bayesian untuk menerapkan model bertingkat. Saya akan tertarik pada contoh yang dikerjakan - di mana seseorang membandingkan terhadap model yang diatur secara crossvalidated (untuk prediksi)
seanv507

Untuk apa nilainya, satu-satunya alternatif untuk Bayesian adalah Kemungkinan Maksimum, yang hanya Bayesian dengan seragam sebelumnya. Jadi itu tidak benar-benar salah.
shadowtalker

1
@shadowtalker: jika Anda mempertimbangkan metode MLE ke Bayesian, maka kata Bayesian pada dasarnya tidak berarti dalam statistik. Namun, ini konsisten dengan beberapa kesalahan yang saya lihat dalam literatur ML.
Cliff AB

2

Saya berasumsi, karena Anda menandai pembelajaran mesin yang Anda minati dalam prediksi, bukan inferensi. (Saya yakin saya selaras dengan jawaban @Glen_b, tetapi hanya menerjemahkan ke konteks / kosakata ini)

Saya akan mengklaim dalam hal ini adalah kata kunci. Model linier yang diatur dengan variabel grup akan meminjam informasi: prediksi pada tingkat individu akan merupakan kombinasi dari rata-rata kelompok dan efek individu. Salah satu cara untuk memikirkan regularisasi l1 / l2 adalah bahwa ia menetapkan biaya koefisien per pengurangan dalam kesalahan total, karena variabel kelompok mempengaruhi lebih banyak sampel daripada variabel individu, akan ada tekanan untuk memperkirakan efek kelompok, meninggalkan penyimpangan yang lebih kecil dari efek kelompok ke masing-masing variabel individu.

Untuk poin individu dengan data yang cukup, efek individu akan 'kuat', bagi mereka yang memiliki sedikit data, efeknya akan lemah.

Saya pikir cara termudah untuk melihat ini adalah dengan mempertimbangkan regularisasi L1 dan 3 orang dari kelompok yang sama dengan efek yang sama. Belum diatur, masalahnya memiliki jumlah solusi yang tak terbatas, sedangkan regularisasi memberikan solusi yang unik.

Menetapkan semua efek pada koefisien kelompok memiliki norma l1 terendah, karena kita hanya perlu 1 nilai untuk mencakup 3 orang. Sebaliknya, menetapkan semua efek ke koefisien individu memiliki yang terburuk, yaitu 3 kali norma l1 dari menetapkan efek ke koefisien grup.

Perhatikan bahwa kita dapat memiliki hierarki sebanyak yang kita inginkan, dan interaksi terpengaruh sama: regularisasi akan mendorong efek ke variabel utama, daripada interaksi yang lebih jarang.

Blog tjmahr.com/plotting-partial-pooling-in-mixed-effects-models . - Ditautkan oleh @IsabellaGhement memberikan penawaran untuk kekuatan meminjam

"Efek ini kadang-kadang disebut penyusutan, karena nilai penyusutan yang lebih ekstrem ditarik ke arah nilai yang lebih masuk akal dan lebih rata-rata. Dalam buku lme4 , Douglas Bates memberikan alternatif untuk penyusutan [nama]"

Istilah “penyusutan” mungkin memiliki konotasi negatif. John Tukey lebih suka menyebut proses tersebut sebagai taksiran untuk masing-masing subjek “meminjam kekuatan” dari satu sama lain. Ini adalah perbedaan mendasar dalam model-model yang mendasari model efek-campuran versus model-model efek yang benar-benar diperbaiki. Dalam model efek-campuran, kami mengasumsikan bahwa tingkat faktor pengelompokan adalah pilihan dari suatu populasi dan, sebagai hasilnya, dapat diharapkan untuk berbagi karakteristik sampai tingkat tertentu. Akibatnya, prediksi dari model efek-campuran dilemahkan relatif terhadap prediksi dari model efek-efek ketat.


Apa prediksi jika bukan inferensi spesifik?
shadowtalker

0

Sumber lain yang ingin saya rekomendasikan pada topik ini yang saya temukan sangat instruktif adalah Pengantar David Robinson untuk Empiris Bayes .

Contohnya adalah apakah seorang pemain bisbol akan berhasil memukul bola berikutnya yang dilemparkan kepadanya. Gagasan utamanya adalah bahwa jika seorang pemain telah ada selama bertahun-tahun, seseorang memiliki gambaran yang cukup jelas tentang seberapa cakapnya dia dan khususnya, seseorang dapat menggunakan rata-rata batting yang diamati sebagai perkiraan yang cukup bagus dari probabilitas keberhasilan di lapangan berikutnya.

Sebaliknya, seorang pemain yang baru saja mulai bermain di liga belum mengungkapkan banyak bakat yang sebenarnya. Jadi sepertinya ini adalah pilihan bijak untuk menyesuaikan estimasi probabilitas keberhasilannya terhadap beberapa rata-rata keseluruhan jika ia telah sangat berhasil atau tidak berhasil dalam beberapa pertandingan pertamanya, karena kemungkinan itu, setidaknya sampai batas tertentu, karena keberuntungan baik atau buruk .

Sebagai poin minor, istilah "meminjam" tentu saja tampaknya tidak digunakan dalam arti bahwa sesuatu yang telah dipinjam perlu dikembalikan pada titik tertentu ;-).

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.