Pemikiran praktis tentang pemodelan eksplanatif vs prediktif


70

Kembali pada bulan April, saya menghadiri ceramah di seri seminar kelompok Statistik Departemen Matematika UMD yang disebut "To Explain or To Predict?". Pembicaraan diberikan oleh Prof. Galit Shmueli yang mengajar di Smith Business School UMD. Ceramahnya didasarkan pada penelitian yang dia lakukan untuk makalah yang berjudul "Pemodelan Prediktif vs Penjelasan dalam Penelitian IS" , dan makalah kerja lanjutan berjudul "Untuk Menjelaskan atau Memprediksi?" .

Argumen Dr. Shmueli adalah bahwa istilah yang prediktif dan jelas dalam konteks pemodelan statistik telah digabungkan, dan bahwa literatur statistik tidak memiliki diskusi menyeluruh tentang perbedaan. Dalam makalahnya, ia membandingkan keduanya dan berbicara tentang implikasi praktisnya. Saya mendorong Anda untuk membaca koran.

Pertanyaan yang ingin saya ajukan kepada komunitas praktisi adalah:

  • Bagaimana Anda mendefinisikan latihan prediksi vs latihan penjelasan / deskriptif? Akan berguna jika Anda dapat berbicara tentang aplikasi spesifik.
  • Pernahkah Anda jatuh ke dalam perangkap menggunakan satu ketika bermaksud menggunakan yang lain? Tentu saja aku punya. Bagaimana Anda tahu yang mana yang harus digunakan?

2
Pertanyaan ini diusulkan untuk ditutup. Lihat: meta.stats.stackexchange.com/questions/213/… Saya melihat bahwa ia memiliki 2 suara. Bisakah pemilih up atau OP mengomentari mengapa mereka ingin melihat pertanyaan tetap terbuka di utas meta?

9
Daripada mengatakan "ini harus ditutup. Seseorang harus mempertahankannya" bagaimana kalau mulai dengan menjelaskan mengapa Anda ingin ditutup. Terlalu kabur? Kemudian minta klarifikasi. Ini sepertinya pertanyaan yang masuk akal bagi saya. Penanya menyajikan makalah dan bertanya tentang perbedaan antara statistik prediktif dan penjelasan. Satu-satunya perubahan yang saya buat untuk pertanyaan ini adalah mengklarifikasi pertanyaan dengan tepat sehingga memudahkan untuk memilih.
JD Long

2
Saya telah menawarkan alasan di utas meta. Saya merasa bahwa 'diskusi meta' tentang pertanyaan itu akan mengacaukan halaman ini.

2
@ Srikant @JD Saya akan menambahkan pertanyaan. Terima kasih untuk umpan baliknya. Saya pikir ini adalah topik yang pantas didiskusikan.
wahalulu

4
Bisakah Anda menambahkan tautan yang tepat ke ceramah / makalah yang disebutkan di atas?
chl

Jawaban:


39

Dalam satu kalimat

Pemodelan prediktif adalah semua tentang "apa yang mungkin terjadi?", Sedangkan pemodelan penjelasan adalah semua tentang "apa yang bisa kita lakukan?"

Dalam banyak kalimat

Saya pikir perbedaan utama adalah apa yang dimaksudkan untuk dilakukan dengan analisis. Saya akan menyarankan penjelasan jauh lebih penting untuk intervensi daripada prediksi. Jika Anda ingin melakukan sesuatu untuk mengubah suatu hasil, maka Anda sebaiknya berusaha menjelaskan mengapa memang demikian adanya. Pemodelan penjelasan, jika dilakukan dengan baik, akan memberi tahu Anda cara mengintervensi (input mana yang harus disesuaikan). Namun, jika Anda hanya ingin memahami seperti apa masa depan, tanpa niat (atau kemampuan) untuk melakukan intervensi, maka pemodelan prediktif lebih mungkin lebih tepat.

Sebagai contoh yang sangat longgar, menggunakan "data kanker".

Pemodelan prediktif menggunakan "data kanker" akan sesuai (atau setidaknya berguna) jika Anda mendanai bangsal kanker di rumah sakit yang berbeda. Anda tidak benar-benar perlu menjelaskan mengapa orang terkena kanker, tetapi Anda hanya perlu perkiraan akurat tentang berapa banyak layanan yang akan dibutuhkan. Pemodelan penjelasan mungkin tidak akan banyak membantu di sini. Misalnya, mengetahui bahwa merokok mengarah pada risiko kanker yang lebih tinggi tidak dengan sendirinya memberi tahu Anda apakah akan memberikan lebih banyak dana ke bangsal A atau bangsal B.

Pemodelan penjelasan "data kanker" akan sesuai jika Anda ingin menurunkan tingkat kanker nasional - pemodelan prediktif akan cukup usang di sini. Kemampuan untuk secara akurat memprediksi tingkat kanker hampir tidak mungkin membantu Anda memutuskan bagaimana cara menguranginya. Namun, mengetahui bahwa merokok mengarah pada risiko kanker yang lebih tinggi adalah informasi yang berharga - karena jika Anda menurunkan angka merokok (misalnya dengan membuat rokok lebih mahal), ini mengarah pada lebih banyak orang dengan risiko lebih kecil, yang (semoga) mengarah pada penurunan yang diharapkan pada kanker. tarif.

Melihat masalah dengan cara ini, saya akan berpikir bahwa pemodelan penjelas terutama akan fokus pada variabel yang mengendalikan pengguna, baik secara langsung maupun tidak langsung. Mungkin ada kebutuhan untuk mengumpulkan variabel lain, tetapi jika Anda tidak dapat mengubah variabel apa pun dalam analisis, maka saya ragu bahwa pemodelan penjelasan akan berguna, kecuali mungkin memberi Anda keinginan untuk mendapatkan kontrol atau pengaruh terhadap variabel-variabel tersebut. yang penting. Pemodelan prediktif, secara kasar, hanya mencari hubungan antar variabel, apakah dikendalikan oleh pengguna atau tidak. Anda hanya perlu mengetahui input / fitur / variabel independen / dll. Untuk membuat prediksi, tetapi Anda harus dapat memodifikasi atau memengaruhi input / fitur / variabel independen / dll. Untuk melakukan intervensi dan mengubah hasil .


9
+1, bagus sekali! Saya benci untuk memilih, tetapi saya ingin mencatat bahwa prediksi tidak harus tentang masa depan. Sebagai contoh, seorang arkeolog mungkin ingin menentukan (yaitu, memprediksi) tingkat curah hujan di suatu daerah pada suatu titik di masa lalu dengan pengetahuan tentang jejak (yaitu, efek curah hujan) yang tersisa.
gung - Reinstate Monica

@ung - Saya pikir saya mengatakan tanggapan saya sehingga ini tidak terjadi. Jelas, saya melewatkan tempat :-)
probabilityislogic

Jawaban bagus. Saya pikir kita perlu dalam banyak kasus untuk mengetahui seperti apa masa depan dan mengapa. Misalkan, ketika mempelajari churn pelanggan, Anda ingin tahu berapa banyak pelanggan (dan persisnya pelanggan mana) yang churn N bulan berikutnya dan kemudian mengapa mereka churn sehingga pemasaran dapat mengintervensi untuk mempertahankan mereka. Maka kita membutuhkan prediktif (untuk mempelajari nomor di masa depan dan pelanggan) dan penjelasan untuk memberi tahu kita mengapa, sehingga kita dapat mengurangi churner. Jadi, apakah kita memiliki model hybrid keduanya atau cukup? Varty menyentuhnya dengan mengatakan "Hubungan yang diketahui dapat muncul dari analisis penjelas / deskriptif atau teknik lainnya"
Espanta

@gung Aku suka nitpick: arkeolog keinginan untuk memprediksi pengalaman dalam nya masa depan (yaitu, memprediksi di mana dia akan di beberapa titik di masa depan menemukan jejak curah hujan yang tinggi di masa lalu).
Alexis

@Alexis, itu tentu saja mungkin, tetapi juga mungkin itu bukan kepentingan penelitian utama arkeolog, & bahwa data tersebut telah dikumpulkan oleh peneliti lain (ahli paleoklimatologi) & arkeolog hanya ingin menggunakan data tersebut untuk menguji teori yang minat teoritis utama mereka ( Gill, 200 ).
gung - Reinstate Monica

30

Menurut saya perbedaannya adalah sebagai berikut:

Penjelasan / Deskriptif

Ketika mencari jawaban penjelas / deskriptif, fokus utama adalah pada data yang kami miliki dan kami berusaha untuk menemukan hubungan yang mendasari antara data setelah kebisingan telah diperhitungkan.

Contoh: Benarkah berolahraga secara teratur (katakanlah 30 menit per hari) menurunkan tekanan darah? Untuk menjawab pertanyaan ini, kami dapat mengumpulkan data dari pasien tentang regimen olahraga mereka dan nilai tekanan darah mereka dari waktu ke waktu. Tujuannya adalah untuk melihat apakah kita dapat menjelaskan variasi tekanan darah dengan variasi dalam rejimen olahraga.

Tekanan darah dipengaruhi oleh tidak hanya berolahraga dengan berbagai faktor lain juga seperti jumlah natrium yang dimakan seseorang, dll. Faktor-faktor lain ini akan dianggap bising dalam contoh di atas karena fokusnya adalah pada menggoda hubungan antara rejimen latihan dan tekanan darah.

Ramalan

Saat melakukan latihan prediksi, kami mengekstrapolasi ke yang tidak diketahui menggunakan hubungan yang diketahui antara data yang kami miliki. Hubungan yang diketahui dapat muncul dari analisis penjelas / deskriptif atau teknik lainnya.

Contoh: Jika saya berolahraga 1 jam per hari sampai sejauh mana tekanan darah saya cenderung turun? Untuk menjawab pertanyaan ini, kami dapat menggunakan hubungan yang sebelumnya tidak ditemukan antara tekanan darah dan olahraga untuk melakukan prediksi.

Dalam konteks di atas, fokusnya bukan pada penjelasan, meskipun model penjelasan dapat membantu dengan proses prediksi. Ada juga pendekatan yang tidak jelas (misalnya, jaring saraf) yang bagus dalam memprediksi hal yang tidak diketahui tanpa perlu menambah pengetahuan kita tentang sifat hubungan yang mendasar antara variabel.


6
+1 Balasan ini sebagian besar menghindari hubungan yang membingungkan dengan sebab akibat dengan menggunakan bahasa penjelasan, deskripsi, dan hubungan. Ini memberikan tingkat kejelasan yang diinginkan.
whuber

4
Di bawah Penjelasan Anda menulis "fokus utama adalah pada data yang kami miliki" - Saya pikir Anda mencoba untuk mengatakan bahwa tugasnya adalah retrospektif (sebagai lawan dari sifat prediksi yang prospektif). Dalam penjelasan (baca "penjelasan sebab akibat") sebenarnya ada fokus besar pada teori dan pengetahuan domain dan data digunakan untuk menguji asumsi / teori ini. Sebaliknya, dalam prediksi itu lebih didorong data dan Anda lebih berpikiran terbuka tentang hubungan, karena Anda tidak mencari hubungan sebab akibat tetapi lebih untuk korelasi.
Galit Shmueli

@GalitShmueli Reg teori / pengetahuan domain- ya, saya setuju dengan hal itu. Saya hanya mencoba untuk kontras prediksi prediksi vis-a-vis dengan berfokus pada apa yang menurut saya perbedaan utama - ekstrapolasi nilai variabel vs menggali hubungan antara variabel. Dalam prosesnya, tentu saja saya bersalah karena mengabaikan nuansa halus antara kedua paradigma itu.
varty

1
@varty Saya setuju dengan poin Anda: dalam penjelasan / deskripsi Anda tertarik pada keseluruhan / hubungan rata-rata / efek sedangkan dalam prediksi Anda tertarik untuk memprediksi nilai-nilai individu (belum tentu ekstrapolasi)
Galit Shmueli

19

Salah satu masalah praktis yang muncul di sini adalah pemilihan variabel dalam pemodelan. Variabel dapat menjadi variabel penjelas yang penting (misalnya, signifikan secara statistik) tetapi mungkin tidak berguna untuk tujuan prediksi (yaitu, dimasukkannya dalam model menyebabkan akurasi prediksi yang lebih buruk). Saya melihat kesalahan ini hampir setiap hari di surat kabar yang diterbitkan.

Perbedaan lain adalah perbedaan antara analisis komponen utama dan analisis faktor. PCA sering digunakan dalam prediksi, tetapi tidak begitu berguna untuk penjelasan. FA melibatkan langkah rotasi tambahan yang dilakukan untuk meningkatkan interpretasi (dan karenanya penjelasan). Ada posting yang bagus hari ini di blog Galit Shmueli tentang ini .

Pembaruan: kasus ketiga muncul dalam deret waktu ketika suatu variabel mungkin merupakan variabel penjelas penting tetapi tidak tersedia untuk masa depan. Sebagai contoh, pinjaman rumah mungkin sangat terkait dengan PDB tetapi itu tidak banyak digunakan untuk memprediksi pinjaman rumah di masa depan kecuali kita juga memiliki prediksi PDB yang baik.


3
Mengapa / bagaimana variabel penjelas yang penting mengurangi akurasi prediksi?

3
@Srikant. Ini bisa terjadi ketika variabel penjelas memiliki hubungan yang lemah tetapi signifikan dengan variabel respons. Kemudian koefisien dapat signifikan secara statistik tetapi sulit untuk diperkirakan. Akibatnya, MSE prediksi dapat meningkat ketika variabel dimasukkan dibandingkan dengan ketika dihilangkan. (Bias berkurang dengan dimasukkannya tetapi variansnya meningkat.)
Rob Hyndman

Paragraf pertama adalah poin yang sangat, sangat bagus. Masih terkadang bahkan lebih buruk; di sini PMID: 18052912 adalah contoh yang bagus bahwa kadang-kadang model yang lebih baik dapat dibuat pada bagian kebisingan set daripada yang benar - jelas bahwa seseorang dapat melakukan model yang baik pada data acak, tetapi ini agak mengejutkan .

1
maafkan ketidaktahuan saya, tetapi bukankah rotasi biasanya merupakan bagian dari PCA dan FA?
richiemorrisroe

3
Sig secara statistik. tetapi prediktor yang lemah jarang efektif baik untuk prediksi maupun penjelasan. Misalnya, jika solusi regresi linier memiliki RSQ 0,40 tanpa termasuk prediktor X1, dan jika dimasukkannya X1 menambahkan 0,01 ke RSQ itu, maka X1 "penting" baik untuk prediksi maupun penjelasan.
rolando2

17

Meskipun beberapa orang merasa lebih mudah untuk memikirkan perbedaan dalam hal model / algoritma yang digunakan (misalnya, neural nets = prediktif), itu hanya satu aspek tertentu dari perbedaan menjelaskan / memprediksi. Berikut adalah satu set slide yang saya gunakan dalam kursus penambangan data saya untuk mengajarkan regresi linier dari kedua sudut. Bahkan dengan regresi linier saja dan dengan contoh kecil ini berbagai masalah muncul yang mengarah pada model yang berbeda untuk tujuan penjelas vs prediksi (pilihan variabel, pemilihan variabel, ukuran kinerja, dll.)

Galit


5
Karena penasaran, apakah itu disengaja bahwa dalam diskusi Anda tentang regresi untuk prediksi (mulai hal. 33) Anda memilih prediktor (langkah 1) sebelum mempartisi ke dalam set data pelatihan dan validasi (langkah 3)? Saya telah berpikir bahwa prosedur yang paling objektif dan jujur ​​adalah mempartisi pada awalnya, bahkan sebelum melihat scatterplots (langkah 2). Jika regressor dipilih berdasarkan seluruh dataset, bukankah itu akan mengembang tingkat signifikansi yang tampak pada banyak tes bahkan ketika mereka kemudian diterapkan pada data validasi?
whuber

Saya pikir pertanyaan yang lebih umum adalah apakah Anda melakukan visualisasi data sebelum menjaga ketidaksepakatan. Ketika dataset besar, maka itu tidak terlalu penting. Dengan sampel kecil, menggunakan visualisasi untuk memilih prediktor memang berbahaya. Dalam slide saya, saya tidak bermaksud menggunakan visualisasi untuk pemilihan variabel. "Pilih prediktor" lebih umum "pilih sekumpulan prediktor tersedia yang masuk akal". Ini lebih tentang menggabungkan pengetahuan domain untuk memilih set yang masuk akal.
Galit Shmueli

Melanjutkan topik "Untuk menjelaskan atau memprediksi", saya memiliki pertanyaan terkait di sini . Saya akan sangat menghargai jika Anda melihat karena pertanyaannya sebagian besar didasarkan pada kertas Anda.
Richard Hardy

Profesor Shmueli, Anda mengatakan pada halaman 291 dari makalah Anda tentang topik ini bahwa Anda hanya mempertimbangkan 'prediksi non-stokastik' seperti yang didefinisikan oleh Geisser, 1993. Di mana saya akan pergi untuk menemukan definisi penuh prediksi non-stokastik? Senang memulai posting baru juga, tetapi saya pikir saya akan bertanya di sini dulu.
user0

11

Contoh: Contoh klasik yang saya lihat adalah dalam konteks memprediksi kinerja manusia. Self-efficacy (yaitu, sejauh mana seseorang berpikir bahwa mereka dapat melakukan tugas dengan baik) seringkali merupakan prediktor yang kuat untuk kinerja tugas. Jadi, jika Anda memasukkan self-efficacy ke dalam regresi berganda bersama dengan variabel lain seperti kecerdasan dan tingkat pengalaman sebelumnya, Anda sering menemukan bahwa self-efficacy adalah prediktor yang kuat.

Ini telah mengarahkan beberapa peneliti untuk menyarankan bahwa self-efficacy menyebabkan kinerja tugas. Dan intervensi yang efektif adalah intervensi yang berfokus pada peningkatan rasa kemanjuran diri seseorang.

Namun, model teoritis alternatif melihat self-efficacy sebagian besar sebagai konsekuensi dari kinerja tugas. Yaitu, Jika Anda baik, Anda akan tahu itu. Dalam kerangka ini intervensi harus fokus pada peningkatan kompetensi aktual dan tidak dirasakan kompetensi.

Dengan demikian, termasuk variabel seperti self-efficacy dapat meningkatkan prediksi, tetapi dengan asumsi Anda mengadopsi model self-efficacy-as-konsekuensi, itu tidak boleh dimasukkan sebagai prediktor jika tujuan dari model ini adalah untuk menjelaskan proses sebab-akibat yang mempengaruhi kinerja.

Ini tentu saja memunculkan masalah tentang bagaimana mengembangkan dan memvalidasi model teoritis kausal. Ini jelas bergantung pada beberapa studi, idealnya dengan beberapa manipulasi eksperimental, dan argumen yang koheren tentang proses dinamis.

Proksimal versus distal : Saya telah melihat masalah serupa ketika para peneliti tertarik pada efek dari penyebab distal dan proksimal. Penyebab proksimal cenderung memprediksi lebih baik daripada penyebab distal. Namun, minat teoritis mungkin dalam memahami cara-cara di mana penyebab distal dan proksimal beroperasi.

Masalah pemilihan variabel : Akhirnya, masalah besar dalam penelitian ilmu sosial adalah masalah pemilihan variabel. Dalam setiap studi yang diberikan, ada jumlah variabel tak terbatas yang bisa diukur tetapi tidak. Dengan demikian, interpretasi model perlu mempertimbangkan implikasi ini ketika membuat interpretasi teoritis.


Ada juga masalah dalam ilmu sosial "hipotesis lemah" (misalnya efek positif vs negatif). Dan dalam contoh "self efficacy", Anda dapat melihatnya sebagai prediktor internal kinerja yang telah dibangun oleh setiap orang. Jadi mungkin mirip dengan menggunakan prediksi "kotak hitam" sebagai variabel penjelas.
probabilityislogic

9

Pemodelan Statistik: Two Cultures (2001) oleh L. Breiman, mungkin, makalah terbaik tentang hal ini. Kesimpulan utamanya (lihat juga balasan dari ahli statistik terkemuka lainnya di akhir dokumen) adalah sebagai berikut:

  • "Akurasi prediktif yang lebih tinggi dikaitkan dengan informasi yang lebih dapat diandalkan tentang mekanisme data yang mendasarinya. Akurasi prediktif yang lemah dapat menyebabkan kesimpulan yang dipertanyakan."
  • "Model algoritma dapat memberikan akurasi prediksi yang lebih baik daripada model data, dan memberikan informasi yang lebih baik tentang mekanisme yang mendasarinya."

3
Hanya untuk membuat tautan dengan pertanyaan terkait sebelumnya: Dua Budaya: statistik vs. pembelajaran mesin?
chl

3
Masalah dengan model algoritmik adalah bahwa mereka sulit dimengerti. Ini membuatnya sulit untuk mendiagnosis dan memperbaiki potensi masalah yang muncul. Model struktural jauh lebih mudah untuk dinilai karena Anda tahu seperti apa masing-masing komponen itu.
probabilityislogic

8

Saya belum membaca karyanya di luar abstrak makalah terkait, tetapi perasaan saya adalah bahwa perbedaan antara "penjelasan" dan "prediksi" harus dibuang dan diganti dengan perbedaan antara tujuan dari praktisi, yang merupakan " kausal "atau" prediktif ". Secara umum, saya pikir "penjelasan" adalah kata yang tidak jelas sehingga hampir tidak ada artinya. Misalnya, apakah Hukum Hooke jelas atau prediktif? Di ujung lain dari spektrum, apakah sistem rekomendasi yang dapat diprediksi akurat model sebab-akibat yang baik dari peringkat item eksplisit? Saya pikir kita semua berbagi intuisi bahwa tujuan ilmu pengetahuan adalah penjelasan, sedangkan tujuan teknologi adalah prediksi; dan intuisi ini entah bagaimana hilang dengan pertimbangan alat yang kita gunakan, seperti algoritma pembelajaran yang diawasi,

Setelah mengatakan semua itu, mungkin satu-satunya kata yang akan saya terapkan pada model dapat ditafsirkan. Regresi biasanya dapat ditafsirkan; Jaring saraf dengan banyak lapisan seringkali tidak begitu. Saya pikir orang kadang-kadang secara naif berasumsi bahwa model yang dapat ditafsirkan menyediakan informasi sebab-akibat, sementara model yang tidak dapat ditafsirkan hanya memberikan informasi prediktif. Sikap ini agak membingungkan saya.


7

Saya masih sedikit tidak jelas tentang apa pertanyaannya. Karena itu, menurut saya perbedaan mendasar antara model prediksi dan penjelasan adalah perbedaan dalam fokus mereka.

Model Penjelasan

Menurut definisi model penjelas memiliki sebagai fokus utama mereka tujuan menjelaskan sesuatu di dunia nyata. Dalam kebanyakan kasus, kami berusaha menawarkan penjelasan yang sederhana dan bersih. Secara sederhana saya maksudkan bahwa kami lebih suka kekikiran (jelaskan fenomena dengan parameter sesedikit mungkin) dan dengan bersih saya maksudkan bahwa kami ingin membuat pernyataan dalam bentuk berikut: "efek perubahan oleh satu unit berubah oleh memegang semua yang lain konstan ". Mengingat tujuan penjelasan yang sederhana dan jelas ini, model penjelas berusaha untuk menghukum model yang kompleks (dengan menggunakan kriteria yang sesuai seperti AIC) dan lebih memilih untuk mendapatkan variabel independen ortogonal (baik melalui eksperimen terkontrol atau melalui transformasi data yang sesuai).y βxyβ

Model Prediktif

Tujuan dari model prediksi adalah untuk memprediksi sesuatu. Dengan demikian, mereka cenderung kurang fokus pada kekikiran atau kesederhanaan tetapi lebih pada kemampuan mereka untuk memprediksi variabel dependen.

Namun, hal di atas agak berbeda secara buatan karena model penjelasan dapat digunakan untuk prediksi dan kadang-kadang model prediksi dapat menjelaskan sesuatu.


+1 untuk menyebutkan kerumitan yang tidak disebutkan secara langsung oleh jawaban teratas. Namun, tantangan muncul ketika model penjelas digunakan untuk intervensi. Bagaimana cara memastikan bahwa koefisien yang diperkirakan tidak bias yang merupakan masalah umum akibat kekikiran?
Thomas Speidel

5

seperti yang telah dikatakan orang lain, pembedaan itu agak tidak berarti, kecuali sejauh tujuan dari peneliti yang bersangkutan.

Brad Efron, salah satu komentator pada makalah The Two Cultures , melakukan pengamatan berikut (seperti yang dibahas dalam pertanyaan saya sebelumnya ):

Prediksi dengan sendirinya hanya kadang-kadang cukup. Kantor pos senang dengan metode apa pun yang memprediksi alamat yang benar dari coretan tulisan tangan. Peter Gregory melakukan penelitiannya untuk tujuan prediksi, tetapi juga untuk lebih memahami dasar medis hepatitis. Sebagian besar survei statistik memiliki identifikasi faktor-faktor penyebab sebagai tujuan akhir mereka.

Bidang-bidang tertentu (mis. Kedokteran) menempatkan beban berat pada pemasangan model sebagai proses penjelas (distribusi, dll.), Sebagai sarana untuk memahami proses dasar yang menghasilkan data. Bidang lain kurang peduli dengan ini, dan akan senang dengan model "kotak hitam" yang memiliki keberhasilan prediksi yang sangat tinggi. Ini juga bisa masuk ke proses pembangunan model.


5

Dengan hormat, pertanyaan ini bisa lebih fokus. Pernahkah orang menggunakan satu istilah ketika yang lain lebih tepat? Ya tentu saja. Kadang-kadang itu cukup jelas dari konteksnya, atau Anda tidak ingin menjadi jagoan. Terkadang orang hanya ceroboh atau malas dalam terminologi mereka. Ini berlaku bagi banyak orang, dan saya jelas tidak lebih baik.

Apa nilai potensial di sini (membahas penjelasan vs prediksi pada CV), adalah untuk memperjelas perbedaan antara dua pendekatan. Singkatnya, perbedaan berpusat pada peran kausalitas. Jika Anda ingin memahami beberapa dinamika di dunia, dan menjelaskan mengapa sesuatu terjadi seperti itu, Anda perlu mengidentifikasi hubungan sebab akibat di antara variabel yang relevan. Untuk memprediksi, Anda dapat mengabaikan kausalitas. Misalnya, Anda dapat memprediksi efek dari pengetahuan tentang penyebabnya; Anda dapat memprediksi keberadaan sebab dari pengetahuan bahwa efeknya terjadi; dan Anda dapat memperkirakan tingkat perkiraan satu efek dengan mengetahui efek lain yang didorong oleh penyebab yang sama. Mengapa seseorang ingin melakukan ini? Untuk meningkatkan pengetahuan mereka tentang apa yang mungkin terjadi di masa depan, sehingga mereka dapat merencanakannya. Sebagai contoh, dewan pembebasan bersyarat mungkin ingin dapat memprediksi probabilitas bahwa terpidana akan menerima kembali jika pembebasan bersyarat. Namun, ini tidak cukup untuk penjelasan. Tentu saja, memperkirakan hubungan kausal sejati antara dua variabel bisa sangat sulit. Selain itu, model yang menangkap (apa yang dianggap sebagai) hubungan kausal yang sebenarnya sering lebih buruk untuk membuat prediksi. Jadi mengapa melakukannya? Pertama, sebagian besar dilakukan dalam sains, di mana pemahaman dilakukan untuk kepentingannya sendiri. Kedua, jika kita dapat secara andal memilih penyebab yang sebenarnya, dan dapat mengembangkan kemampuan untuk memengaruhi mereka, kita dapat mengerahkan beberapa pengaruh atas dampaknya.

Sehubungan dengan strategi pemodelan statistik, tidak ada perbedaan besar. Terutama perbedaannya terletak pada bagaimana melakukan penelitian. Jika tujuan Anda adalah untuk dapat memprediksi, cari tahu informasi apa yang akan tersedia bagi pengguna model ketika mereka perlu membuat prediksi. Informasi yang tidak dapat mereka akses tidak ada nilainya. Jika mereka kemungkinan besar ingin dapat memprediksi pada tingkat tertentu (atau dalam kisaran yang sempit) dari para prediktor, cobalah untuk memusatkan kisaran sampel dari prediktor pada tingkat itu dan melakukan oversample di sana. Misalnya, jika dewan pembebasan bersyarat sebagian besar ingin tahu tentang penjahat dengan 2 keyakinan utama, Anda mungkin mengumpulkan info tentang penjahat dengan 1, 2, dan 3 hukuman. Di sisi lain, menilai status kausal suatu variabel pada dasarnya memerlukan eksperimen. Itu adalah, unit eksperimental perlu ditugaskan secara acak ke tingkat yang telah ditentukan dari variabel penjelas. Jika ada kekhawatiran tentang apakah sifat efek kausal tergantung pada beberapa variabel lain, variabel tersebut harus dimasukkan dalam percobaan. Jika tidak mungkin untuk melakukan percobaan yang benar, maka Anda menghadapi situasi yang jauh lebih sulit, yang terlalu rumit untuk masuk ke sini.


1
Saya bertanya-tanya tentang peran kausalitas. Sebagai contoh, misalkan kita memiliki dataset dimensi dan volume dari sekumpulan blok, , dan kami memodelkan keterkaitan mereka dengan meregresi ulang pada (dan interaksi keduanya ). Dalam arti apa dapat dikatakan bahwa dua dimensi dan volume "menyebabkan" dimensi ketiga? Karena itu, perbedaan antara penjelasan dan prediksi tampaknya didasarkan pada sesuatu yang secara fundamental berbeda; yaitu, tujuan analisis. Untuk paragraf terakhir Anda, ada banyak akun di situs ini yang membuktikan perbedaan strategi yang tajam. z ( x , y , v )(x,y,z,v)z(x,y,v)
whuber

1
Anda benar, hal ini bergantung pada tujuan penelitian. Saya kira saya tidak membuat itu eksplisit (saya hanya berbicara tentang apa yang ingin Anda capai). Juga benar bahwa penjelasan tidak harus berkaitan dengan kausalitas dengan tepat - sesuatu yang analog dengan kausalitas juga cocok (misalnya, dimensi - volume case adalah salah satu implikasi logis / matematis). Namun, kebanyakan pemodelan penjelas berpusat pada kausalitas; Saya kira saya pikir saya bisa melewatkan hal semacam itu demi kesederhanaan. Akhirnya, strategi memang berbeda selama studi desain & pengumpulan data, tetapi regresi y pada x hampir sama.
gung - Reinstate Monica

Terima kasih atas balasannya. Dari pertukaran lain di situs ini saya telah belajar untuk memahami pernyataan universal seperti "pusat pemodelan sebab-akibat yang paling jelas" untuk mencerminkan latar belakang dan pengalaman penulis, daripada benar-benar benar. Dalam ilmu fisik dan "keras" pernyataan ini mungkin benar, tetapi dalam ilmu sosial dan "lunak" saya ragu praktisi akan membuat klaim yang kuat. Seringkali, pada kenyataannya, hubungan yang diteliti diyakini memiliki penyebab tersembunyi yang sama tetapi tidak mencerminkan penyebab langsung antara regressor dan regressand.
whuber

@whuber memang benar bahwa ide-ide saya dipengaruhi oleh latar belakang dan pengalaman saya. Jika jawaban ini tidak berguna (saya perhatikan bahwa belum mendapat suara), saya dapat menghapusnya. Sejumlah orang lain telah memberikan jawaban yang mencakup ide-ide yang ingin saya sampaikan.
gung - Reinstate Monica

@whuber - contoh bagus soft causailty adalah "merokok menyebabkan kanker" - walaupun saya yakin Anda bisa menemukan perokok berantai yang tidak menderita kanker. Gagasan kausalitas saling terkait dengan waktu kejadian. Penyebabnya harus terjadi sebelum efek - yang menjelaskan mengapa contoh kubus tidak masuk akal.
probabilityislogic

4

Sebagian besar jawaban telah membantu memperjelas pemodelan apa untuk penjelasan dan pemodelan untuk prediksi dan mengapa mereka berbeda. Sejauh ini yang tidak jelas adalah bagaimana mereka berbeda. Jadi, saya pikir saya akan menawarkan contoh yang mungkin berguna.

Misalkan kita diinteretkan dalam memodelkan IPK Perguruan Tinggi sebagai fungsi persiapan akademik. Sebagai langkah persiapan akademik, kami memiliki:

  1. Skor Tes Aptitude;
  2. IPK HS; dan
  3. Jumlah Tes AP yang lulus.

Strategi untuk Prediksi

Jika tujuannya adalah prediksi, saya dapat menggunakan semua variabel ini secara bersamaan dalam model linier dan perhatian utama saya adalah akurasi prediksi. Mana pun dari variabel terbukti paling berguna untuk memprediksi IPK Perguruan Tinggi akan dimasukkan dalam model akhir.

Strategi untuk Penjelasan

Jika tujuannya adalah penjelasan, saya mungkin lebih peduli tentang pengurangan data dan berpikir dengan hati-hati tentang korelasi antara variabel independen. Perhatian utama saya adalah menafsirkan koefisien.

Contoh

Dalam masalah multivariat tipikal dengan prediktor berkorelasi, tidak jarang untuk mengamati koefisien regresi yang "tidak terduga". Dengan adanya keterkaitan antar variabel independen, tidak akan mengejutkan untuk melihat koefisien parsial untuk beberapa variabel yang tidak dalam arah yang sama dengan hubungan urutan nol mereka dan yang mungkin tampak kontra intuitif dan sulit untuk dijelaskan.

Misalnya, anggap model menyarankan bahwa (dengan Skor Tes Aptitude dan Jumlah Tes AP Berhasil Dipertimbangkan) IPK SMA lebih tinggi dikaitkan dengan IPK Perguruan Tinggi yang lebih rendah . Ini bukan masalah untuk prediksi, tetapi itu menimbulkan masalah untuk model penjelasan di mana hubungan seperti itu sulit untuk ditafsirkan . Model ini mungkin memberikan yang terbaik dari prediksi sampel tetapi tidak banyak membantu kita memahami hubungan antara persiapan akademik dan IPK Perguruan Tinggi.

Sebaliknya, strategi penjelas mungkin mencari beberapa bentuk pengurangan variabel, seperti komponen utama, analisis faktor, atau SEM untuk:

  1. fokus pada variabel yang merupakan ukuran terbaik "kinerja akademik" dan model IPK Perguruan Tinggi pada satu variabel; atau
  2. gunakan skor faktor / variabel laten yang berasal dari kombinasi tiga ukuran persiapan akademik daripada variabel asli.

Strategi seperti ini mungkin mengurangi kekuatan prediksi model, tetapi mereka dapat menghasilkan pemahaman yang lebih baik tentang bagaimana Persiapan Akademik terkait dengan IPK Perguruan Tinggi.


Mengenai tanda kontra-intuitif, saya bertanya-tanya apakah itu karena intuisi kita menginterpretasikan kovariat yang salah - seperti efek utama seolah-olah itu bersarang atau efek interaksi.
probabilityislogic

3

Saya ingin menawarkan pandangan yang berpusat pada model tentang masalah ini.

Pemodelan prediktif adalah apa yang terjadi di sebagian besar analisis. Sebagai contoh, seorang peneliti membuat model regresi dengan sekelompok prediktor. Koefisien regresi kemudian mewakili perbandingan prediksi antara kelompok. Aspek prediktif berasal dari model probabilitas: kesimpulan dilakukan berkaitan dengan model superpopulasi yang mungkin telah menghasilkan populasi yang diamati atau sampel. Tujuan dari model ini adalah untuk memprediksi hasil baru untuk unit yang muncul dari populasi super ini. Seringkali, ini adalah tujuan yang sia-sia karena segala sesuatu selalu berubah, terutama di dunia sosial. Atau karena model Anda adalah tentang unit langka seperti negara dan Anda tidak dapat menarik sampel baru. Kegunaan model dalam hal ini diserahkan kepada apresiasi analis.

Ketika Anda mencoba untuk menggeneralisasi hasil ke grup lain atau unit masa depan, ini masih prediksi tetapi dari jenis yang berbeda. Kami dapat menyebutnya peramalan misalnya. Poin kuncinya adalah bahwa kekuatan prediksi model yang diperkirakan, secara default, bersifat deskriptif . Anda membandingkan hasil di seluruh kelompok dan membuat hipotesis model probabilitas untuk perbandingan ini, tetapi Anda tidak dapat menyimpulkan bahwa perbandingan ini merupakan efek kausal.

Alasannya adalah bahwa kelompok-kelompok ini mungkin menderita bias seleksi . Yaitu, mereka mungkin secara alami memiliki skor yang lebih tinggi dalam hasil yang menarik, terlepas dari pengobatan (intervensi sebab akibat hipotetis). Atau mereka mungkin terkena efek efek ukuran yang berbeda dari kelompok lain. Inilah sebabnya, terutama untuk data pengamatan, model estimasi umumnya tentang perbandingan prediksi dan bukan penjelasan. Penjelasan adalah tentang identifikasi dan estimasi efek kausal dan memerlukan eksperimen yang dirancang dengan baik atau penggunaan variabel instrumen secara bijaksana. Dalam hal ini, perbandingan prediktif dipotong dari bias seleksi dan mewakili efek kausal. Model demikian dapat dianggap sebagai penjelasan.

Saya menemukan bahwa berpikir dalam istilah-istilah ini sering menjelaskan apa yang sebenarnya saya lakukan ketika membuat model untuk beberapa data.


+1, ada informasi bagus di sini. Saya akan berhati-hati mengenai pernyataan "Pemodelan prediktif adalah apa yang terjadi di sebagian besar analisis", namun. Apakah pemodelan prediktif lebih umum atau tidak akan bervariasi berdasarkan disiplin ilmu, dll. Dugaan saya adalah bahwa sebagian besar pemodelan di akademi jelas, & bahwa banyak pemodelan / penambangan data yang dilakukan di sektor swasta (misalnya mengidentifikasi pelanggan potensial yang berulang) bersifat prediksi. Saya bisa saja salah, tetapi akan sulit untuk mengatakannya, apriori, yang sering terjadi.
gung - Reinstate Monica

1
Menurut saya, sebagian besar pemodelan data pengamatan bersifat prediktif, meskipun tujuannya jelas. Jika Anda tidak mengacak atribusi pengobatan dan benar-benar mendorong perubahan dalam pengaturan eksperimental, koefisien regresi Anda hanya akan memiliki nilai deskriptif, yaitu, mereka hanya menyediakan sarana untuk perbandingan prediksi. Misalnya, Anda dapat memprediksi keberhasilan di sekolah berdasarkan karakteristik demografis, tetapi itu tidak berarti bahwa demografi ini adalah efek sebab akibat yang jelas. Alasannya adalah bahwa prediksi perbandingan terkena bias seleksi.
Lionel Henry

1

Kita dapat belajar lebih banyak daripada yang kita pikirkan dari model "prediksi" kotak hitam. Kuncinya adalah menjalankan berbagai jenis analisis sensitivitas dan simulasi untuk benar-benar memahami bagaimana model OUTPUT dipengaruhi oleh perubahan dalam ruang INPUT. Dalam hal ini bahkan model yang murni prediksi dapat memberikan wawasan yang jelas. Ini adalah poin yang sering diabaikan atau disalahpahami oleh komunitas riset. Hanya karena kita tidak mengerti mengapa suatu algoritma berfungsi tidak berarti algoritma tersebut tidak memiliki kekuatan penjelas ...

Secara keseluruhan dari sudut pandang utama, balasan singkat probabilityislogic benar-benar benar ...


Tidak jelas apa "wawasan penjelasan" dapat diperoleh dengan cara ini, jika dengan kalimat itu Anda menyiratkan hubungan sebab akibat.
gung - Reinstate Monica

1

Ada perbedaan antara apa yang dia sebut aplikasi jelas dan prediktif dalam statistik. Dia mengatakan kita harus tahu setiap kali kita menggunakan satu atau yang lain mana yang tepat digunakan. Dia mengatakan kita sering campuran mereka, maka penggabungan .

Saya setuju bahwa dalam aplikasi ilmu sosial , perbedaan itu masuk akal, tetapi dalam ilmu alam mereka dan harus sama. Juga, saya menyebutnya inferensi vs ramalan , dan setuju bahwa dalam ilmu sosial seseorang tidak boleh mencampuradukkannya.

Saya akan mulai dengan ilmu alam. Dalam fisika kita fokus pada menjelaskan, kita mencoba memahami bagaimana dunia bekerja, apa yang menyebabkan apa, dll. Jadi, fokusnya adalah pada kausalitas, kesimpulan dan semacamnya. Di sisi lain, aspek prediktif juga merupakan bagian dari proses ilmiah. Faktanya, cara Anda membuktikan teori, yang sudah menjelaskan pengamatan dengan baik (pikirkan in-sample), adalah dengan memprediksi pengamatan baru kemudian periksa bagaimana prediksi bekerja. Setiap teori yang kurang kemampuan prediksi akan memiliki kesulitan besar untuk diterima dalam fisika. Itu sebabnya eksperimen seperti Michelson-Morley sangat penting.

Dalam ilmu sosial, sayangnya, fenomena yang mendasarinya tidak stabil, tidak dapat diulang, tidak dapat diproduksi kembali. Jika Anda menyaksikan pembusukan inti, Anda akan mendapatkan hasil yang sama setiap kali Anda mengamatinya, dan hasil yang sama yang saya atau pria dapatkan seratus tahun yang lalu. Bukan di bidang ekonomi atau keuangan. Juga, kemampuan untuk melakukan eksperimen sangat terbatas, hampir tidak ada untuk semua tujuan praktis, kami hanya mengamati dan melakukan sampel acakpengamatan. Saya dapat terus berjalan tetapi gagasan bahwa fenomena yang kita hadapi sangat tidak stabil, maka teori-teori kita tidak memiliki kualitas yang sama seperti dalam fisika. Oleh karena itu, salah satu cara kita menghadapi situasi ini adalah dengan memfokuskan pada kesimpulan (ketika Anda mencoba memahami apa yang menyebabkan apa atau dampak apa) atau memperkirakan (katakan saja apa yang Anda pikir akan terjadi pada ini atau yang mengabaikan struktur).


0

Model Struktural akan memberikan penjelasan dan model prediksi akan memberikan prediksi. Model struktural akan memiliki variabel laten. Model struktural adalah puncak simultan dari regresi dan analisis faktor

Variabel laten dimanifestasikan dalam bentuk multi collinearity dalam model prediksi (regresi).

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.