Dalam analisis regresi, apa perbedaan antara 'proses pembuatan data' dan 'model'?
Dalam analisis regresi, apa perbedaan antara 'proses pembuatan data' dan 'model'?
Jawaban:
Kita semua memiliki pengertian yang baik tentang apa yang dimaksud dengan "model", walaupun definisi teknisnya akan bervariasi di antara berbagai disiplin ilmu. Untuk membandingkan ini dengan DGP, saya mulai dengan melihat lima hit teratas (menghitung dua hit dengan penulis yang sama dengan satu) di Googling "proses pembuatan data".
Sebuah makalah tentang bagaimana Angkatan Udara AS sebenarnya membuat data dalam dukungan logistik.
Abstrak makalah yang diterbitkan dalam Lingkungan dan Perencanaan A tentang bagaimana "populasi mikro sintetis" dibuat melalui komputer "model simulasi."
Sebuah halaman web pada "generasi data sintetik"; yaitu, simulasi "untuk mengeksplorasi efek karakteristik data tertentu pada ... model."
Abstrak makalah konferensi dalam penambangan data, menyatakan bahwa "data dalam database adalah hasil dari proses pembuatan data yang mendasarinya (dgp)."
Sebuah bab buku yang mencirikan data bunga sebagai "yang timbul dari beberapa transformasi dari yang mendasari [stochastic] proses V t ... beberapa atau semua [yang] mungkin tidak teramati ..."
Tautan ini menunjukkan tiga penggunaan yang sedikit berbeda namun terkait erat dengan istilah "proses pembuatan data." Yang paling umum adalah dalam konteks simulasi statistik. Yang lain merujuk pada sarana aktual dimana data dibuat dalam situasi yang sedang berlangsung (logistik) dan ke model probabilitas untuk prosedur pembuatan data yang sedang berlangsung, dimaksudkan untuk tidak dianalisis secara langsung. Dalam kasus terakhir, teks membedakan proses stokastik yang tidak dapat diamati, yang dimodelkan secara matematis, dari angka aktual yang akan dianalisis.
Ini menyarankan dua jawaban yang sedikit berbeda dapat dipertahankan:
Dalam konteks simulasi atau membuat data "sintetis" untuk analisis, "proses pembuatan data" adalah cara untuk membuat data untuk studi selanjutnya, biasanya dengan menggunakan generator nomor acak pseudo komputer. Analisis secara implisit akan mengadopsi beberapa model yang menggambarkan sifat matematika DGP ini.
Dalam konteks analisis statistik, kita mungkin ingin membedakan fenomena dunia nyata (DGP) dari pengamatan yang akan dianalisis. Kami memiliki model untuk fenomena dan pengamatan serta model untuk bagaimana keduanya terhubung.
DGP adalah model yang sebenarnya. Model tersebut adalah apa yang kami coba, dengan menggunakan keterampilan terbaik kami, untuk mewakili keadaan alam yang sebenarnya. DGP dipengaruhi oleh "noise". Kebisingan bisa bermacam-macam:
Jika Anda tidak mengontrol 6 item ini, maka kemampuan Anda untuk mengidentifikasi DGP yang sebenarnya berkurang.
Jawaban Whuber sangat bagus, tetapi perlu ditambahkan penekanan pada fakta bahwa model statistik tidak harus menyerupai model penghasil data dalam segala hal untuk menjadi model yang sesuai untuk eksplorasi data yang inferensial. Liu dan Meng menjelaskan hal itu dengan sangat jelas dalam makalah arXived terbaru mereka ( http://arxiv.org/abs/1510.08539 ):
Kesalahpahaman 1. Model probabilitas harus menggambarkan pembuatan data.
). Tidak ada titik ini lebih jelas daripada dalam aplikasi yang melibatkan percobaan komputer di mana pola probabilistik digunakan untuk menggambarkan data mengikuti pola deterministik yang diketahui (tapi sangat rumit) (Kennedy dan O'Hagan, 2001; Conti et al., 2009). Kita membutuhkan model deskriptif, belum tentu model generatif. Lihat Lehmann (1990), Breiman (2001) dan Hansen dan Yu (2001) untuk informasi lebih lanjut tentang hal ini.
DGP adalah realitas virtual dan resep unik untuk simulasi. Model adalah kumpulan DGP atau cara yang memungkinkan data dihasilkan.
Baca halaman pertama kursus mini ini oleh Russell Davidson:
http://russell-davidson.arts.mcgill.ca/Aarhus/bootstrap_course.pdf