Sebagai konteks: Ketika bekerja dengan kumpulan data yang sangat besar, saya terkadang ditanya apakah kita dapat membuat kumpulan data sintetis di mana kita "mengetahui" hubungan antara prediktor dan variabel respons, atau hubungan di antara para prediktor.
Selama bertahun-tahun, saya sepertinya menghadapi set data sintetis satu kali, yang sepertinya dibuat secara ad hoc, atau lebih banyak set data terstruktur yang tampaknya sangat menguntungkan untuk metode pemodelan yang diusulkan peneliti.
Saya percaya bahwa saya lebih mencari metode standar untuk membuat set data sintetis. Meskipun bootstrap resampling adalah salah satu metode umum untuk membuat set data sintetis, itu tidak memenuhi syarat bahwa kita tahu struktur apriori . Selain itu, bertukar sampel bootstrap dengan orang lain pada dasarnya membutuhkan pertukaran data, bukan metode menghasilkan data.
Jika kita dapat menyesuaikan distribusi parametrik dengan data, atau menemukan model parametrized yang cukup dekat, maka ini adalah salah satu contoh di mana kita dapat menghasilkan set data sintetis.
Apa metode lain yang ada? Saya terutama tertarik pada data dimensi tinggi, data jarang, dan data deret waktu. Untuk data dimensi tinggi, saya akan mencari metode yang dapat menghasilkan struktur (misalnya struktur kovarian, model linier, pohon, dll.) Yang menarik. Untuk data deret waktu, dari distribusi melalui FFT, model AR, atau berbagai model penyaringan atau perkiraan lainnya sepertinya merupakan permulaan. Untuk data jarang, mereproduksi pola sparsity tampaknya berguna.
Saya percaya ini hanya menggores permukaan - ini adalah heuristik, bukan praktik formal. Apakah ada referensi atau sumber daya untuk menghasilkan data sintetis yang harus diketahui oleh praktisi?
Catatan 1: Saya menyadari bahwa pertanyaan ini membahas literatur tentang bagaimana seseorang dapat menghasilkan data seperti model deret waktu tertentu. Perbedaannya di sini adalah pada praktik, terutama untuk menunjukkan struktur yang diketahui (pertanyaan saya), versus kesamaan / kesetiaan dengan set data yang ada. Dalam kasus saya, tidak perlu memiliki kesamaan, sebanyak struktur yang diketahui, meskipun kesamaan lebih disukai daripada ketidaksamaan. Set data sintetis eksotis yang modelnya menunjukkan janji lebih disukai daripada simulasi yang realistis.
Catatan 2: Entri Wikipedia untuk data sintetis menunjukkan bahwa tokoh-tokoh seperti Rubin dan Fienberg telah mengatasi masalah ini, meskipun saya belum menemukan referensi tentang praktik terbaik. Akan menarik untuk mengetahui apa yang akan diterima dengan, katakanlah, Annals of Applied Statistics (atau AOS), atau dalam karya review di jurnal ini atau lainnya. Dalam istilah sederhana dan aneh, orang mungkin bertanya di mana ambang antara "(dapat diterima) dimasak" dan "terlalu matang" ada?
Catatan 3: Meskipun tidak mempengaruhi pertanyaan, skenario penggunaan adalah dalam pemodelan set data yang besar, berdimensi tinggi, di mana agenda penelitian adalah untuk mempelajari (baik oleh manusia dan mesin ;-)) struktur data. Tidak seperti skenario univariat, bivariat, dan dimensi rendah lainnya, struktur tidak mudah disimpulkan. Saat kami melangkah menuju pemahaman yang lebih baik tentang struktur, kemampuan untuk menghasilkan set data dengan properti yang serupa adalah menarik untuk melihat bagaimana metode pemodelan berinteraksi dengan data (misalnya untuk memeriksa stabilitas parameter). Meskipun demikian, panduan lama pada data sintetis dimensi rendah dapat menjadi titik awal yang dapat diperpanjang atau disesuaikan untuk set data dimensi yang lebih tinggi.