Pendekatan umum adalah melakukan analisis statistik tradisional pada set data Anda untuk menentukan proses acak multidimensi yang akan menghasilkan data dengan karakteristik statistik yang sama. Kelebihan dari pendekatan ini adalah bahwa data sintetis Anda tidak tergantung pada model ML Anda, tetapi secara statistik "dekat" dengan data Anda. (lihat di bawah untuk pembahasan alternatif Anda)
Intinya, Anda memperkirakan distribusi probabilitas multivarian yang terkait dengan proses. Setelah memperkirakan distribusi, Anda dapat menghasilkan data sintetis melalui metode Monte Carlo atau metode pengambilan sampel berulang yang serupa. Jika data Anda menyerupai beberapa distribusi parametrik (misalnya lognormal) maka pendekatan ini mudah dan dapat diandalkan. Bagian yang sulit adalah memperkirakan ketergantungan antar variabel. Lihat: https://www.encyclopediaofmath.org/index.php/Multi-dimensional_statistical_analysis .
Jika data Anda tidak teratur, maka metode non-parametrik lebih mudah dan mungkin lebih kuat. Estimasi kepadatan kernal multivarian adalah metode yang dapat diakses dan menarik bagi orang-orang dengan latar belakang ML. Untuk pengenalan umum dan tautan ke metode tertentu, lihat: https://en.wikipedia.org/wiki/Nonparametric_statistics .
Untuk memvalidasi bahwa proses ini bekerja untuk Anda, Anda kembali melalui proses pembelajaran mesin dengan data yang disintesis, dan Anda harus berakhir dengan model yang cukup dekat dengan aslinya. Demikian juga, jika Anda memasukkan data yang disintesis ke dalam model ML Anda, Anda harus mendapatkan output yang memiliki distribusi yang sama dengan output asli Anda.
Sebaliknya, Anda mengusulkan ini:
[data asli -> model pembelajaran mesin bangun -> gunakan model ml untuk menghasilkan data sintetis .... !!!]
Ini mencapai sesuatu yang berbeda dari metode yang baru saja saya jelaskan. Ini akan memecahkan masalah terbalik : "input apa yang dapat menghasilkan set output model apa pun yang diberikan". Kecuali jika model ML Anda terlalu pas untuk data asli Anda, data yang disintesis ini tidak akan terlihat seperti data asli Anda dalam segala hal, atau bahkan sebagian besar.
Pertimbangkan model regresi linier. Model regresi linier yang sama dapat memiliki kecocokan identik dengan data yang memiliki karakteristik yang sangat berbeda. Demonstrasi terkenal ini adalah melalui kuartet Anscombe .
Pikir saya tidak punya referensi, saya percaya masalah ini juga dapat muncul dalam regresi logistik, model linier umum, SVM, dan K-means clustering.
Ada beberapa jenis model ML (misalnya pohon keputusan) di mana dimungkinkan untuk membalikkan mereka untuk menghasilkan data sintetis, meskipun itu memerlukan beberapa pekerjaan. Lihat: Menghasilkan Data Sintetis untuk Mencocokkan Pola Penambangan Data .