Sebagai permulaan, saya menyarankan agar berhati-hati terhadap pernyataan bahwa hanya ada satucara untuk melakukan sesuatu. Memisahkan sampel yang diperoleh menjadi set "pelatihan" dan "pengujian" adalah pendekatan umum dalam banyak pembelajaran mesin / aplikasi ilmu data. Seringkali, pendekatan pemodelan ini kurang tertarik pada pengujian hipotesis tentang proses pembuatan data yang mendasarinya, yang berarti mereka cenderung agak tidak teoritis. Bahkan, sebagian besar jenis pelatihan / pengujian hanya ingin melihat apakah model ini terlalu pas dalam hal kinerja prediksi. Tentu saja, juga dimungkinkan untuk menggunakan pendekatan pelatihan / pengujian untuk melihat apakah model yang diberikan mereplikasi dalam hal parameter mana yang "signifikan", atau untuk melihat apakah estimasi parameter berada dalam kisaran yang diharapkan dalam kedua contoh.
Dalam teori, model validasi atau invalidasi adalah apa yang seharusnya dilakukan sains, baik yang besar, maupun yang harus dilakukan. Peneliti independen, yang secara terpisah memeriksa, menghasilkan, dan menguji hipotesis yang mendukung atau membantah argumen tentang teori mengapa atau dalam keadaan apa fenomena yang dapat diamati terjadi - yaitu perusahaan ilmiah dalam kulit kacang (atau setidaknya dalam satu kalimat yang terlalu panjang). Jadi untuk menjawab pertanyaan Anda, bagi saya, bahkan pemisahan pelatihan / pengujian tidak "memvalidasi" model. Itu adalah sesuatu yang membutuhkan bukti selama bertahun-tahun yang dikumpulkan dari beberapa peneliti independen yang mempelajari serangkaian fenomena yang sama. Meskipun, saya akan memberikan bahwa pandangan ini mungkin ada perbedaan dalam semantik tentang apa yang saya lihat validasi model berarti versus apa istilah validasi telah menjadi berarti dalam pengaturan yang diterapkan ...
Bergantung pada data dan pendekatan pemodelan Anda, mungkin tidak selalu tepat dari sudut pandang statistik untuk membagi sampel Anda menjadi set pelatihan dan pengujian. Sebagai contoh, sampel kecil mungkin sangat sulit untuk menerapkan pendekatan ini. Selain itu, beberapa distribusi mungkin memiliki sifat tertentu yang membuatnya sulit untuk dimodelkan bahkan dengan sampel yang relatif besar. Case nol-inflasi Anda kemungkinan cocok dengan deskripsi terakhir ini. Jika tujuannya adalah untuk mencapai perkiraan "kebenaran" tentang seperangkat hubungan atau proses yang mendasari dianggap untuk beberapa fenomena, Anda tidak akan dilayani dengan baik dengan secara sadar mengambil pendekatan yang kurang bertenaga untuk menguji hipotesis yang diberikan. Jadi mungkin langkah pertama adalah melakukan analisis kekuatan untuk melihat apakah Anda bahkan mungkin akan meniru temuan yang menarik dalam data yang Anda daftarkan.
Pilihan lain adalah menentukan beberapa model untuk melihat apakah mereka "lebih baik" menjelaskan data yang diamati. Tujuannya di sini adalah untuk mengidentifikasi model terbaik di antara serangkaian alternatif yang masuk akal. Ini adalah argumen relatif, bukan absolut, yang akan Anda buat tentang model Anda. Pada dasarnya, Anda mengakui bahwa mungkin ada model lain yang dapat diajukan untuk menjelaskan data Anda, tetapi model Anda adalah yang terbaik dari serangkaian alternatif yang diuji (setidaknya Anda berharap demikian). Semua model di set, termasuk model Anda yang dihipotesiskan, harus didasarkan pada teori; jika tidak, Anda berisiko membuat sekelompok pria jerami statistik.
Ada juga Bayes Factors di mana Anda dapat menghitung bobot bukti yang diberikan model Anda, berdasarkan data Anda, untuk hipotesis spesifik relatif terhadap skenario alternatif.
Ini jauh dari daftar opsi yang lengkap, tapi saya harap ini membantu. Saya akan turun dari kotak sabun sekarang. Ingatlah bahwa setiap model dalam setiap penelitian yang diterbitkan tentang perilaku manusia tidak benar. Hampir selalu ada variabel yang dihilangkan yang relevan, interaksi yang tidak dimodelkan, populasi sampel yang tidak sempurna, dan kesalahan pengambilan sampel lama yang sederhana yang mengaburkan mengaburkan kebenaran yang mendasarinya.