Regresi dan pembelajaran mesin digunakan dalam ilmu alam untuk menguji hipotesis, memperkirakan parameter, dan membuat prediksi dengan mencocokkan model dengan data. Namun, ketika saya memiliki model apriori , saya tidak ingin melakukan fitting --- misalnya, model sistem fisik deterministik yang dihitung dari prinsip pertama. Saya hanya ingin tahu seberapa baik model saya cocok dengan data, dan kemudian memahami bagian mana dari model yang memberikan kontribusi signifikan untuk pertandingan. Bisakah seseorang mengarahkan saya ke arah cara yang ketat secara statistik dalam melakukan ini?
Dalam istilah yang lebih spesifik, anggaplah saya memiliki sistem fisik di mana saya mengukur variabel dependen ( berkisar dari 1 hingga , ukuran sampel) dalam berbagai kondisi yang dijelaskan oleh tiga variabel independen , , dan . Meskipun sistem nyata yang menghasilkan data rumit, saya membuat beberapa asumsi penyederhanaan untuk mendapatkan model teoritis untuk sistem, sedemikian rupa
,
dimana adalah fungsi non-linear (dan tidak linierisasi) dari variabel independen dan adalah perbedaan antara model yang diprediksi dan nilai yang diukur. sepenuhnya ditentukan sebelumnya; tidak ada pemasangan yang dilakukan dan tidak ada parameter yang diperkirakan. Tujuan pertama saya adalah menentukan apakah adalah model yang masuk akal untuk proses yang menghasilkan nilai yang diukur .
Saya juga mengembangkan model yang disederhanakan dan , yang bersarang di (jika itu penting dalam kasus ini). Tujuan kedua saya adalah menentukan apakah cocok dengan data secara signifikan lebih baik daripada atau , menunjukkan bahwa fitur yang membedakan model dari model dan memainkan peran penting dalam proses yang menghasilkan .
Ide sejauh ini
Mungkin jika ada beberapa cara untuk menentukan jumlah parameter atau jumlah derajat kebebasan untuk model matematika saya, akan mungkin untuk menggunakan prosedur yang ada seperti tes rasio kemungkinan atau perbandingan AIC. Namun, mengingat bentuk nonlinear dari dan tidak adanya parameter yang jelas, saya tidak yakin apakah itu wajar untuk menetapkan parameter atau untuk mengasumsikan apa yang merupakan derajat kebebasan.
Saya pernah membaca bahwa ukuran good-of-fit, seperti koefisien determinasi (), dapat digunakan untuk membandingkan kinerja model. Namun, tidak jelas bagi saya apa ambang batas untuk perbedaan yang berarti antaranilai mungkin. Lebih lanjut, karena saya tidak mencocokkan model dengan data, rata-rata residu tidak nol dan mungkin berbeda untuk masing-masing model. Dengan demikian, model yang cocok yang cenderung underpredict data mungkin menghasilkan nilai yang buruk sebagai model yang tidak bias tetapi tidak cocok dengan data.
Saya juga sudah membaca sedikit tentang tes good-of-fit (misalnya, Anderson-Darling), tetapi karena statistik bukan bidang saya, saya tidak yakin seberapa baik jenis tes ini sesuai dengan tujuan saya. Bimbingan apa pun akan dihargai.
f
sepenuhnya ditentukan sebelumnya. Ini seperti kotak hitam yang menghasilkan respons y
dari variabel input, dan saya ingin tahu seberapa baik kinerjanya dibandingkan dengan kotak hitam yang bersaing. Situasi analagous mungkin mencoba untuk mengevaluasi kecocokan antara output dari simulasi numerik dan pengukuran yang dibuat dalam sistem fisik nyata.
f()
yang perlu ditentukan dari kecocokan dengan data, atau apakah fungsif()
sepenuhnya ditentukan sebelumnya?