R2 sendiri bukanlah ukuran yang baik untuk kebaikan, tetapi jangan sampai membahasnya di sini kecuali untuk mengamati bahwa kekikiran dihargai dalam pemodelan.
Untuk itu, perhatikan bahwa teknik standar analisis data eksplorasi (EDA) dan regresi (tetapi tidak bertahap atau prosedur otomatis lainnya) menyarankan menggunakan model linier dalam bentuk
f--√= A + b * c + a * b * c + konstan + error
Menggunakan OLS, ini mencapai atas 0,99. Dihibur oleh hasil seperti itu, seseorang tergoda untuk menyejajarkan kedua sisi dan mundur pada , , , dan semua kotak dan produk mereka. Ini segera menghasilkan model f a b ∗ c a ∗ b ∗ cR2fSebuahb ∗ ca ∗ b ∗ c
f= a2+ b ∗ c + konstanta + kesalahan
dengan MSE root di bawah 34 dan disesuaikan dari 0,9999R2 . Koefisien estimasi 1,0112 dan 0,988 menunjukkan data dapat secara artifisial dihasilkan dengan rumus
f= a2+ b ∗ c + 50
ditambah sedikit kesalahan distribusi normal dari SD kira-kira sama dengan 50.
Edit
Menanggapi petunjuk @ knorv, saya melanjutkan analisis. Untuk melakukannya, saya menggunakan teknik yang telah berhasil sejauh ini, dimulai dengan memeriksa matriks sebar residu terhadap variabel asli. Benar saja, ada indikasi yang jelas korelasi antara dan residual (meskipun OLS regresi terhadap , , dan tidak tidak menunjukkan adalah "signifikan"). Melanjutkan dalam nada ini saya mengeksplorasi semua korelasi antara istilah kuadrat dan residu baru dan menemukan hubungan kecil tapi sangat signifikan denganf a a 2 b * c a a 2 , ... , e 2 , a * b , a * c , ... , d * e b 2SebuahfSebuahSebuah2b ∗ cSebuahSebuah2, ... , e2, a ∗ b , a ∗ c , ... , d∗ eb2. "Sangat signifikan" berarti bahwa semua pengintaian ini melibatkan melihat sekitar 20 variabel yang berbeda, jadi kriteria saya untuk signifikansi pada ekspedisi memancing ini adalah sekitar 0,05 / 20 = 0,0025: sesuatu yang kurang ketat dapat dengan mudah menjadi artefak dari probing for fit.
Ini memiliki semacam aroma model fisik yang kami harapkan, dan karenanya mencari, hubungan dengan koefisien "menarik" dan "sederhana". Jadi, misalnya, melihat bahwa koefisien estimasi adalah -0,0092 (antara -0,005 dan -0,013 dengan kepercayaan 95%), saya memilih menggunakan -1/100 untuk itu. Jika ini adalah dataset lain, seperti pengamatan sistem sosial atau politik, saya tidak akan membuat perubahan seperti itu tetapi hanya menggunakan perkiraan OLS apa adanya.b2
Pokoknya, peningkatan kecocokan diberikan oleh
f= a + a2+ b ∗ c - b2/ 100+30,5+kesalahan
dengan rata-rata residual , standar deviasi 26,8, semua residu antara -50 dan +43, dan tidak ada bukti ketidaknormalan (walaupun dengan dataset sekecil itu kesalahannya bahkan dapat terdistribusi secara seragam dan orang tidak dapat membedakannya). Pengurangan dalam deviasi standar residu dari sekitar 50 menjadi sekitar 25 akan sering dinyatakan sebagai "menjelaskan 75% dari varian residu."0
Saya tidak mengklaim bahwa ini adalah yang formula yang digunakan untuk menghasilkan data . Residunya cukup besar untuk memungkinkan beberapa perubahan yang cukup besar pada beberapa koefisien. Sebagai contoh, 95% CIs untuk koefisien , , dan konstanta adalah [-0,4, 2,7], [-0,013, -0,003], dan [-7, 61]. Intinya adalah bahwa jika ada kesalahan acak sebenarnya telah diperkenalkan dalam prosedur pembuatan data (dan itu berlaku untuk semua data dunia nyata), yang akan menghalangi identifikasi definitif dari koefisien (dan bahkan semua variabel yang mungkin terlibat) ). Itu bukan batasan metode statistik: itu hanya fakta matematika.b 2Sebuahb2
BTW, menggunakan regresi kuat saya bisa cocok dengan model
f= 1.0103 a2+ 0,99493 b ∗ c - 0,007 b2+ 46,78 + kesalahan
dengan SD residual 27,4 dan semua residu antara -51 dan +47: pada dasarnya sama baiknya dengan fit sebelumnya tetapi dengan satu variabel lebih sedikit. Itu lebih pelit dalam arti itu, tetapi kurang pelit dalam arti bahwa saya belum membulatkan koefisien ke nilai-nilai "baik". Namun demikian, ini adalah bentuk yang biasanya saya sukai dalam analisis regresi jika tidak ada teori yang ketat tentang nilai-nilai apa yang seharusnya dimiliki oleh koefisien dan variabel mana yang harus dimasukkan.
Kemungkinan ada hubungan kuat tambahan yang mengintai di sini , tetapi mereka harus cukup rumit. Kebetulan, mengambil data yang SD aslinya adalah 3410 dan mengurangi variasinya menjadi residu dengan SD 27 adalah pengurangan varians 99,99384% ( dari fit baru ini). Orang akan terus mencari efek tambahan hanya jika SD residual terlalu besar untuk tujuan yang dimaksudkan. Dengan tidak adanya tujuan selain menebak-nebak OP, saatnya untuk berhenti.R2
FF
"hasil pembakaran" danAA
jumlah bahan bakar, danBB
jumlah oksigen, Anda akan mencari istilah berinteraksiAA
danBB