Ini adalah contoh sederhana. Saya tidak tahu apakah Anda terbiasa dengan R, tetapi mudah-mudahan kode ini cukup jelas.
set.seed(9) # this makes the example reproducible
N = 36
# the following generates 3 variables:
x1 = rep(seq(from=11, to=13), each=12)
x2 = rep(rep(seq(from=90, to=150, by=20), each=3 ), times=3)
x3 = rep(seq(from=6, to=18, by=6 ), times=12)
cbind(x1, x2, x3)[1:7,] # 1st 7 cases, just to see the pattern
x1 x2 x3
[1,] 11 90 6
[2,] 11 90 12
[3,] 11 90 18
[4,] 11 110 6
[5,] 11 110 12
[6,] 11 110 18
[7,] 11 130 6
# the following is the true data generating process, note that y is a function of
# x1 & x2, but not x3, note also that x1 is designed above w/ a restricted range,
# & that x2 tends to have less influence on the response variable than x1:
y = 15 + 2*x1 + .2*x2 + rnorm(N, mean=0, sd=10)
reg.Model = lm(y~x1+x2+x3) # fits a regression model to these data
Sekarang, mari kita lihat seperti apa ini:
. . .
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.76232 27.18170 -0.065 0.94871
x1 3.11683 2.09795 1.486 0.14716
x2 0.21214 0.07661 2.769 0.00927 **
x3 0.17748 0.34966 0.508 0.61524
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
. . .
F-statistic: 3.378 on 3 and 32 DF, p-value: 0.03016
Kita dapat fokus pada bagian "Koefisien" dari output. Setiap parameter yang diestimasi oleh model mendapatkan barisnya sendiri. Estimasi aktual itu sendiri tercantum di kolom pertama. Kolom kedua mencantumkan Kesalahan Standar estimasi, yaitu perkiraan berapa banyak perkiraan akan 'melambung' dari sampel ke sampel, jika kami mengulangi proses ini berulang-ulang. Lebih khusus lagi, ini merupakan estimasi standar deviasi dari distribusi sampling estimasi. Jika kita membagi masing-masing estimasi parameter dengan SE-nya, kita mendapatkan skor-t , yang terdaftar di kolom ketiga; ini digunakan untuk pengujian hipotesis, khususnya untuk menguji apakah estimasi parameter 'berbeda' secara signifikan dari 0. Kolom terakhir adalahp-value yang terkait dengan t-score itu. Ini adalah probabilitas untuk menemukan nilai estimasi yang jauh atau lebih jauh dari 0, jika hipotesis nol itu benar. Perhatikan bahwa jika hipotesis nol tidak benar, tidak jelas bahwa nilai ini memberi tahu kita apa pun yang bermakna sama sekali.
Jika kita melihat bolak-balik antara tabel Koefisien dan proses menghasilkan data sebenarnya di atas, kita dapat melihat beberapa hal menarik. Intersep diperkirakan -1,8 dan SE-nya adalah 27, sedangkan nilai sebenarnya adalah 15. Karena nilai-p terkait adalah 0,95, itu tidak akan dianggap 'berbeda secara signifikan' dari 0 ( kesalahan tipe II ), tetapi meskipun demikian dalam satu SE dari nilai sebenarnya. Oleh karena itu, tidak ada yang sangat ekstrem mengenai perkiraan ini dari perspektif nilai sebenarnya dan jumlah yang harus berfluktuasi; kita hanya memiliki kekuatan yang tidak cukup untuk membedakannya dari 0. Cerita yang sama berlaku, kurang lebih, untukx1
x2
.21214 ≈ .2x3
x1
memprediksi variabel respons lebih baik daripada kebetulan saja. Cara lain untuk mengatakan ini, adalah apakah semua estimasi harus dianggap tidak dapat dibedakan dari 0. Hasil tes ini menunjukkan bahwa setidaknya beberapa estimasi parameter tidak sama dengan 0, sebelum keputusan yang tepat. Karena ada 4 tes di atas, kami tidak akan memiliki perlindungan dari masalah beberapa perbandingan tanpa ini. (Ingatlah bahwa karena nilai-p adalah variabel acak - apakah ada sesuatu yang signifikan akan berbeda dari satu eksperimen ke eksperimen lainnya, jika percobaan dijalankan kembali - adalah mungkin untuk ini tidak konsisten satu sama lain. Ini dibahas pada CV di sini: Signifikansi koefisien dalam regresi berganda: uji-t signifikan vs F-statistik tidak signifikan, dan situasi yang berlawanan di sini: Bagaimana regresi menjadi signifikan namun semua prediktor tidak signifikan , & di sini: F dan statistik t dalam regresi .) Mungkin anehnya, tidak ada kesalahan tipe I dalam contoh ini. Bagaimanapun, semua 5 tes yang dibahas dalam paragraf ini adalah tes hipotesis.
Dari komentar Anda, saya mengumpulkan Anda mungkin juga bertanya-tanya tentang bagaimana menentukan apakah satu variabel penjelas lebih penting daripada yang lain. Ini adalah pertanyaan yang sangat umum, tetapi cukup rumit. Bayangkan ingin memprediksi potensi keberhasilan dalam olahraga berdasarkan tinggi dan berat atlet, dan bertanya-tanya mana yang lebih penting. Strategi yang umum adalah melihat koefisien estimasi yang lebih besar. Namun, perkiraan ini khusus untuk unit yang digunakan: misalnya, koefisien berat akan berubah tergantung pada apakah pound atau kilogram digunakan. Selain itu, tidak jelas bagaimana menyamakan / membandingkan pound dan inci, atau kilogram dan sentimeter. Salah satu strategi yang digunakan adalah standardisasiR2r = r2--√