Regresi linier sederhana, nilai-p dan AIC

13

Saya menyadari bahwa topik ini telah muncul beberapa kali sebelumnya, misalnya di sini , tetapi saya masih tidak yakin bagaimana cara terbaik untuk menafsirkan hasil regresi saya.

Saya memiliki dataset yang sangat sederhana, terdiri dari kolom nilai x dan kolom nilai y , dibagi menjadi dua kelompok sesuai dengan lokasi (loc). Poinnya terlihat seperti ini

Seorang kolega telah berhipotesis bahwa kita harus menyesuaikan regresi linier sederhana yang terpisah untuk setiap kelompok, yang telah saya lakukan menggunakan y ~ x * C(loc). Outputnya ditunjukkan di bawah ini.

                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       0.873
Model:                            OLS   Adj. R-squared:                  0.866
Method:                 Least Squares   F-statistic:                     139.2
Date:                Mon, 13 Jun 2016   Prob (F-statistic):           3.05e-27
Time:                        14:18:50   Log-Likelihood:                -27.981
No. Observations:                  65   AIC:                             63.96
Df Residuals:                      61   BIC:                             72.66
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
=================================================================================
                    coef    std err          t      P>|t|      [95.0% Conf. Int.]
---------------------------------------------------------------------------------
Intercept         3.8000      1.784      2.129      0.037         0.232     7.368
C(loc)[T.N]      -0.4921      1.948     -0.253      0.801        -4.388     3.404
x                -0.6466      0.230     -2.807      0.007        -1.107    -0.186
x:C(loc)[T.N]     0.2719      0.257      1.057      0.295        -0.242     0.786
==============================================================================
Omnibus:                       22.788   Durbin-Watson:                   2.552
Prob(Omnibus):                  0.000   Jarque-Bera (JB):              121.307
Skew:                           0.629   Prob(JB):                     4.56e-27
Kurtosis:                       9.573   Cond. No.                         467.
==============================================================================

Melihat nilai-p untuk koefisien, variabel dummy untuk lokasi dan istilah interaksi tidak berbeda secara signifikan dari nol, dalam hal ini model regresi saya pada dasarnya berkurang menjadi hanya garis merah pada plot di atas. Bagi saya, ini menunjukkan bahwa pemasangan garis yang terpisah untuk dua kelompok mungkin merupakan kesalahan, dan model yang lebih baik mungkin merupakan garis regresi tunggal untuk seluruh dataset, seperti yang ditunjukkan di bawah ini.

                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       0.593
Model:                            OLS   Adj. R-squared:                  0.587
Method:                 Least Squares   F-statistic:                     91.93
Date:                Mon, 13 Jun 2016   Prob (F-statistic):           6.29e-14
Time:                        14:24:50   Log-Likelihood:                -65.687
No. Observations:                  65   AIC:                             135.4
Df Residuals:                      63   BIC:                             139.7
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [95.0% Conf. Int.]
------------------------------------------------------------------------------
Intercept      8.9278      0.935      9.550      0.000         7.060    10.796
x             -1.2446      0.130     -9.588      0.000        -1.504    -0.985
==============================================================================
Omnibus:                        0.112   Durbin-Watson:                   1.151
Prob(Omnibus):                  0.945   Jarque-Bera (JB):                0.006
Skew:                           0.018   Prob(JB):                        0.997
Kurtosis:                       2.972   Cond. No.                         81.9
==============================================================================

Ini terlihat OK bagi saya secara visual, dan nilai-p untuk semua koefisien sekarang signifikan. Namun, AIC untuk model kedua jauh lebih tinggi daripada yang pertama.

Saya menyadari bahwa pemilihan model adalah lebih dari sekedar nilai-p atau hanya AIC, tetapi saya tidak yakin apa yang harus dilakukan. Adakah yang bisa memberikan saran praktis mengenai menafsirkan output ini dan memilih model yang sesuai ?

Bagi saya, garis regresi tunggal terlihat OK (meskipun saya menyadari tidak ada satupun yang sangat baik), tetapi sepertinya ada setidaknya beberapa pembenaran untuk pemasangan model terpisah (?).

Terima kasih!

Diedit dalam menanggapi komentar

@Cagdas Ozgenc

Model dua garis dipasang menggunakan statsmodels Python dan kode berikut

reg = sm.ols(formula='y ~ x * C(loc)', data=df).fit()

Seperti yang saya pahami, ini pada dasarnya hanya singkatan untuk model seperti ini

y = β_{0} + β_{1} x + β_{2} l + β_{3} x l

$y = \beta_0 + \beta_1 x + \beta_2 l + \beta_3 x l$

$l$ $loc=D$ $l=0$

y = β_{0} + β_{1} x

$y = \beta_0 + \beta_1 x$

$loc=N$ $l=1$

y = (β_{0} + β_{2}) + (β_{1} + β_{3}) x

$y = (\beta_0 + \beta_2) + (\beta_1 +\beta_3) x$

yang merupakan garis biru pada plot di atas. AIC untuk model ini dilaporkan secara otomatis dalam ringkasan statsmodels. Untuk model satu baris saya hanya menggunakan

reg = ols(formula='y ~ x', data=df).fit()

Saya pikir ini baik-baik saja?

@ user2864849

$loc=D$

Edit 2

Hanya untuk kelengkapan, berikut adalah plot sisa seperti yang disarankan oleh @whuber. Model dua garis memang terlihat jauh lebih baik dari sudut pandang ini.

Model dua garis

Model satu garis

Terima kasih semuanya!

— JamesS
sumber

3

Ingin menjelaskan mengapa garis regresi tunggal terlihat lebih baik bagi Anda? Bagi saya, saya melihat dua kelompok yang terpisah secara linear dan kategori N memiliki varian yang sangat sedikit. Apakah Anda pikir yang pertama lebih buruk karena band kepercayaan yang tumpang tindih?

— Marsenau

6

x

$x$

3

R^{2}

$R^2$

3

@StudentT kedua model menggunakan semua titik data. Model sederhana menggunakan lebih sedikit variabel independen. Satu titik data adalah seluruh tupel.

— Cagdas Ozgenc

5

Jika Anda ingin mengambil pendekatan berbasis uji hipotesis untuk pemilihan model, Anda tidak boleh berasumsi bahwa karena dua prediktor masing - masing tidak signifikan menghapus keduanya dari model akan memiliki sedikit impor. Uji-F untuk signifikansi bersama akan menjadi yang sesuai.

— Scortchi

1

Apakah Anda mencoba menggunakan kedua prediktor tanpa interaksi? Jadi itu akan menjadi:

y ~ x + Loc

AIC mungkin lebih baik pada model pertama karena lokasi itu penting. Tetapi interaksi itu tidak penting, itulah sebabnya nilai-P tidak signifikan. Anda kemudian akan menafsirkannya sebagai efek x setelah mengendalikan untuk Loc.

— AJ12
sumber

1

Saya pikir Anda melakukannya dengan baik untuk menantang gagasan bahwa nilai p dan nilai AIC saja dapat menentukan kelayakan model. Saya juga senang Anda memilih untuk membagikannya di sini.

Seperti yang telah Anda tunjukkan, ada berbagai trade-off yang dibuat saat Anda mempertimbangkan berbagai istilah dan mungkin interaksi mereka. Jadi satu pertanyaan yang perlu diingat adalah tujuan dari model. Jika Anda ditugaskan untuk menentukan efek lokasi pada y, maka Anda harus tetap lokasi dalam model terlepas dari seberapa lemah nilai p. Hasil nol itu sendiri adalah informasi penting dalam kasus itu.

Sekilas, tampak jelas Dlokasi tersebut menyiratkan lebih besar y. Tetapi hanya ada kisaran sempit xyang Anda miliki keduanya Ddan Nnilai untuk lokasi. Regenerasi koefisien model Anda untuk interval kecil ini kemungkinan akan menghasilkan kesalahan standar yang jauh lebih besar.

Tapi mungkin Anda tidak peduli lokasi di luar kapasitasnya untuk memprediksi y. Itu adalah data yang baru saja Anda miliki dan kode warna pada plot Anda mengungkapkan pola yang menarik. Dalam hal ini Anda mungkin lebih tertarik pada prediktabilitas model daripada interpretabilitas koefisien favorit Anda. Saya menduga nilai AIC lebih berguna dalam kasus ini. Saya belum terbiasa dengan AIC; tapi saya menduga itu mungkin menghukum istilah campuran karena hanya ada kisaran kecil di mana Anda dapat mengubah lokasi untuk diperbaiki x. Ada sangat sedikit yang menjelaskan lokasi yang xbelum menjelaskan.

— pglezen
sumber

0

Anda harus melaporkan kedua grup secara terpisah (atau mungkin mempertimbangkan pemodelan multi-level). Untuk hanya menggabungkan kelompok melanggar salah satu asumsi dasar regresi (dan sebagian besar teknik statistik inferensial lainnya), independensi pengamatan. Atau dengan kata lain, variabel pengelompokan (lokasi) adalah variabel tersembunyi kecuali jika diperhitungkan dalam analisis Anda.

Dalam kasus yang ekstrim, mengabaikan variabel pengelompokan dapat menyebabkan paradoks Simpson. Dalam paradoks ini, Anda dapat memiliki dua kelompok yang keduanya memiliki korelasi positif, tetapi jika Anda menggabungkannya, Anda memiliki korelasi negatif (salah, salah). (Atau sebaliknya, tentu saja.) Lihat http://www.theregister.co.uk/2014/05/28/theorums_3_simpson/ .

— MikeG
sumber