Bagi saya tidak begitu jelas apa arti standardisasi, dan ketika mencari sejarah saya mengambil dua referensi yang menarik.
Artikel terbaru ini memiliki ikhtisar historis dalam pendahuluan:
García, J., Salmerón, R., García, C., & López Martín, MDM (2016). Standarisasi variabel dan diagnostik collinearity dalam regresi ridge. Tinjauan Statistik Internasional, 84 (2), 245-266
Saya menemukan artikel menarik lain yang semacam klaim untuk menunjukkan bahwa standardisasi, atau pemusatan, tidak berpengaruh sama sekali.
Echambadi, R., & Hess, JD (2007). Mean-centering tidak mengurangi masalah collinearity dalam model regresi berganda yang dimoderasi.Ilmu Pemasaran, 26 (3), 438-445.
Bagi saya, kritik ini sepertinya seperti kehilangan inti tentang ide keterpusatan.
Satu-satunya hal yang ditunjukkan Echambadi dan Hess adalah bahwa modelnya setara dan bahwa Anda dapat mengekspresikan koefisien dari model terpusat dalam hal koefisien dari model yang tidak berpusat, dan sebaliknya (menghasilkan varian / kesalahan yang serupa dari koefisien) ).
Hasil Echambadi dan Hess agak sepele dan saya percaya bahwa ini (hubungan dan kesetaraan antara koefisien) tidak diklaim tidak benar oleh siapa pun. Tidak ada yang mengklaim bahwa hubungan antara koefisien tidak benar. Dan itu bukan titik variabel keterpusatan.
Inti dari keterpusatan adalah bahwa dalam model dengan istilah linear dan kuadrat Anda dapat memilih skala koordinat yang berbeda sehingga Anda akhirnya bekerja dalam bingkai yang tidak memiliki atau kurang korelasi antara variabel. Katakanlah Anda ingin mengungkapkan efek waktut pada beberapa variabel Y dan Anda ingin melakukan ini selama beberapa periode yang dinyatakan dalam tahun-tahun setelah AD katakan dari tahun 1998 hingga 2018. Dalam hal ini, apa yang dimaksud dengan teknik pemusatan adalah untuk menyelesaikannya adalah bahwa
"Jika Anda menyatakan keakuratan koefisien untuk dependensi linear dan kuadrat pada waktu, maka mereka akan memiliki lebih banyak variasi saat Anda menggunakan waktu t mulai dari tahun 1998 hingga 2018 bukan waktu yang terpusat t′ mulai dari -10 hingga 10 ".
Y= a + b t + ct2
melawan
Y=Sebuah′+b′( t - T) +c′( t - T)2
Tentu saja, kedua model ini setara dan bukannya memusatkan Anda bisa mendapatkan hasil yang sama persis (dan karenanya kesalahan yang sama dari koefisien yang diperkirakan) dengan menghitung koefisien seperti
Sebuahbc===Sebuah′-b′T+c′T2b′- 2c′Tc′
juga saat Anda melakukan ANOVA atau menggunakan ekspresi seperti R2 maka tidak akan ada perbedaan.
Namun, itu sama sekali bukan inti dari pemusatan rata-rata. Inti dari pemusatan rata-rata adalah bahwa kadang-kadang seseorang ingin mengkomunikasikan koefisien dan estimasi varians / akurasi atau interval kepercayaan mereka, dan untuk kasus-kasus itu tidak masalah bagaimana model diekspresikan.
Contoh: seorang fisikawan ingin menyatakan beberapa hubungan eksperimental untuk beberapa parameter X sebagai fungsi temperatur kuadratik.
T X
298 1230
308 1308
318 1371
328 1470
338 1534
348 1601
358 1695
368 1780
378 1863
388 1940
398 2047
tidak akan lebih baik untuk melaporkan interval 95% untuk koefisien seperti
2.5 % 97.5 %
(Intercept) 1602 1621
T-348 7.87 8.26
(T-348)^2 0.0029 0.0166
dari pada
2.5 % 97.5 %
(Intercept) -839 816
T -3.52 6.05
T^2 0.0029 0.0166
Dalam kasus terakhir, koefisien akan diekspresikan dengan margin kesalahan yang tampaknya besar (tetapi tidak mengatakan apa pun tentang kesalahan dalam model), dan selain itu korelasi antara distribusi kesalahan tidak akan jelas (dalam kasus pertama kesalahan dalam koefisien tidak akan dikorelasikan).
Jika seseorang mengklaim, seperti Echambadi dan Hess, bahwa kedua ekspresi itu hanya setara dan pemusatan tidak masalah, maka kita harus (sebagai konsekuensinya menggunakan argumen serupa) juga mengklaim bahwa ekspresi untuk koefisien model (ketika tidak ada penyadapan alami dan pilihannya arbitrer) dalam hal interval kepercayaan atau kesalahan standar tidak pernah masuk akal.
Dalam pertanyaan / jawaban ini sebuah gambar ditampilkan yang juga menyajikan ide ini bagaimana interval kepercayaan 95% tidak memberi tahu banyak tentang kepastian koefisien (setidaknya tidak secara intuitif) ketika kesalahan dalam estimasi koefisien berkorelasi.
R
kerangka ini , diwakili dalam hitungan detik sejak awal tahun 1970. Dengan demikian, itu cenderung sembilan kali lipat lebih besar dari semua kovariat. Cukup dengan menstandarkan waktu, memecahkan masalah floating point parah yang terjadi dalam optimizer kemungkinan.