Teori di balik regresi kuadrat terkecil parsial

Adakah yang bisa merekomendasikan penjelasan yang baik tentang teori di balik regresi kuadrat terkecil parsial (tersedia online) untuk seseorang yang memahami SVD dan PCA? Saya telah melihat banyak sumber online dan belum menemukan apa pun yang memiliki kombinasi yang tepat antara ketelitian dan aksesibilitas.

Saya telah melihat ke dalam Elemen Pembelajaran Statistik , yang disarankan dalam komentar atas pertanyaan yang diajukan pada Cross Validated , Apa itu regresi parsial least squares (PLS) dan bagaimana perbedaannya dari OLS? , tapi saya tidak berpikir bahwa referensi ini sesuai dengan topik (terlalu singkat untuk melakukannya, dan tidak memberikan banyak teori tentang subjek). Dari apa yang saya baca, PLS mengeksploitasi kombinasi linear dari variabel prediktor, yang memaksimalkan kovarian tunduk pada kendala dan jika , di mana $z_i=X \varphi_i$ $y^Tz_i$ $\|\varphi_i\|=1$ $z_i^Tz_j=0$ $i \neq j$ $\varphi_i$ dipilih secara iteratif, dalam urutan di mana mereka memaksimalkan kovarians. Tetapi bahkan setelah semua yang saya baca, saya masih ragu apakah itu benar, dan jika demikian, bagaimana metode ini dijalankan.

— clarpaul
sumber

Bagian 3.5.2 dalam Elemen Pembelajaran Statistik berguna karena menempatkan regresi PLS dalam konteks yang benar (metode regularisasi lainnya), tetapi memang sangat singkat, dan meninggalkan beberapa pernyataan penting sebagai latihan. Selain itu, hanya mempertimbangkan kasus variabel dependen univariat $\mathbf y$ .

Literatur tentang PLS sangat luas, tetapi bisa sangat membingungkan karena ada banyak "rasa" PLS yang berbeda: versi univariat dengan DV $\mathbf y$ (PLS1) tunggal dan versi multivariat dengan beberapa DVs $\mathbf Y$ (PLS2), versi simetris memperlakukan $\mathbf X$ dan $\mathbf Y$ versi yang sama dan asimetris ("regresi PLS") memperlakukan $\mathbf X$ sebagai variabel bebas dan $\mathbf Y$ sebagai variabel dependen, versi yang memungkinkan solusi global melalui SVD dan versi yang membutuhkan deflasi berulang untuk menghasilkan setiap berikutnya sepasang arah PLS, dll. dll

Semua ini telah dikembangkan di bidang kemometrik dan tetap agak terputus dari statistik "arus utama" atau literatur pembelajaran mesin.

Makalah ikhtisar yang menurut saya paling berguna (dan yang mengandung banyak referensi lebih lanjut) adalah:

Rosipal & Krämer, 2006, Tinjauan Umum dan Kemajuan-Kemajuan Baru-Baru Ini di Kotak Tersisa Sebagian

Untuk diskusi yang lebih teoretis, saya dapat merekomendasikan:

Frank & Friedman, 1993, Pandangan Statistik atas Beberapa Alat Regresi Chemometrics

Sebuah primer singkat tentang regresi PLS dengan univariat (alias PLS1, alias SIMPLS) $y$

Tujuan regresi adalah untuk memperkirakan dalam model linier . Solusi OLS menikmati banyak properti optimalitas tetapi dapat mengalami overfitting. Memang, OLS mencari yang menghasilkan korelasi tertinggi dengan . Jika ada banyak prediktor, maka selalu mungkin untuk menemukan beberapa kombinasi linier yang kebetulan memiliki korelasi tinggi dengan . Ini akan menjadi korelasi palsu, dan seperti itu biasanya akan menunjuk ke arah yang menjelaskan sedikit perbedaan dalam $\beta$ $y=X\beta + \epsilon$ $\beta=(\mathbf X^\top \mathbf X)^{-1}\mathbf X^\top \mathbf y$ $\beta$ $\mathbf X \beta$ $\mathbf y$ $\mathbf y$ $\beta$ $\mathbf X$ . Petunjuk menjelaskan varians yang sangat sedikit seringkali merupakan arahan yang sangat "berisik". Jika demikian, maka meskipun pada data pelatihan, solusi OLS berkinerja baik, pada pengujian data akan jauh lebih buruk.

Untuk mencegah overfitting, seseorang menggunakan metode regularisasi yang pada dasarnya memaksa untuk menunjuk ke arah varian yang tinggi di (ini juga disebut "penyusutan" dari ; lihat Mengapa penyusutan berfungsi? ). Salah satu metode tersebut adalah regresi komponen utama (PCR) yang hanya membuang semua arah varian rendah. Metode lain (lebih baik) adalah regresi ridge yang dengan lancar menghukum arah varians rendah. Namun metode lain adalah PLS1. $\beta$ $\mathbf X$ $\beta$

PLS1 menggantikan tujuan OLS untuk menemukan yang memaksimalkan korelasi dengan tujuan alternatif untuk menemukan dengan panjang memaksimalkan kovarians yang lagi-lagi secara efektif menghukum arah varians rendah. $\beta$ $\operatorname{corr}(\mathbf X \beta, \mathbf y)$ $\beta$ $\|\beta\|=1$

cov (X β, y) \sim corr (X β, y) \cdot \sqrt{var (X β)},

$\operatorname{cov}(\mathbf X \beta, \mathbf y)\sim\operatorname{corr}(\mathbf X \beta, \mathbf y)\cdot\sqrt{\operatorname{var}(\mathbf X \beta)},$

Menemukan seperti itu (sebut saja ) menghasilkan komponen PLS pertama . Seseorang dapat lebih lanjut mencari komponen PLS kedua (dan kemudian ketiga, dll.) Yang memiliki kovarian tertinggi dengan bawah batasan tidak berkorelasi dengan semua komponen sebelumnya. Ini harus dipecahkan secara iteratif, karena tidak ada solusi bentuk tertutup untuk semua komponen (arah komponen pertama hanya diberikan oleh $\beta$ $\beta_1$ $\mathbf z_1 = \mathbf X \beta_1$ $\mathbf y$ $\beta_1$ $\mathbf X^\top \mathbf y$ dinormalisasi menjadi satuan panjang). Ketika jumlah komponen yang diinginkan diekstraksi, regresi PLS membuang prediktor asli dan menggunakan komponen PLS sebagai prediktor baru; ini menghasilkan beberapa kombinasi linear dari mereka yang dapat dikombinasikan dengan semua untuk membentuk final . $\beta_z$ $\beta_i$ $\beta_\mathrm{PLS}$

Perhatikan bahwa:

Jika semua komponen PLS1 digunakan, maka PLS akan setara dengan OLS. Jadi jumlah komponen berfungsi sebagai parameter regularisasi: semakin rendah angkanya, semakin kuat regularisasi.
Jika prediktor tidak berkorelasi dan semua memiliki varian yang sama (yaitu telah diputihkan ), maka hanya ada satu komponen PLS1 dan setara dengan OLS. $\mathbf X$ $\mathbf X$
Vektor berat dan untuk tidak akan menjadi orthogonal, tetapi akan menghasilkan komponen yang tidak berkorelasi dan . $\beta_i$ $\beta_j$ $i\ne j$ $\mathbf z_i=\mathbf X \beta_i$ $\mathbf z_j=\mathbf X \beta_j$

Semua itu dikatakan, saya tidak menyadari apa keuntungan praktis regresi PLS1 lebih regresi ridge (sedangkan yang kedua memang memiliki banyak keuntungan: itu terus-menerus dan tidak diskrit, memiliki solusi analitis, jauh lebih standar, memungkinkan ekstensi kernel dan analitis rumus untuk kesalahan validasi silang keluar-keluar, dll.)

Mengutip dari Frank & Friedman:

RR, PCR, dan PLS terlihat di Bagian 3 untuk beroperasi dengan cara yang sama. Tujuan utama mereka adalah untuk mengecilkan vektor koefisien solusi menjauh dari solusi OLS menuju arah dalam ruang variabel-prediktor dari penyebaran sampel yang lebih besar. PCR dan PLS terlihat menyusut lebih jauh dari arah penyebaran rendah daripada RR, yang memberikan penyusutan optimal (di antara penaksir linier) untuk equidirection sebelumnya. Dengan demikian PCR dan PLS membuat asumsi bahwa kebenaran cenderung memiliki keberpihakan preferensial khusus dengan arah penyebaran yang tinggi dari distribusi variabel prediktor (sampel). Hasil agak mengejutkan adalah bahwa PLS (selain) tempat peningkatan massa probabilitas pada menyelaraskan vektor koefisien benar dengan th pokok arah komponen, di mana $K$ $K$ adalah jumlah komponen PLS yang digunakan, sebenarnya memperluas solusi OLS ke arah itu.

Mereka juga melakukan studi simulasi yang luas dan menyimpulkan (penekanan tambang):

Untuk situasi yang dicakup oleh studi simulasi ini, orang dapat menyimpulkan bahwa semua metode yang bias (RR, PCR, PLS, dan VSS) memberikan peningkatan substansial atas OLS. [...] Dalam semua situasi, RR mendominasi semua metode lain yang dipelajari. PLS biasanya melakukan hampir sebaik RR dan biasanya mengungguli PCR, tetapi tidak terlalu banyak.

Pembaruan: Dalam komentar @cbeleites (yang bekerja di chemometrics) menyarankan dua kemungkinan keuntungan PLS dibandingkan RR:

Seorang analis dapat memiliki dugaan apriori mengenai berapa banyak komponen laten yang harus ada dalam data; ini secara efektif akan memungkinkan untuk mengatur kekuatan regularisasi tanpa melakukan cross-validation (dan mungkin tidak ada cukup data untuk melakukan CV yang andal). Sebuah seperti apriori pilihan mungkin akan lebih bermasalah di RR. $\lambda$
RR menghasilkan satu kombinasi linear tunggal sebagai solusi optimal. Sebaliknya PLS dengan mis. Lima komponen menghasilkan lima kombinasi linier yang kemudian digabungkan untuk memprediksi . Variabel asli yang sangat saling berkorelasi cenderung digabungkan menjadi komponen PLS tunggal (karena menggabungkan mereka bersama-sama akan meningkatkan istilah varians yang dijelaskan). Jadi dimungkinkan untuk menafsirkan komponen PLS individu sebagai beberapa faktor laten nyata yang mendorong . Klaimnya adalah bahwa lebih mudah untuk menginterpretasikan dll. dengan gabungan $\beta_\mathrm{RR}$ $\beta_i$ $y$ $y$ $\beta_1, \beta_2,$ $\beta_\mathrm{PLS}$ . Bandingkan ini dengan PCR di mana orang juga dapat melihat sebagai keuntungan bahwa komponen utama individu berpotensi ditafsirkan dan diberi makna kualitatif.

— amuba kata Reinstate Monica
sumber

Makalah itu terlihat bermanfaat. Saya tidak berpikir ini membahas berapa banyak overfitting yang bisa disebabkan oleh PLS.

— Frank Harrell 2-15

Benar, @Jujur, tapi jujur, sejauh menyangkut kinerja prediksi, saya tidak melihat banyak akal dalam melakukan hal lain selain ridge regression (atau mungkin jaring elastis jika sparsity diinginkan juga). Ketertarikan saya sendiri pada PLS adalah pada aspek reduksi dimensionalitas ketika dan adalah multivariat; jadi saya tidak terlalu tertarik pada bagaimana PLS tampil sebagai teknik regularisasi (dibandingkan dengan metode regularisasi lainnya). Ketika saya memiliki model linier yang perlu saya regularisasi, saya lebih suka menggunakan ridge. Saya ingin tahu apa pengalaman Anda di sini?

X

$X$

Y

$Y$

— Amoeba berkata Reinstate Monica

Pengalaman saya adalah bahwa punggungan (estimasi kemungkinan maksimum diprioritaskan secara kuadratik) memberikan prediksi yang unggul. Saya pikir beberapa analis merasa bahwa PLS adalah teknik pengurangan dimensionalitas dalam arti menghindari overfitting tapi saya rasa bukan itu masalahnya.

— Frank Harrell 2-15

b) jika Anda akan pergi untuk, katakanlah, interpretasi spektroskopi dari apa yang dilakukan model, saya merasa lebih mudah untuk melihat pemuatan PLS jenis bahan apa yang diukur. Anda dapat menemukan satu atau dua substansi / kelas zat di sana, di mana koefisien yang mencakup semua variabel laten lebih sulit untuk diinterpretasikan karena kontribusi spektral dari lebih banyak zat digabungkan. Ini lebih menonjol karena tidak semua aturan interpretasi spektral yang biasa berlaku: model PLS dapat memilih beberapa pita zat sementara mengabaikan yang lain. Interpretasi spektra "normal" menggunakan banyak band ini bisa ...

— cbeleites mendukung Monica

... berasal dari substansi ini atau itu. Jika ini adalah zat ini, pasti ada band lain ini. Karena kemungkinan yang terakhir untuk memverifikasi substansi tidak dimungkinkan dengan variabel laten / pemuatan / koefisien, menafsirkan hal-hal yang berbeda-beda dan karenanya berakhir dalam variabel laten yang sama jauh lebih mudah daripada menafsirkan koefisien yang sudah merangkum semua jenis kemungkinan "petunjuk" "Yang dikenal oleh model.

— Cbeleites mendukung Monica

Iya nih. Buku Herman Wold Teoritis Empirisme: Dasar pemikiran umum untuk membangun model ilmiah adalah paparan tunggal PLS terbaik yang saya ketahui, terutama mengingat bahwa Wold adalah pencetus pendekatan tersebut. Belum lagi itu hanya buku yang menarik untuk dibaca dan diketahui. Selain berdasarkan pencarian di Amazon, jumlah referensi untuk buku-buku tentang PLS yang ditulis dalam bahasa Jerman sangat mencengangkan tetapi mungkin subtitle dari buku Wold adalah bagian dari alasan untuk itu.

— Mike Hunter
sumber

Ini amazon.com/Towards-Unified-Scientific-Models-Methods / dp/… terkait tetapi mencakup lebih dari PLS

— kjetil b halvorsen

Itu benar tetapi fokus utama buku ini adalah pengembangan teori dan penerapan PLS oleh Wold.

— Mike Hunter

Teori di balik regresi kuadrat terkecil parsial

Sebuah primer singkat tentang regresi PLS dengan univariat (alias PLS1, alias SIMPLS)yyy

Sebuah primer singkat tentang regresi PLS dengan univariat (alias PLS1, alias SIMPLS) $y$