Bagian 3.5.2 dalam Elemen Pembelajaran Statistik berguna karena menempatkan regresi PLS dalam konteks yang benar (metode regularisasi lainnya), tetapi memang sangat singkat, dan meninggalkan beberapa pernyataan penting sebagai latihan. Selain itu, hanya mempertimbangkan kasus variabel dependen univariat y .
Literatur tentang PLS sangat luas, tetapi bisa sangat membingungkan karena ada banyak "rasa" PLS yang berbeda: versi univariat dengan DV y (PLS1) tunggal dan versi multivariat dengan beberapa DVs Y (PLS2), versi simetris memperlakukan X dan Y versi yang sama dan asimetris ("regresi PLS") memperlakukan X sebagai variabel bebas dan Y sebagai variabel dependen, versi yang memungkinkan solusi global melalui SVD dan versi yang membutuhkan deflasi berulang untuk menghasilkan setiap berikutnya sepasang arah PLS, dll. dll
Semua ini telah dikembangkan di bidang kemometrik dan tetap agak terputus dari statistik "arus utama" atau literatur pembelajaran mesin.
Makalah ikhtisar yang menurut saya paling berguna (dan yang mengandung banyak referensi lebih lanjut) adalah:
Untuk diskusi yang lebih teoretis, saya dapat merekomendasikan:
Sebuah primer singkat tentang regresi PLS dengan univariat (alias PLS1, alias SIMPLS)y
Tujuan regresi adalah untuk memperkirakan dalam model linier . Solusi OLS menikmati banyak properti optimalitas tetapi dapat mengalami overfitting. Memang, OLS mencari yang menghasilkan korelasi tertinggi dengan . Jika ada banyak prediktor, maka selalu mungkin untuk menemukan beberapa kombinasi linier yang kebetulan memiliki korelasi tinggi dengan . Ini akan menjadi korelasi palsu, dan seperti itu biasanya akan menunjuk ke arah yang menjelaskan sedikit perbedaan dalamβy=Xβ+ϵβ=(X⊤X)−1X⊤yβXβyyβX. Petunjuk menjelaskan varians yang sangat sedikit seringkali merupakan arahan yang sangat "berisik". Jika demikian, maka meskipun pada data pelatihan, solusi OLS berkinerja baik, pada pengujian data akan jauh lebih buruk.
Untuk mencegah overfitting, seseorang menggunakan metode regularisasi yang pada dasarnya memaksa untuk menunjuk ke arah varian yang tinggi di (ini juga disebut "penyusutan" dari ; lihat Mengapa penyusutan berfungsi? ). Salah satu metode tersebut adalah regresi komponen utama (PCR) yang hanya membuang semua arah varian rendah. Metode lain (lebih baik) adalah regresi ridge yang dengan lancar menghukum arah varians rendah. Namun metode lain adalah PLS1.βXβ
PLS1 menggantikan tujuan OLS untuk menemukan yang memaksimalkan korelasi dengan tujuan alternatif untuk menemukan dengan panjang memaksimalkan kovarians yang lagi-lagi secara efektif menghukum arah varians rendah.βcorr(Xβ,y)β∥β∥=1
cov(Xβ,y)∼corr(Xβ,y)⋅var(Xβ)−−−−−−−√,
Menemukan seperti itu (sebut saja ) menghasilkan komponen PLS pertama . Seseorang dapat lebih lanjut mencari komponen PLS kedua (dan kemudian ketiga, dll.) Yang memiliki kovarian tertinggi dengan bawah batasan tidak berkorelasi dengan semua komponen sebelumnya. Ini harus dipecahkan secara iteratif, karena tidak ada solusi bentuk tertutup untuk semua komponen (arah komponen pertama hanya diberikan olehββ1z1=Xβ1yβ1X⊤ydinormalisasi menjadi satuan panjang). Ketika jumlah komponen yang diinginkan diekstraksi, regresi PLS membuang prediktor asli dan menggunakan komponen PLS sebagai prediktor baru; ini menghasilkan beberapa kombinasi linear dari mereka yang dapat dikombinasikan dengan semua untuk membentuk final .βzβiβPLS
Perhatikan bahwa:
- Jika semua komponen PLS1 digunakan, maka PLS akan setara dengan OLS. Jadi jumlah komponen berfungsi sebagai parameter regularisasi: semakin rendah angkanya, semakin kuat regularisasi.
- Jika prediktor tidak berkorelasi dan semua memiliki varian yang sama (yaitu telah diputihkan ), maka hanya ada satu komponen PLS1 dan setara dengan OLS.XX
- Vektor berat dan untuk tidak akan menjadi orthogonal, tetapi akan menghasilkan komponen yang tidak berkorelasi dan .βiβji≠jzi=Xβizj=Xβj
Semua itu dikatakan, saya tidak menyadari apa keuntungan praktis regresi PLS1 lebih regresi ridge (sedangkan yang kedua memang memiliki banyak keuntungan: itu terus-menerus dan tidak diskrit, memiliki solusi analitis, jauh lebih standar, memungkinkan ekstensi kernel dan analitis rumus untuk kesalahan validasi silang keluar-keluar, dll.)
Mengutip dari Frank & Friedman:
RR, PCR, dan PLS terlihat di Bagian 3 untuk beroperasi dengan cara yang sama. Tujuan utama mereka adalah untuk mengecilkan vektor koefisien solusi menjauh dari solusi OLS menuju arah dalam ruang variabel-prediktor dari penyebaran sampel yang lebih besar. PCR dan PLS terlihat menyusut lebih jauh dari arah penyebaran rendah daripada RR, yang memberikan penyusutan optimal (di antara penaksir linier) untuk equidirection sebelumnya. Dengan demikian PCR dan PLS membuat asumsi bahwa kebenaran cenderung memiliki keberpihakan preferensial khusus dengan arah penyebaran yang tinggi dari distribusi variabel prediktor (sampel). Hasil agak mengejutkan adalah bahwa PLS (selain) tempat peningkatan massa probabilitas pada menyelaraskan vektor koefisien benar dengan th pokok arah komponen, di manaKK adalah jumlah komponen PLS yang digunakan, sebenarnya memperluas solusi OLS ke arah itu.
Mereka juga melakukan studi simulasi yang luas dan menyimpulkan (penekanan tambang):
Untuk situasi yang dicakup oleh studi simulasi ini, orang dapat menyimpulkan bahwa semua metode yang bias (RR, PCR, PLS, dan VSS) memberikan peningkatan substansial atas OLS. [...] Dalam semua situasi, RR mendominasi semua metode lain yang dipelajari. PLS biasanya melakukan hampir sebaik RR dan biasanya mengungguli PCR, tetapi tidak terlalu banyak.
Pembaruan: Dalam komentar @cbeleites (yang bekerja di chemometrics) menyarankan dua kemungkinan keuntungan PLS dibandingkan RR:
Seorang analis dapat memiliki dugaan apriori mengenai berapa banyak komponen laten yang harus ada dalam data; ini secara efektif akan memungkinkan untuk mengatur kekuatan regularisasi tanpa melakukan cross-validation (dan mungkin tidak ada cukup data untuk melakukan CV yang andal). Sebuah seperti apriori pilihan mungkin akan lebih bermasalah di RR.λ
RR menghasilkan satu kombinasi linear tunggal sebagai solusi optimal. Sebaliknya PLS dengan mis. Lima komponen menghasilkan lima kombinasi linier yang kemudian digabungkan untuk memprediksi . Variabel asli yang sangat saling berkorelasi cenderung digabungkan menjadi komponen PLS tunggal (karena menggabungkan mereka bersama-sama akan meningkatkan istilah varians yang dijelaskan). Jadi dimungkinkan untuk menafsirkan komponen PLS individu sebagai beberapa faktor laten nyata yang mendorong . Klaimnya adalah bahwa lebih mudah untuk menginterpretasikan dll. dengan gabunganβRRβiyyβ1,β2,βPLS. Bandingkan ini dengan PCR di mana orang juga dapat melihat sebagai keuntungan bahwa komponen utama individu berpotensi ditafsirkan dan diberi makna kualitatif.