Apakah regresi linier sudah usang? [Tutup]


12

Saat ini saya berada dalam kelas regresi linier, tetapi saya tidak dapat menghilangkan perasaan bahwa apa yang saya pelajari tidak lagi relevan dalam statistik modern atau pembelajaran mesin. Mengapa begitu banyak waktu yang dihabiskan untuk melakukan inferensi pada regresi linier sederhana atau berganda ketika begitu banyak dataset menarik saat ini sering melanggar banyak asumsi regresi linier yang tidak realistis? Mengapa tidak mengajarkan inferensi pada alat yang lebih fleksibel dan modern seperti regresi menggunakan mesin vektor dukungan atau proses Gaussian? Meskipun lebih rumit daripada menemukan hyperplane di ruang, bukankah ini memberikan siswa latar belakang yang jauh lebih baik untuk mengatasi masalah zaman modern?


10
Apakah obeng membuat palu usang? Atau apakah masing-masing melakukan tugas yang berbeda?
Sycorax berkata Reinstate Monica

6
Saya memiliki multitool yang berfungsi sebagai pisau, gergaji, beberapa obeng yang berbeda, sepasang tang, dan mungkin beberapa hal lainnya, tetapi ketika saya membutuhkan salah satu dari alat itu adalah hal terakhir yang saya raih. Ini hanya berguna dalam keadaan darurat, tidak pernah menjadi "alat terbaik untuk pekerjaan itu".
Darren

7
Banyak, banyak situasi yang dihadapi oleh orang-orang nyata melibatkan set data yang sangat kecil dengan noise tinggi; dalam banyak kasus model yang lebih kompleks tidak layak sementara setidaknya sebagian kecil dari waktu model linier sederhana setidaknya dapat dipertahankan. Sementara kumpulan data besar (dan masalah terkaitnya) akan terus tumbuh sebagai proporsi dari total analisis data yang berlangsung, kumpulan data yang sangat kecil dan analisis yang relatif sederhana yang mereka andalkan tidak akan pernah hilang. Ditambah dengan itu alat yang lebih canggih dibangun langsung di atas yang lebih sederhana, tidak hanya secara historis tetapi secara konseptual.
Glen_b -Reinstate Monica

6
Selain banyak situasi di mana regresi linier adalah penggunaan praktis yang berkelanjutan, ada baiknya juga menunjukkan bahwa itu adalah dasar dalam belajar tentang kelas luas model aditif yang lebih canggih. Dalam hal itu, pertanyaan ini agak seperti bertanya apakah kalkulus membuat aritmatika menjadi usang.
Jacob Socolar

1
@Aksakal Tolong jelaskan. Bagaimana dengan penggunaan dalam optimasi Bayesian?
Mark L. Stone

Jawaban:


24

Memang benar bahwa asumsi regresi linier tidak realistis. Namun, ini berlaku untuk semua model statistik. "Semua model salah, tetapi beberapa berguna."

Saya kira Anda mendapat kesan bahwa tidak ada alasan untuk menggunakan regresi linier ketika Anda bisa menggunakan model yang lebih kompleks. Ini tidak benar, karena secara umum, model yang lebih kompleks lebih rentan terhadap overfitting, dan mereka menggunakan lebih banyak sumber daya komputasi, yang penting jika, misalnya, Anda mencoba melakukan statistik pada prosesor tertanam atau server web. Model yang lebih sederhana juga lebih mudah dipahami dan diinterpretasikan; Sebaliknya, model pembelajaran mesin yang kompleks seperti jaringan saraf cenderung berakhir sebagai kotak hitam, lebih atau kurang.

Bahkan jika regresi linier suatu hari nanti menjadi tidak lagi berguna secara praktis (yang tampaknya sangat tidak mungkin di masa mendatang), itu masih akan secara teoritis penting, karena model yang lebih kompleks cenderung membangun regresi linier sebagai fondasi. Misalnya, untuk memahami regresi logistik efek campuran yang teregulasi, Anda harus memahami regresi linier lama yang sederhana terlebih dahulu.

Ini bukan untuk mengatakan bahwa model yang lebih kompleks, lebih baru, dan lebih bersinar tidak berguna atau tidak penting. Banyak dari mereka. Tetapi model yang lebih sederhana lebih dapat diterapkan secara luas dan karenanya lebih penting, dan jelas masuk akal untuk hadir terlebih dahulu jika Anda akan menghadirkan berbagai model. Ada banyak analisis data buruk yang dilakukan hari ini oleh orang-orang yang menyebut diri mereka "ilmuwan data" atau sesuatu tetapi bahkan tidak tahu hal-hal mendasar, seperti apa interval kepercayaan sebenarnya. Jangan menjadi statistik!


Bisakah Anda mengklarifikasi apa yang Anda maksud dengan "model rumit"? Apakah OP memiliki arti yang sama?
Hatshepsut

1
@ Hatshepsut Praktis apa pun yang bukan hanya regresi linier atau kasus khusus darinya OP memberi contoh model proses SVM dan Gaussian. Saya menyebutkan model campuran, regresi logistik, dan regresi penalti. Beberapa contoh lain adalah pohon keputusan, jaringan saraf, MARS, model hierarki Bayesian, dan model persamaan struktural. Jika Anda bertanya bagaimana kami memutuskan apakah satu model lebih kompleks dari yang lain, atau apa yang sebenarnya dianggap sebagai model, itu adalah pertanyaan yang Divalidasi Silang untuk diri mereka sendiri.
Kodiologist

"Overfitting"; seperti menggunakan polinomial orde sembilan agar sesuai dengan sesuatu yang ternyata merupakan jumlah eksponensial yang berbobot. Ini sangat cocok sehingga plot mereproduksi kesalahan instrumen tepat di atas tingkat kebisingan. Saya masih bertanya-tanya apakah sebenarnya menggunakan polinomial itu akan bekerja lebih baik.
Joshua

7

Regresi linier secara umum tidak usang . Masih ada orang yang bekerja pada penelitian di sekitar metode terkait LASSO, dan bagaimana mereka berhubungan dengan beberapa pengujian misalnya - Anda dapat google Emmanuel Candes dan Malgorzata Bogdan.

Jika Anda bertanya tentang algoritma OLS pada khususnya, jawaban mengapa mereka mengajarkan ini adalah bahwa metode ini sangat sederhana sehingga memiliki solusi bentuk tertutup. Juga hanya lebih sederhana daripada regresi ridge atau versi dengan laso / elasticnet. Anda dapat membangun intuisi / bukti Anda pada solusi regresi linier sederhana dan kemudian memperkaya model dengan kendala tambahan.


3

Saya tidak berpikir regresi sudah tua, mungkin dianggap sepele untuk beberapa masalah yang saat ini dihadapi oleh para ilmuwan data, tetapi masih merupakan ABC analisis statistik. Bagaimana Anda seharusnya memahami jika SVM bekerja dengan benar jika Anda tidak tahu bagaimana model paling sederhana bekerja? Menggunakan alat sederhana seperti itu mengajarkan ANDA cara melihat ke dalam data sebelum beralih ke model rumit yang gila dan memahami secara mendalam alat mana yang dapat digunakan dalam analisis lebih lanjut dan mana yang tidak bisa. Setelah bercakap-cakap dengan seorang profesor dan kolega saya, dia memberi tahu saya bahwa murid-muridnya hebat dalam menerapkan model yang rumit tetapi mereka tidak dapat memahami apa itu leverage atau membaca plot qq-sederhana untuk memahami apa yang salah dengan data. Seringkali dalam model yang paling sederhana dan mudah dibaca berdiri keindahan.


3

Jawaban singkatnya adalah tidak . Misalnya, jika Anda mencoba model linier dengan data MNIST, Anda masih akan mendapatkan ~ 90% keakuratannya!

Jawaban panjang akan "tergantung pada domain", tetapi model linier banyak digunakan.

  • Di bidang tertentu, katakanlah, studi medis, sangat mahal untuk mendapatkan satu titik data. Dan pekerjaan analisis masih serupa dengan beberapa tahun yang lalu: regresi linier masih memainkan peran yang sangat penting.

  • Dalam pembelajaran mesin Mord, katakanlah, klasifikasi teks, model linier masih sangat penting, meskipun ada model yang lebih menarik. Ini karena model linier sangat "stabil", itu akan kurang suka terlalu cocok dengan data.

Akhirnya, model linier benar-benar merupakan blok bangunan untuk sebagian besar model lainnya. Belajar dengan baik akan bermanfaat bagi Anda di masa depan.


2

Dalam istilah praktis, regresi linier bermanfaat bahkan jika Anda juga menggunakan model yang lebih kompleks untuk pekerjaan Anda. Kuncinya adalah bahwa regresi linier mudah dipahami dan karenanya mudah digunakan untuk memahami secara konseptual apa yang terjadi dalam model yang lebih kompleks.

Saya bisa memberikan contoh aplikasi praktis dari pekerjaan langsung saya sebagai analis statistik. Jika Anda menemukan diri Anda di alam liar, tanpa pengawasan, dengan dataset besar, dan atasan Anda meminta Anda untuk menjalankan beberapa analisis di atasnya, di mana Anda mulai? Nah, jika Anda tidak terbiasa dengan dataset dan tidak memiliki gagasan yang baik tentang bagaimana berbagai fitur diharapkan saling berhubungan, maka model yang kompleks seperti yang Anda sarankan adalah tempat yang buruk untuk mulai menyelidiki.

Sebaliknya, tempat terbaik untuk memulai adalah regresi linier lama sederhana. Lakukan analisis regresi, lihat koefisien dan grafik residual. Setelah Anda mulai melihat apa yang terjadi dengan data, maka Anda dapat membuat beberapa keputusan tentang metode canggih apa yang akan Anda coba terapkan.

Saya menegaskan bahwa jika Anda hanya menancapkan data Anda ke beberapa kotak hitam model canggih seperti sklearn.svm (jika Anda suka Python), maka Anda akan memiliki keyakinan yang sangat rendah bahwa hasil Anda akan bermakna.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.