Apa gunanya regresi univariat sebelum regresi multivariat?

13

Saat ini saya sedang mengerjakan masalah di mana kami memiliki dataset kecil dan tertarik pada efek kausalitas dari perawatan pada hasilnya.

Penasihat saya telah menginstruksikan saya untuk melakukan regresi univariat pada setiap prediktor dengan hasilnya sebagai respons, kemudian tugas pengobatan sebagai respons. Yaitu, saya diminta untuk menyesuaikan regresi dengan satu variabel pada satu waktu dan membuat tabel hasilnya. Saya bertanya "mengapa kita harus melakukan ini?", Dan jawabannya adalah sesuatu untuk efek "kami tertarik di mana prediktor terkait dengan tugas pengobatan dan hasilnya, karena ini mungkin akan menunjukkan perancu". Penasihat saya adalah ahli statistik terlatih, bukan ilmuwan dalam bidang yang berbeda, jadi saya cenderung mempercayai mereka.

Ini masuk akal, tetapi tidak jelas bagaimana menggunakan hasil analisis univariat. Tidakkah membuat pilihan pemilihan model dari ini menghasilkan bias signifikan dari perkiraan dan interval kepercayaan yang sempit? Kenapa orang harus melakukan ini? Saya bingung dan penasihat saya agak tidak jelas tentang masalah ini ketika saya membahasnya. Adakah yang punya sumber daya tentang teknik ini?

(NB: penasihat saya mengatakan kami TIDAK menggunakan nilai-p sebagai batas, tetapi kami ingin mempertimbangkan "segalanya".)

— Marcel
sumber

6

Jika dengan "regresi univariat", instruktur Anda akan termasuk menggambar sebar, maka itu memang nasihat yang bijak. Dan karena tidak ada regresi yang Anda pedulikan harus dilakukan tanpa merencanakan, Anda akan mendapatkan beberapa informasi yang bermanfaat. Lakukan semuanya sekaligus, jika Anda bisa, dengan sebar sebar, dan perlihatkan beberapa smooths yang kuat bersama mereka. Keuntungannya akan jelas ketika Anda melihat berbagai cara variabel Anda dapat berangkat dari menunjukkan hubungan linier.

— whuber

1

Bagaimana jika data respons adalah biner, dan kami menggunakan glm dengan tautan logit? Penjelasan Anda tentu mengklarifikasi untuk kasus linier, dan sekarang saya berpikir tentang hal itu, penggunaan plot pencar akan alami

— Marcel

5

Saya khawatir Anda mungkin bertanya :-). Sebenarnya, smooth yang baik masih bisa memberikan wawasan yang luar biasa. Ini membantu untuk membuat jitter tanggapan sehingga Anda dapat melihat distribusinya. Berikut adalah contoh plot seperti itu: stats.stackexchange.com/a/14501/919 . Saya menggambarkan solusi lain di stats.stackexchange.com/a/138660/919 .

— Whuber

3

Regresi univariat sebelum teknik regresi multivariabel ini disebut "pemilihan variabel yang disengaja" dalam buku Hosmer dan Lemeshow "Applied Logistic Regression"

— Great38

7

Hati-hati - variabel mungkin tidak menunjukkan hubungan dalam regresi yang tidak bervariasi, namun penting dalam hubungan multivariat.

— Glen_b -Reinstate Monica

3

Konteks sebab akibat dari analisis Anda adalah kualifikasi utama dalam pertanyaan Anda. Dalam peramalan, menjalankan regresi univariat sebelum beberapa regresi dalam semangat "metode pemilihan tujuan" yang disarankan oleh Hosmer dan Lemenshow memiliki satu tujuan. Dalam kasus Anda, ketika Anda sedang membangun model kausal, menjalankan regresi univariat sebelum menjalankan regresi berganda memiliki tujuan yang sama sekali berbeda. Biarkan saya memperluas yang terakhir.

Anda dan instruktur Anda harus memiliki grafik sebab akibat tertentu. Grafik kausal memiliki implikasi yang dapat diuji. Misi Anda adalah memulai dengan dataset yang Anda miliki, dan kembali ke model sebab-akibat yang mungkin telah menghasilkannya. Regresi univariat yang disarankannya agar Anda jalankan kemungkinan besar merupakan langkah pertama dalam proses pengujian implikasi grafik sebab-akibat yang Anda miliki. Misalkan Anda yakin bahwa data Anda dihasilkan oleh model sebab-akibat yang digambarkan dalam grafik di bawah ini. Misalkan Anda tertarik pada efek kausal D pada E. Grafik di bawah ini menunjukkan sejumlah implikasi yang dapat diuji, seperti:

E adalah D cenderung tergantung
E dan A kemungkinan tergantung
E dan C kemungkinan tergantung
E dan B cenderung tergantung
E dan N cenderung independen

Saya menyebutkan bahwa ini hanya langkah pertama dalam proses pencarian sebab-akibat karena kesenangan sebenarnya dimulai setelah Anda mulai menjalankan beberapa regresi, mengkondisikan variabel yang berbeda dan menguji apakah hasil regresi konsisten dengan implikasi grafik. Misalnya, grafik di atas menunjukkan bahwa E dan A harus independen setelah Anda mengkondisikan pada D. Dengan kata lain, jika Anda regresi E pada D dan A dan menemukan bahwa koefisien pada A tidak sama dengan nol, Anda akan menyimpulkan bahwa E tergantung pada A, setelah Anda mengkondisikan pada D, dan oleh karena itu grafik sebab akibat pasti salah. Itu bahkan akan memberi Anda petunjuk tentang bagaimana mengubah grafik kausal Anda, karena hasil regresi ini menunjukkan bahwa harus ada jalan antara A dan E yang tidak dipisahkan d oleh D.

— Statistik Warna
sumber

1

Sebelum saya mencoba menjawab, saya ingin menunjukkan bahwa tipe data dan distribusinya dapat memengaruhi cara Anda mengevaluasi / membuat regresi / mengklasifikasikannya.

Anda juga mungkin ingin mencari metode yang mungkin ingin Anda gunakan di sini oleh penasihat Anda.

Sedikit latar belakang. Meskipun menggunakan alat pemilihan model adalah suatu kemungkinan, Anda masih harus bisa mengatakan mengapa prediktor digunakan atau ditinggalkan. Alat-alat itu bisa berupa kotak hitam. Anda harus sepenuhnya memahami data Anda dan dapat menyatakan mengapa prediktor tertentu dipilih. (Terutama, saya mengasumsikan untuk proyek tesis / master.)

Misalnya, perhatikan harga rumah dan umur. Harga rumah umumnya menurun seiring bertambahnya usia. Karena itu ketika Anda melihat sebuah rumah tua dengan harga tinggi dalam data Anda, itu akan terlihat seperti pencilan yang harus dihapus tetapi bukan itu masalahnya.

Mengenai (NB: penasihat saya mengatakan bahwa kami TIDAK menggunakan nilai-p sebagai batas, tetapi kami ingin mempertimbangkan "segalanya".) Nilai-p bukanlah segalanya dan mengakhiri semua hal tetapi mereka dapat membantu . Algoritma / program penarikan terbatas dan tidak dapat melihat keseluruhan gambar.

Mengapa Anda mungkin univariat regresi pada setiap tugas prediktor / perawatan.

Ini bisa untuk membantu dalam memilih prediktor untuk dimasukkan dalam model multivariat dasar. Dari model dasar itu, Anda kemudian akan melihat apakah prediktor tersebut signifikan dan harus tetap atau jika harus dihapus dengan tujuan untuk mendapatkan model pelit.

Atau bisa juga bagi Anda untuk lebih memahami data.

— Apocryphon
sumber

1

Saya dan istri saya membeli rumah tua tetapi tidak mampu membeli rumah bersejarah, jadi contoh Anda memiliki contoh yang mudah.

— Nick Cox

Benar. Saya bermaksud membicarakan harga rumah sebenarnya. Bagaimana harga rumah umumnya turun seiring bertambahnya usia. Karena itu ketika Anda melihat sebuah rumah tua dengan harga tinggi maka akan terlihat seperti outlier yang harus dihilangkan. Saya akan mengedit titik itu. Terima kasih.

— Apocryphon

0

Saya pikir penyelia Anda meminta Anda untuk melakukan analisis data yang pertama dengan tujuan mengidentifikasi apakah ada variabel yang dapat menjelaskan sebagian kecil dari varians dalam data.

Setelah Anda menyimpulkan apakah ada variabel yang dapat menjelaskan beberapa variabilitas, maka Anda akan dapat menilai bagaimana mereka bekerja bersama, jika mereka berkolinear, atau berkorelasi satu sama lain, dll. Dalam fase eksplorasi murni untuk memiliki analisis multivariat bisa membuat penilaian pertama lebih sulit, karena dengan membangun setiap variabel Anda akan menghilangkan efek yang lain. Mungkin akan lebih sulit untuk menilai apakah ada variabel yang dapat menjelaskan variasi apa pun.

— pedrofigueira
sumber

0

Itu mungkin merupakan pendekatan untuk memahami data, tetapi pengalaman menunjukkan bahwa prediksi akan bervariasi ketika Anda menggunakan semua prediktor digabungkan dan masing-masing prediktor satu per satu. Itu hanya sesuatu yang kami mengerti dapat diprediksi data dan memahami apa yang perlu dilakukan untuk langkah-langkah masa depan.
Saya telah melihat berkali-kali ketika dengan semua variabel nilai-p mengatakan beberapa variabel tidak signifikan tetapi dengan variabel-variabel non-signifikan saja, mereka cukup signifikan. Itu karena efek campuran: bukan karena atasan Anda salah, tetapi untuk memahami data kami harus melakukan ini.

— JAbr
sumber