Maksud saya beberapa variabel tersebut sangat berkorelasi di antara mereka. Bagaimana / mengapa / dalam konteks apa kita mendefinisikannya sebagai variabel independen ?
Maksud saya beberapa variabel tersebut sangat berkorelasi di antara mereka. Bagaimana / mengapa / dalam konteks apa kita mendefinisikannya sebagai variabel independen ?
Jawaban:
Jika kita menarik kembali dari penekanan hari ini pada pembelajaran mesin dan mengingat berapa banyak analisis statistik dikembangkan untuk studi eksperimental terkontrol, frase "variabel independen" masuk akal.
Dalam studi eksperimental terkontrol, pilihan obat dan konsentrasinya, atau pilihan pupuk dan jumlah per acre, dibuat secara independen oleh peneliti. Yang menjadi perhatian adalah bagaimana variabel respons yang diminati (misalnya, tekanan darah, hasil panen) bergantung pada manipulasi eksperimental ini. Idealnya, karakteristik variabel independen ditentukan secara ketat, dengan dasarnya tidak ada kesalahan dalam mengetahui nilai-nilai mereka. Kemudian regresi linier standar, misalnya, memodelkan perbedaan antara nilai-nilai variabel dependen dalam hal nilai-nilai variabel independen ditambah kesalahan residual.
Formalisme matematika yang sama digunakan untuk regresi dalam konteks studi eksperimental terkontrol juga dapat diterapkan untuk analisis set data yang diamati dengan sedikit atau tidak ada manipulasi eksperimental, jadi mungkin tidak mengherankan bahwa frase "variabel independen" telah dibawa ke jenis seperti studi. Tetapi, sebagaimana dicatat oleh orang lain di halaman ini, itu mungkin pilihan yang tidak menguntungkan, dengan "prediktor" atau "fitur" yang lebih tepat dalam konteks seperti itu.
Dalam banyak hal, "variabel independen" adalah pilihan yang tidak menguntungkan. Variabel tidak perlu independen satu sama lain, dan tentu saja tidak perlu menjadi independen dari variabel dependen . Dalam mengajar dan dalam buku saya Strategi Pemodelan Regresi, saya menggunakan kata prediktor . Dalam beberapa situasi kata itu tidak cukup kuat, tetapi rata-rata berfungsi dengan baik. Deskripsi lengkap tentang peran variabel (sisi kanan) dalam model statistik mungkin terlalu lama untuk digunakan setiap kali: set variabel atau pengukuran yang mendasari distribusi dikondisikan. Ini adalah cara lain untuk mengatakan himpunan variabel yang distribusinya saat ini tidak kami minati, tetapi yang nilainya kami perlakukan sebagai konstanta.X Y
Saya setuju dengan jawaban lain di sini bahwa "independen" dan "tergantung" adalah terminologi yang buruk. Seperti yang dijelaskan oleh EdM , terminologi ini muncul dalam konteks percobaan terkontrol di mana peneliti dapat mengatur regresi secara independen satu sama lain. Ada banyak istilah yang lebih disukai yang tidak memiliki konotasi kausal yang dimuat ini, dan dalam pengalaman saya, ahli statistik cenderung lebih suka istilah yang lebih netral. Ada banyak istilah lain yang digunakan di sini, termasuk yang berikut:
Secara pribadi, saya menggunakan istilah variabel penjelas, dan variabel respons, karena istilah-istilah itu tidak memiliki konotasi independensi atau kontrol statistik, dll. (Orang mungkin berpendapat bahwa 'respons' memiliki konotasi kausal, tetapi ini adalah konotasi yang cukup lemah, jadi saya belum menemukannya bermasalah.)
Untuk menambah jawaban Frank Harrell dan Peter Flom:
Saya setuju bahwa memanggil variabel "independen" atau "dependen" sering menyesatkan. Tetapi beberapa orang masih melakukan itu. Saya pernah mendengar jawaban mengapa:
Dalam analisis regresi kita memiliki satu "khusus" variabel (biasanya dilambangkan dengan ) dan banyak "tidak begitu istimewa" variabel ( 's) dan kami ingin melihat bagaimana perubahan ' s mempengaruhi . Dengan kata lain, kita ingin melihat bagaimana tergantung pada s'.X X Y Y X
Itu sebabnya disebut "tergantung". Dan jika seseorang disebut "tergantung" bagaimana Anda akan memanggil yang lain?
"Dependent" dan "independent" bisa membingungkan. Satu pengertian pseudo-kausal atau bahkan kausal dan ini adalah yang dimaksud ketika mengatakan "variabel independen" dan "variabel dependen". Maksud kami, DV, dalam beberapa hal, tergantung pada IV. Jadi, misalnya, ketika memodelkan hubungan tinggi dan berat pada manusia dewasa, kita katakan berat adalah DV dan tinggi adalah IV.
Ini memang menangkap sesuatu yang "prediksi" tidak - yaitu, arah hubungan. Tinggi memprediksi berat, tetapi berat juga memprediksi tinggi. Artinya, jika Anda diminta menebak ketinggian orang dan diberi bobot, itu akan berguna.
Tetapi kami tidak akan mengatakan bahwa ketinggian tergantung pada berat.
Berdasarkan jawaban di atas, ya, saya setuju bahwa variabel dependen dan independen ini adalah terminologi yang lemah. Tapi saya bisa menjelaskan konteks di mana itu digunakan oleh banyak dari kita. Anda mengatakan bahwa untuk masalah regresi umum kami memiliki variabel Output, katakanlah Y, yang nilainya tergantung pada variabel input lainnya, katakanlah x1, x2, x3. Itulah sebabnya ia disebut "Variabel Dependen". Dan sama tergantung pada konteks ini saja , dan hanya untuk membedakan antara Output dan Input Variabel, x1, x2, x3 disebut sebagai variabel independen. Karena tidak seperti Y, itu tidak tergantung pada variabel lain (Tapi ya di sini kita tidak berbicara tentang ada ketergantungan dengan diri mereka sendiri.)
Variabel independen disebut independen karena mereka tidak bergantung pada variabel lain. Misalnya, perhatikan masalah prediksi harga rumah. Asumsikan kita memiliki data tentang house_size, lokasi, dan house_price. Di sini, house_price ditentukan berdasarkan pada house_size dan lokasi tetapi lokasi dan house_size dapat bervariasi untuk rumah yang berbeda.