Regresi berdasarkan misalnya pada hari-hari dalam seminggu

11

Saya perlu sedikit bantuan untuk bergerak ke arah yang benar. Sudah lama sejak saya mempelajari statistik dan jargon tampaknya telah berubah.

Bayangkan bahwa saya memiliki satu set data terkait mobil seperti

Waktu perjalanan dari kota A ke kota B
Jarak dari kota A ke kota B
Ukuran mesin
Ukuran sepatu pengemudi
Membuat dan membuat model mobil
Hari dalam seminggu

Saya ingin memprediksi waktu perjalanan.

Saya membayangkan ada korelasi kuat antara waktu dan jarak dan mungkin yang lebih lemah untuk ukuran mesin (dan tidak ada untuk ukuran sepatu). Agaknya analisis regresi berganda / ANOVA adalah alat untuk digunakan. Tetapi bagaimana saya memasukkan hari dalam seminggu, karena hanya mengkodekannya sebagai hari Minggu = 1, Senin = 2 dll terasa sangat salah?

Setelah menggunakan alat regresi Excel, misalnya, bagaimana cara menginterpretasikan hasil? Agaknya jika R mendekati 1, ini bagus (walaupun jika ada banyak item data tampaknya itu bisa kecil namun masih signifikan). Tetapi beberapa sumber merujuk ke r-kuadrat yang tampaknya menjadi SD, sehingga nilai mendekati nol adalah baik. Ini juga menunjukkan t Stat, P-value, F dan Signifikansi F, apa pun itu. Adakah yang bisa merekomendasikan sumber referensi yang bagus?

regression categorical-data categorical-encoding

— Sebuah daratan
sumber

2

Sebagai catatan, pertanyaan-pertanyaan ini (tentang menafsirkan output regresi) telah ditanyakan di utas lain di sini , tetapi pertanyaan itu dirumuskan dengan sangat buruk sehingga tidak mengumpulkan balasan yang baik. Ini adalah pertanyaan mendasar yang pantas mendapat jawaban "kanonik" yang sederhana namun menyeluruh, jelas, dan dijelaskan dengan baik.

— whuber

26

Yang Anda butuhkan adalah tinjauan yang solid tentang metodologi regresi. Namun, pertanyaan-pertanyaan ini cukup mendasar (jangan anggap itu salah) sehingga bahkan gambaran umum statistik dasar yang baik mungkin akan menguntungkan Anda. Howell telah menulis buku teks yang sangat populer yang memberikan landasan konseptual yang luas tanpa memerlukan matematika yang padat. Mungkin sepadan dengan waktu Anda untuk membacanya. Semua materi itu tidak mungkin dibahas di sini. Namun, saya dapat mencoba untuk memulai beberapa pertanyaan spesifik Anda.

Pertama, hari dalam seminggu dimasukkan melalui skema pengkodean. Yang paling populer adalah pengkodean 'kategori referensi' (biasanya disebut pengkodean dummy). Mari kita bayangkan bahwa data Anda direpresentasikan dalam sebuah matriks, dengan kasing Anda di baris dan variabel Anda di kolom. Dalam skema ini, jika Anda memiliki 7 variabel kategori (mis., Untuk hari dalam seminggu) Anda akan menambahkan 6 kolom baru. Anda akan memilih satu hari sebagai kategori referensi, umumnya yang dianggap sebagai default. Seringkali ini diinformasikan oleh teori, konteks, atau pertanyaan penelitian. Saya tidak tahu mana yang terbaik untuk hari dalam seminggu, tetapi juga tidak terlalu penting, Anda bisa memilih yang lama. Setelah Anda memiliki kategori referensi, Anda bisa menetapkan yang lain ke 6 variabel baru Anda, lalu Anda cukup menunjukkan apakah variabel itu diperoleh untuk setiap kasus. Misalnya, Anda memilih hari Minggu sebagai kategori referensi, kolom / variabel baru Anda adalah Senin-Sabtu. Setiap pengamatan yang terjadi pada hari Senin akan ditandai dengan a $1$ di kolom Senin, dan tempat lain. Hal yang sama akan terjadi dengan pengamatan pada hari Selasa dan seterusnya. Perhatikan bahwa tidak ada case yang bisa mendapatkan dalam 2 kolom atau lebih, dan bahwa pengamatan yang terjadi pada hari Minggu (kategori referensi) akan memiliki dalam semua variabel baru Anda. Ada banyak skema pengkodean lain yang mungkin, dan tautannya berfungsi dengan baik untuk memperkenalkannya. Anda dapat menguji untuk melihat apakah hari dalam seminggu penting dengan menguji model bersarang dengan semua 6 variabel baru turun vs model lengkap dengan semua 6 disertakan. Perhatikan bahwa Anda tidak boleh menggunakan tes yang dilaporkan dengan output standar, karena ini tidak independen dan memiliki masalah perbandingan banyak intrinsik. $0$ $1$ $0$

Sudah lama sejak saya telah melihat bagaimana Excel melakukan statistik, dan saya tidak mengingatnya dengan sangat jelas, sehingga orang lain mungkin dapat membantu Anda lebih banyak di sana. Halaman ini tampaknya memiliki beberapa informasi tentang spesifikasi regresi di Excel. Saya dapat memberi tahu Anda sedikit lebih banyak tentang statistik yang biasanya dilaporkan dalam hasil regresi:

Nilai yang mendekati menunjukkan bahwa variabel respons nilai hampir sepenuhnya dapat ditentukan oleh nilai variabel prediktor. Jelas ini akan menjadi efek yang besar , tetapi tidak jelas a-apriori bahwa ini adalah 'baik' - yang merupakan masalah yang sepenuhnya berbeda dan secara filosofis sulit. $r$ $1$
Tidak jelas apa yang mereka maksud dengan ' ', mengingat bahwa Anda melakukan regresi berganda (di mana biasanya tidak dilaporkan). ' ' adalah ukuran hubungan linear, bivariat , yaitu, berlaku untuk hubungan garis lurus antara (hanya) 2 variabel. Namun, dimungkinkan untuk mendapatkan nilai antara nilai prediksi dari model Anda dan nilai respons . Dalam hal ini, Anda menggunakan 2 variabel (dan jika model Anda ditentukan dengan tepat, hubungannya harus linier). Versi ini disebut 'multiple -score', tetapi jarang dibahas atau dilaporkan oleh perangkat lunak. $r$ $r$ $r$ $r$ $r$
R-kuadrat hanyalah kuadrat dari (yaitu, ); itu bukan standar deviasi. Itu juga akan cenderung ke arah ketika hubungan menjadi lebih determinitif, bukan . Jadi, jika Anda berpikir mendekati adalah 'baik', Anda harus berpikir dekat dengan juga 'baik'. Namun, Anda harus tahu bahwa multiple (dan multiple $r$ $r\times r$ $1$ $0$ $r$ $1$ $R^2$ $1$ $r$ $R^2$ ) sangat bias dalam regresi berganda. Artinya, semakin banyak prediktor yang Anda tambahkan ke model Anda, semakin tinggi statistik ini, apakah ada hubungan atau tidak. Karena itu Anda harus berhati-hati dalam menafsirkannya.
Kadang-kadang output akan mencantumkan statistik untuk prediktor individu dan statistik untuk model secara keseluruhan, untuk menentukan 'signifikansi'. Ini adalah variabel acak yang dapat dihitung dengan uji statistik dan yang memiliki distribusi diketahui ketika derajat kebebasan ditentukan. $t$ $F$
Dengan membandingkan nilai yang direalisasikan (yaitu, nilai yang Anda temukan) terhadap distribusi yang diketahui, Anda dapat menentukan probabilitas untuk menemukan nilai yang ekstrem atau lebih ekstrem dari nilai Anda jika hipotesis nol itu benar . Probabilitas bahwa adalah -nilai . $p$
Nilai- digunakan ketika Anda menguji hanya satu parameter, sedangkan nilai- dapat digunakan dalam menguji beberapa parameter (misalnya, seperti yang saya bahas di atas mengenai hari dalam seminggu). Nilai terkait dengan adalah probabilitas bahwa setidaknya parameter 'signifikan'. Cara lain untuk memikirkannya adalah, 'apakah model dengan semua parameter yang diuji oleh termasuk melakukan pekerjaan yang lebih baik dalam memprediksi respons daripada model nol'. $t$ $F$ $p$ $F$ $1$ $F$
Saya menduga bahwa apa yang Anda sebut 'signifikansi ' adalah nilai- yang perlu dicocokkan atau dilampaui agar tes menjadi 'signifikan', mungkin pada tingkat 0,05. $F$ $F$

Satu hal terakhir yang perlu ditekankan adalah bahwa proses ini tidak dapat dipisahkan dari konteksnya. Untuk melakukan pekerjaan menganalisis data dengan baik, Anda harus mengingat latar belakang pengetahuan dan pertanyaan penelitian Anda. Saya menyinggung ini di atas mengenai pilihan kategori referensi. Misalnya, Anda perhatikan bahwa ukuran sepatu tidak boleh relevan, tetapi untuk Flintstones, itu mungkin! Saya hanya ingin memasukkan fakta ini, karena sepertinya sering dilupakan.

— gung - Pasang kembali Monica
sumber

5

(+1) Excel sebenarnya dapat melakukan regresi berganda dan memiliki perintah yang mampu menghasilkan tabel ringkasan standar. Mengingat kecenderungan historisnya (sangat) ceroboh dengan menghitung nilai distribusi, kemampuan harus dilihat seperti anjing Samuel Johnson : "... seekor anjing berjalan dengan kaki belakangnya. Ini tidak dilakukan dengan baik; tetapi Anda terkejut menemukan itu dilakukan sama sekali. "

— Whuber

3

Anda diakhiri dengan banyak pertanyaan yang membutuhkan regresi "pengajaran". Izinkan saya mengatakan bahwa R ^ 2 yang lebih tinggi lebih baik tetapi ada peringatan. R ^ 2 selalu naik saat Anda menambahkan variabel sehingga Anda dapat mengembangnya secara artifisial. Lihatlah tes signifikansi, lihat sisa diagnostik, dll. Sehubungan dengan hari dalam seminggu, Senin = 1, Selasa = 2, dll. Tidak akan menjadi jalan yang harus ditempuh. Yang Anda inginkan adalah variabel indikator musiman: 0/1 jika Senin, 0/1 jika Selasa, dll.

— Badgerman
sumber