Yang Anda butuhkan adalah tinjauan yang solid tentang metodologi regresi. Namun, pertanyaan-pertanyaan ini cukup mendasar (jangan anggap itu salah) sehingga bahkan gambaran umum statistik dasar yang baik mungkin akan menguntungkan Anda. Howell telah menulis buku teks yang sangat populer yang memberikan landasan konseptual yang luas tanpa memerlukan matematika yang padat. Mungkin sepadan dengan waktu Anda untuk membacanya. Semua materi itu tidak mungkin dibahas di sini. Namun, saya dapat mencoba untuk memulai beberapa pertanyaan spesifik Anda.
Pertama, hari dalam seminggu dimasukkan melalui skema pengkodean. Yang paling populer adalah pengkodean 'kategori referensi' (biasanya disebut pengkodean dummy). Mari kita bayangkan bahwa data Anda direpresentasikan dalam sebuah matriks, dengan kasing Anda di baris dan variabel Anda di kolom. Dalam skema ini, jika Anda memiliki 7 variabel kategori (mis., Untuk hari dalam seminggu) Anda akan menambahkan 6 kolom baru. Anda akan memilih satu hari sebagai kategori referensi, umumnya yang dianggap sebagai default. Seringkali ini diinformasikan oleh teori, konteks, atau pertanyaan penelitian. Saya tidak tahu mana yang terbaik untuk hari dalam seminggu, tetapi juga tidak terlalu penting, Anda bisa memilih yang lama. Setelah Anda memiliki kategori referensi, Anda bisa menetapkan yang lain ke 6 variabel baru Anda, lalu Anda cukup menunjukkan apakah variabel itu diperoleh untuk setiap kasus. Misalnya, Anda memilih hari Minggu sebagai kategori referensi, kolom / variabel baru Anda adalah Senin-Sabtu. Setiap pengamatan yang terjadi pada hari Senin akan ditandai dengan a0 1 01 di kolom Senin, dan tempat lain. Hal yang sama akan terjadi dengan pengamatan pada hari Selasa dan seterusnya. Perhatikan bahwa tidak ada case yang bisa mendapatkan dalam 2 kolom atau lebih, dan bahwa pengamatan yang terjadi pada hari Minggu (kategori referensi) akan memiliki dalam semua variabel baru Anda. Ada banyak skema pengkodean lain yang mungkin, dan tautannya berfungsi dengan baik untuk memperkenalkannya. Anda dapat menguji untuk melihat apakah hari dalam seminggu penting dengan menguji model bersarang dengan semua 6 variabel baru turun vs model lengkap dengan semua 6 disertakan. Perhatikan bahwa Anda tidak boleh menggunakan tes yang dilaporkan dengan output standar, karena ini tidak independen dan memiliki masalah perbandingan banyak intrinsik. 010
Sudah lama sejak saya telah melihat bagaimana Excel melakukan statistik, dan saya tidak mengingatnya dengan sangat jelas, sehingga orang lain mungkin dapat membantu Anda lebih banyak di sana. Halaman ini tampaknya memiliki beberapa informasi tentang spesifikasi regresi di Excel. Saya dapat memberi tahu Anda sedikit lebih banyak tentang statistik yang biasanya dilaporkan dalam hasil regresi:
- Nilai yang mendekati menunjukkan bahwa variabel respons nilai hampir sepenuhnya dapat ditentukan oleh nilai variabel prediktor. Jelas ini akan menjadi efek yang besar , tetapi tidak jelas a-apriori bahwa ini adalah 'baik' - yang merupakan masalah yang sepenuhnya berbeda dan secara filosofis sulit. 1r1
- Tidak jelas apa yang mereka maksud dengan ' ', mengingat bahwa Anda melakukan regresi berganda (di mana biasanya tidak dilaporkan). ' ' adalah ukuran hubungan linear, bivariat , yaitu, berlaku untuk hubungan garis lurus antara (hanya) 2 variabel. Namun, dimungkinkan untuk mendapatkan nilai antara nilai prediksi dari model Anda dan nilai respons . Dalam hal ini, Anda menggunakan 2 variabel (dan jika model Anda ditentukan dengan tepat, hubungannya harus linier). Versi ini disebut 'multiple -score', tetapi jarang dibahas atau dilaporkan oleh perangkat lunak. r r r rrrrrr
- R-kuadrat hanyalah kuadrat dari (yaitu, ); itu bukan standar deviasi. Itu juga akan cenderung ke arah ketika hubungan menjadi lebih determinitif, bukan . Jadi, jika Anda berpikir mendekati adalah 'baik', Anda harus berpikir dekat dengan juga 'baik'. Namun, Anda harus tahu bahwa multiple (dan multipler × r 1 0 r 1 R 2 1 r R 2rr×r10r1R21rR2) sangat bias dalam regresi berganda. Artinya, semakin banyak prediktor yang Anda tambahkan ke model Anda, semakin tinggi statistik ini, apakah ada hubungan atau tidak. Karena itu Anda harus berhati-hati dalam menafsirkannya.
- Kadang-kadang output akan mencantumkan statistik untuk prediktor individu dan statistik untuk model secara keseluruhan, untuk menentukan 'signifikansi'. Ini adalah variabel acak yang dapat dihitung dengan uji statistik dan yang memiliki distribusi diketahui ketika derajat kebebasan ditentukan. tF
- Dengan membandingkan nilai yang direalisasikan (yaitu, nilai yang Anda temukan) terhadap distribusi yang diketahui, Anda dapat menentukan probabilitas untuk menemukan nilai yang ekstrem atau lebih ekstrem dari nilai Anda jika hipotesis nol itu benar . Probabilitas bahwa adalah -nilai . p
- Nilai- digunakan ketika Anda menguji hanya satu parameter, sedangkan nilai- dapat digunakan dalam menguji beberapa parameter (misalnya, seperti yang saya bahas di atas mengenai hari dalam seminggu). Nilai terkait dengan adalah probabilitas bahwa setidaknya parameter 'signifikan'. Cara lain untuk memikirkannya adalah, 'apakah model dengan semua parameter yang diuji oleh termasuk melakukan pekerjaan yang lebih baik dalam memprediksi respons daripada model nol'.F p F 1 FtFpF1F
- Saya menduga bahwa apa yang Anda sebut 'signifikansi ' adalah nilai- yang perlu dicocokkan atau dilampaui agar tes menjadi 'signifikan', mungkin pada tingkat 0,05.FFF
Satu hal terakhir yang perlu ditekankan adalah bahwa proses ini tidak dapat dipisahkan dari konteksnya. Untuk melakukan pekerjaan menganalisis data dengan baik, Anda harus mengingat latar belakang pengetahuan dan pertanyaan penelitian Anda. Saya menyinggung ini di atas mengenai pilihan kategori referensi. Misalnya, Anda perhatikan bahwa ukuran sepatu tidak boleh relevan, tetapi untuk Flintstones, itu mungkin! Saya hanya ingin memasukkan fakta ini, karena sepertinya sering dilupakan.