Secara umum, saya pikir lebih bermanfaat secara ilmiah dan statistik untuk memulai dengan mengajukan pertanyaan yang lebih luas dan berbeda, yaitu sejauh mana respons dapat diprediksi dari prediktor sirkuler. Saya katakan melingkar di sini daripada terarah , sebagian karena yang terakhir mencakup ruang bulat dan bahkan lebih luar biasa, yang semuanya tidak dapat dicakup dalam satu jawaban; dan sebagian karena contoh Anda, waktu hari dan waktu tahun , keduanya melingkar. Contoh utama selanjutnya adalah arah kompas (relevan dengan angin, gerakan hewan atau manusia, keberpihakan, dll.), Yang muncul dalam banyak masalah melingkar: memang, bagi beberapa ilmuwan ini adalah titik awal yang lebih jelas.
Kapan pun Anda bisa melewatinya, menggunakan fungsi waktu sinus dan kosinus dalam beberapa jenis model regresi adalah metode pemodelan yang sederhana dan mudah diterapkan. Ini adalah pelabuhan panggilan pertama untuk banyak contoh biologis dan / atau lingkungan. (Kedua jenis ini sering disatukan, karena fenomena biotik yang menunjukkan musim biasanya merespons secara langsung atau tidak langsung terhadap iklim, atau terhadap cuaca.)
Untuk konkret, bayangkan pengukuran waktu lebih dari 24 jam atau 12 bulan, sehingga mis
sin[2π(hour/24)], cos[2π(hour/24)]
sin[2π(month/12)], cos[2π(month/12)]
masing-masing menggambarkan satu siklus sepanjang hari atau tahun. Tes formal tidak ada hubungan antara respons yang diukur atau dihitung dan beberapa waktu melingkar kemudian akan menjadi tes standar apakah koefisien sinus dan kosinus secara bersama-sama nol dalam model linier umum dengan sinus dan cosinus sebagai prediktor, hubungan yang sesuai dan keluarga dipilih sesuai dengan sifat responsnya.
Pertanyaan tentang distribusi respon marjinal (normal atau lainnya) adalah dalam pendekatan ini sekunder dan / atau harus ditangani oleh pilihan keluarga.
Kelebihan dari sinus dan cosinus adalah secara alami bahwa mereka periodik dan membungkus secara otomatis, sehingga nilai-nilai pada awal dan akhir setiap hari atau tahun harus satu dan sama. Tidak ada masalah dengan syarat batas, karena tidak ada batasan.
Pendekatan ini disebut regresi sirkuler, periodik, trigonometri dan Fourier. Untuk satu ulasan tutorial pengantar, lihat di sini
Dalam praktek,
Tes semacam itu biasanya menunjukkan hasil yang sangat signifikan pada tingkat konvensional setiap kali kita mengharapkan musiman. Pertanyaan yang lebih menarik adalah perkiraan kurva musiman yang tepat, dan apakah kita memerlukan model yang lebih rumit dengan istilah sinusoidal lainnya juga.
Tidak ada yang mengesampingkan prediktor lain juga, dalam hal ini kita hanya perlu model yang lebih komprehensif dengan prediktor lain termasuk, katakanlah sinus dan cosinus untuk musiman dan prediktor lain untuk segalanya.
Pada titik tertentu, tergantung bersama-sama pada data, masalah dan selera dan pengalaman peneliti, mungkin menjadi lebih alami untuk menekankan aspek rangkaian waktu dari masalah dan membangun model dengan ketergantungan waktu yang eksplisit. Memang, beberapa orang yang berpikiran statistik akan menyangkal bahwa ada cara lain untuk mendekatinya.
Apa yang dengan mudah disebut sebagai tren (tetapi tidak selalu dapat dengan mudah diidentifikasi) berada di bawah # 2 atau # 3, atau bahkan keduanya.
Banyak ekonom dan ilmuwan sosial lain yang peduli dengan musiman di pasar, ekonomi nasional dan internasional, atau fenomena manusia lainnya biasanya lebih terkesan dengan kemungkinan variabilitas yang lebih rumit dalam setiap hari atau (lebih umum) tahun. Seringkali, meskipun tidak selalu, musiman merupakan gangguan yang harus dihapus atau disesuaikan, berbeda dengan ilmuwan biologi dan lingkungan yang sering menganggap musiman sebagai hal yang menarik dan penting, bahkan menjadi fokus utama suatu proyek. Yang mengatakan, ekonom dan lain-lain juga sering mengadopsi pendekatan tipe regresi juga, tetapi dengan amunisi sejumlah variabel indikator (dummy), paling sederhana variabel untuk setiap bulan atau setiap kuartal dalam setahun0,1. Ini bisa menjadi cara praktis untuk mencoba menangkap efek dari liburan, periode liburan, efek samping tahun sekolah, dll., Serta pengaruh atau guncangan iklim atau asal cuaca. Dengan perbedaan-perbedaan tersebut dicatat, sebagian besar komentar di atas juga berlaku dalam ilmu ekonomi dan sosial.
Sikap, dan pendekatan oleh, ahli epidemiologi dan ahli statistik medis yang peduli dengan variasi dalam morbiditas, mortalitas, perawatan di rumah sakit, kunjungan klinik, dan sejenisnya, cenderung jatuh di antara kedua ekstrem ini.
Dalam pandangan saya, membagi hari atau tahun menjadi dua bagian untuk dibandingkan biasanya sewenang-wenang, buatan, dan paling tidak canggung. Itu juga mengabaikan jenis struktur halus yang biasanya ada dalam data.
EDIT Akun sejauh ini tidak membahas perbedaan antara waktu diskrit dan waktu terus menerus, tetapi saya tidak menganggap pengalaman saya sebagai masalah besar dalam praktik.
Tetapi pilihan yang tepat tergantung pada bagaimana data tiba dan pada pola perubahan.
Jika data triwulanan dan manusia, saya akan cenderung menggunakan variabel indikator (mis. Kuartal 3 dan 4 sering berbeda). Jika bulanan dan manusia, pilihannya tidak jelas, tetapi Anda harus bekerja keras untuk menjual sinus dan kosmetik kepada sebagian besar ekonom. Jika bulanan atau lebih halus dan biologis atau lingkungan, pasti sinus dan cosinus.
EDIT 2 Rincian lebih lanjut tentang regresi trigonometri
Detail khas dari regresi trigonometri (dinamai dengan cara lain jika Anda suka) adalah bahwa hampir selalu istilah sinus dan kosinus paling baik disajikan kepada model berpasangan. Kami pertama-tama skala waktu hari, waktu tahun atau arah kompas sehingga direpresentasikan sebagai sudut pada lingkaran
dalam radian, maka pada interval [ 0 , 2 π ] . Kemudian kita menggunakan banyak pasangan dosa k θ , cos k θ , k = 1 , 2 , 3 , …θ[0,2π]sinkθ,coskθ,k=1,2,3,…seperti yang dibutuhkan dalam suatu model. (Dalam statistik sirkuler, konvensi trigonometrik cenderung mengalahkan konvensi statistik, sehingga simbol-simbol Yunani seperti digunakan untuk variabel dan juga parameter.)θ,ϕ,ψ
Jika kami menawarkan sepasang prediktor seperti ke model seperti regresi, maka kami memiliki estimasi koefisien, katakanlah b 1 , b 2 , untuk istilah dalam model, yaitu b 1 sin θ , b 2 cos θ . Ini adalah cara pemasangan fase serta amplitudo sinyal periodik. Jika tidak, fungsi seperti sin ( θ + ϕ ) dapat ditulis ulang sebagaisinθ,cosθb1,b2b1sinθ,b2cosθsin(θ+ϕ)
sinθcosϕ+cosθsinϕ,
tetapi dan sin ϕ mewakili fase yang diperkirakan dalam model pas. Dengan begitu kita menghindari masalah estimasi non-linear.cosϕsinϕ
Jika kita menggunakan untuk memodelkan variasi lingkaran, maka secara otomatis maksimum dan minimum dari kurva itu adalah setengah lingkaran terpisah. Itu sering merupakan perkiraan yang sangat baik untuk variasi biologis atau lingkungan, tetapi sebaliknya kita mungkin perlu beberapa istilah lagi untuk menangkap musiman ekonomi khususnya. Itu bisa menjadi alasan yang sangat baik untuk menggunakan variabel indikator sebagai gantinya, yang langsung mengarah pada interpretasi sederhana dari koefisien.b1sinθ+b2cosθ