Apakah Nabi dari Facebook berbeda dari regresi linier?


11

Jadi apa yang saya baca tentang nabi Facebook adalah bahwa ia pada dasarnya memecah seri waktu menjadi tren dan musiman. Misalnya, model aditif akan ditulis sebagai:

y(t)=g(t)+s(t)+h(t)+et

dengan

  • t waktu
  • g(t) tren (mungkin linier atau logistik)
  • s(t) musiman (harian, mingguan, tahunan ...)
  • h(t) liburan
  • et kesalahannya

Pertanyaan saya adalah: Tidak bisakah dilakukan dengan regresi linier sederhana? Apa perbedaan dalam hal hasil jika kita membandingkannya, dan mengapa?


Ya, Anda bisa melakukan ini dengan model linier. Saya tidak tahu Nabi, tetapi jika ini yang dilakukan, maka tidak ada perbedaan.
user2974951

Jawaban:


13

Masalahnya di sini adalah untuk mendapatkan persamaan yang mem-parsing data yang diamati menjadi sinyal dan noise. Jika data Anda sederhana maka pendekatan regresi Anda mungkin berhasil. Harus diperhatikan untuk memahami beberapa asumsi yang mereka buat dengan Nabi. Anda harus lebih memahami apa yang dilakukan oleh Nabi, karena itu tidak hanya sesuai dengan model sederhana tetapi upaya untuk menambahkan beberapa struktur.

Misalnya, beberapa refleksi yang saya buat setelah membaca pengantar yang ditulis dengan baik mungkin membantu Anda dalam evaluasi Anda. Saya minta maaf sebelumnya jika saya salah memahami pendekatan mereka, dan ingin diperbaiki jika demikian.

1) Contoh utama mereka memiliki dua break-point dalam tren tetapi mereka hanya menangkap satu yang paling jelas.

2) Mereka mengabaikan setiap dan semua struktur ARIMA yang mencerminkan seri stokastik yang dihilangkan atau nilai menggunakan nilai historis Y untuk memandu perkiraan.

3) Mereka mengabaikan dinamika yang mungkin (efek lead dan lag) dari seri stokastik dan deterministik yang disarankan pengguna. Efek regresi kausal Nabi hanyalah sebaya.

4) Tidak ada upaya yang dilakukan untuk mengidentifikasi pergeseran langkah / level dalam seri atau pulsa musiman misalnya perubahan dalam EFEK SENIN setengah hari melalui waktu karena beberapa peristiwa eksternal yang tidak diketahui. Nabi mengasumsikan "pertumbuhan linier sederhana 'daripada memvalidasinya dengan memeriksa kemungkinan alternatif. Untuk contoh yang mungkin dari ini, lihat Peramalan pesanan berulang untuk bisnis berlangganan online menggunakan Facebook Prophet dan R

5) Sines dan Cosines adalah cara buram dalam berurusan dengan musiman, sementara efek musiman seperti hari-of-the-minggu, hari-of-the-bulan, minggu-of-the-bulan, bulan-of-the-tahun adalah jauh lebih efektif / informatif ketika berhadapan dengan efek antropogenik (berurusan dengan manusia!).

Menyarankan frekuensi 365,25 untuk pola tahunan tidak masuk akal karena kami tidak melakukan tindakan yang sama pada hari yang sama seperti yang kami lakukan tahun lalu, sementara aktivitas bulanan jauh lebih gigih, tetapi Nabi tampaknya tidak menawarkan 11 indikator bulanan pilihan. Frekuensi mingguan 52 tidak masuk akal karena kita tidak memiliki 52 minggu setiap tahun.

6) Tidak ada upaya yang dilakukan untuk memvalidasi proses kesalahan menjadi Gaussian sehingga tes signifikansi dapat dilakukan.

7) Tidak ada perhatian untuk varians kesalahan model menjadi homogen, yaitu, tidak berubah secara deterministik pada titik-titik waktu tertentu yang menyarankan Weighted Least Squares. Tidak ada kekhawatiran untuk menemukan transformasi daya yang optimal untuk menangani varians kesalahan yang proporsional dengan Nilai yang Diharapkan Kapan (dan mengapa) Anda harus mengambil log distribusi (angka)? .

8) Pengguna harus menentukan sebelumnya semua kemungkinan efek timbal dan kelambatan di sekitar acara / liburan. Misalnya, penjualan harian sering mulai meningkat pada akhir November, yang mencerminkan efek jangka panjang Natal.

9) Tidak ada kekhawatiran bahwa kesalahan yang dihasilkan bebas dari struktur yang menyarankan cara untuk meningkatkan model melalui pemeriksaan diagnostik untuk kecukupan.

10) Tampaknya tidak ada masalah dengan memperbaiki model dengan menghapus struktur yang tidak signifikan.

11) Tidak ada fasilitas untuk mendapatkan keluarga perkiraan simulasi di mana batas kepercayaan mungkin tidak harus simetris melalui bootstrap kesalahan model dengan kelonggaran kemungkinan anomali.

12) Membiarkan pengguna membuat asumsi tentang tren (# breakpoint tren dan breakpoint aktual) memungkinkan fleksibilitas yang tidak diinginkan / tidak dapat digunakan dalam menghadapi analisis skala besar yang namanya dirancang untuk aplikasi skala besar hands-free.


Setuju, tapi saya akan mengatakan bahwa hal-hal itu lebih dekat dengan fitur "baik untuk memiliki", maka "harus memiliki". Anda dapat memiliki model peramalan berkualitas tinggi tanpa beberapa di antaranya. Tapi, seperti yang saya katakan, poin bagus dan ulasan bagus.
Tim

Anda benar dalam refleksi Anda ... kompleksitas inheren dari "data" adalah masalah yang berkuasa. Data sederhana .. membutuhkan solusi sederhana .. data kompleks menunjukkan bahwa "nice to have" mungkin menjadi "need to have". Hanya data Anda yang tahu pasti! Pisau cukur Occam muncul di pikiran ..
IrishStat

@ Tim stats.stackexchange.com/questions/417908/... benang menunjukkan bahwa beberapa fitur yang "baik untuk memiliki" harus dalam kenyataannya menjadi "keharusan untuk memiliki" untuk menggagalkan asumsi yang tidak benar seperti "trend linear sederhana".
IrishStat

10

Saya belum menggunakannya, tetapi ini adalah abstrak pracetak mereka (penekanan milik saya):

Peramalan adalah tugas ilmu data umum yang membantu organisasi dengan perencanaan kapasitas, penetapan tujuan, dan deteksi anomali. Meskipun penting, ada tantangan serius yang terkait dengan menghasilkan prakiraan yang andal dan berkualitas tinggi - terutama ketika ada berbagai deret waktu dan analis dengan keahlian dalam pemodelan deret waktu relatif jarang . Untuk mengatasi tantangan ini, kami menggambarkan pendekatan praktis untuk memperkirakan "pada skala" yang menggabungkan model yang dapat dikonfigurasi dengan analisis kinerja analis-in-the-loop. Kami mengusulkan model regresi modular dengan parameter yang dapat ditafsirkan yang dapat disesuaikan secara intuitif oleh analis dengan pengetahuan domain tentang deret waktu. Kami menjelaskan analisis kinerja untuk membandingkan dan mengevaluasi prosedur perkiraan, dan secara otomatis menandai perkiraan untuk tinjauan manual dan penyesuaian. Alat yang membantu analis untuk menggunakan keahlian mereka secara paling efektif memungkinkan peramalan seri waktu bisnis yang andal dan praktis.

Dalam pendahuluan:

Kami telah mengamati dua tema utama dalam praktik menciptakan prakiraan bisnis. Pertama, teknik peramalan otomatis sepenuhnya bisa sulit untuk disempurnakan dan seringkali terlalu tidak fleksibel untuk memasukkan asumsi atau heuristik yang berguna. Kedua, para analis yang bertanggung jawab untuk tugas-tugas ilmu data di seluruh organisasi biasanya memiliki keahlian domain yang mendalam tentang produk atau layanan spesifik yang mereka dukung, tetapi seringkali tidak memiliki pelatihan dalam peramalan deret waktu.

Jadi bagi saya tampaknya mereka tidak mengklaim telah membuat kemajuan statistik yang substansial di sini (walaupun itu mampu jauh lebih dari model sederhana yang Anda uraikan). Sebagai gantinya, mereka mengklaim bahwa sistem mereka membuatnya layak untuk sejumlah besar orang tanpa keahlian dalam analisis deret waktu untuk menghasilkan perkiraan sambil menerapkan keahlian domain mereka sendiri dan kendala spesifik sistem.

Jika Anda sudah memiliki keahlian dalam analisis deret waktu dan pengkodean model yang rumit, ini mungkin tidak terlalu membantu Anda. Tetapi jika klaim mereka benar, ini bisa sangat berguna! Sains (dan perdagangan) berkembang tidak hanya karena ide-ide baru, tetapi juga karena alat baru dan penyebarannya (lihat artikel pendek Freeman Dyson tentang topik ini dan respons ini ).

Untuk mengambil contoh dari statistik itu sendiri: Rtidak mewakili kemajuan statistik, tetapi telah berpengaruh besar-besaran karena memudahkan banyak orang untuk melakukan analisis statistik. Sudah menjadi perancah di mana banyak pemahaman statistik telah dibangun. Jika kita beruntung, Nabi dapat memainkan peran yang sama.

Dyson, Freeman J. "Apakah sains sebagian besar didorong oleh ide atau oleh alat ?." Sains 338, tidak. 6113 (2012): 1426-1427.


0

Anda kehilangan poin perubahan, splines linier piecewise, yang dapat diimplementasikan dalam model linier.

Anda benar bahwa setidaknya dalam kasus pembatas itu adalah regresi linier yang diregulasi (L1 dan L2 regularisasi).

Perhatikan bahwa ada model nabi yang terpisah, pertumbuhan logistik.

Anda juga mengasumsikan bahwa faktor musiman bersifat aditif, tetapi mereka juga mendukung efek musiman multiplikasi, yang tampaknya lebih alami setidaknya untuk pemodelan pertumbuhan.


Asumsi nabi tentang mengambil kayu lalat dalam menghadapi diskusi yang berharga ini ... stats.stackexchange.com/questions/18844/ ... di mana transformasi daya dibenarkan berdasarkan pada hubungan empiris antara Nilai yang Diharapkan dan varians kesalahan model ATAU spesifik anggapan non-linear berdasarkan pengetahuan domain.
IrishStat

@IrishStat Terima kasih untuk titik itu (saya lupa mereka mengubah log untuk mengimplementasikan musiman multiplikasi, mereka menggunakan STAN, jadi saya percaya mereka bisa menggunakan model nonlinier daripada mengambil log). Bisakah Anda menjelaskan perbedaan Anda antara asumsi musiman multiplikasi dan 'anggapan nonlinear ..'
seanv507

Jika Anda melihat @ whuber ini jawaban stats.stackexchange.com/questions/298/... ia menyarankan transformasi "ketika teori ilmiah menunjukkan" yang akan menjadi asumsi non-linear mungkin didasarkan pada pengetahuan domain. Transformasi Empiris Power berguna ketika varians kesalahan ditemukan sebanding dengan nilai yang diharapkan jika tidak mungkin hanya "ganti jendela".
IrishStat

0

Banyak yang bisa dilakukan dengan regresi linier sederhana tetapi tidak semua yang dilakukan Nabi. Hanya satu contoh, Anda dapat menentukan kandidat titik perubahan Anda sendiri untuk tren, dan Nabi akan menggunakannya sebagai sebelumnya.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.