Beberapa pertanyaan tentang model statistik waktu keuangan dari "orang yang belajar mesin"

Untuk menjelaskan mengapa saya memiliki pertanyaan bodoh yang akan Anda temukan di bawah ini, saya harus mengatakan bahwa saya lebih sebagai orang yang belajar mesin. Sementara saya mengerjakan masalah dalam bioinformatika, semuanya baik-baik saja. Ketika saya mendengar kata-kata seperti "regresi" atau "kurtosis dan skewness", dalam kasus pertama saya hanya tersenyum, dalam kasus kedua saya hanya membuat beberapa gerakan canggung dengan bahu saya mencoba mengatakan sesuatu seperti: "ya, saya mendengarnya, dan bahkan tahu bagaimana cara menghitungnya, tetapi mengapa ada orang yang membutuhkannya? "

Situasi berubah secara dramatis ketika tahun lalu, hanya untuk bersenang-senang, saya mencoba menerapkan pengetahuan pembelajaran mesin saya ke beberapa seri waktu keuangan.

Saya mulai dengan ide membuat Jaringan Bayesian dari sinyal yang diberikan oleh "indikator" "analisis" teknis ". Gagal. Juga agak menyenangkan untuk menemukan setidaknya dua topik dengan ide serupa di situs ini (yang menggunakan jaringan saraf alih-alih bayesian).

Selanjutnya, setelah banyak upaya, saya bisa membangun campuran kNN dan regresi simbolik yang saya latih pada data 1 jam dari 2000 hingga 2006 dan diuji pada data dari 2007. Model ini sebenarnya memberikan keuntungan besar. Tetapi kemudian ketika saya menerapkannya pada data terbaru, saya menyadari bahwa akurasinya turun drastis karena crysis ekonomi dan tidak berfungsi lagi karena sesuatu berubah di pasar dan saya membutuhkan lebih banyak data baru, yang hanya dapat saya peroleh dalam 2-5 tahun.

Nah, banyak hal yang dicoba kemudian dan jika semua ini dimulai sebagai "hanya untuk bersenang-senang", itu tidak menyenangkan lagi. Sampai saya menemukan kuliah online dari Ruey S. Tsay pada ARIMA, GARCH, TAR dan semua hal yang sama sekali baru bagi saya.

Pada dasarnya saya menemukan dunia yang sama sekali baru dan saya benar-benar menikmatinya. Saat ini saya dapat menyesuaikan model ARIMA pertama saya, dan kemudian menyetelnya untuk mengurangi rms-error dua kali dengan melihat ACF, PACF, bermain dengan musiman, dan sebagainya.

Nah, kesenangannya sudah kembali, saya sudah banyak dan saya berharap akan lebih banyak lagi. Tetapi saya punya beberapa pertanyaan dan menemukan situs yang bagus ini. Baca hampir semua topik tentang ARIMA dan teknik terkait lainnya di sini, bersama dengan banyak topik umum lainnya yang terkait dengan pendekatan serupa. Pasti akan membaca lebih banyak. Saya masih berpikir dalam kerangka pemikiran pendekatan pembelajaran mesin, yang mengarah ke banyak pertanyaan bodoh, untuk sebagian besar yang saya temukan jawabannya di situs ini.

Jadi, setelah perkenalan yang panjang ini, berikut adalah pertanyaan bodoh saya yang tersisa:

Sementara pendekatan pembelajaran mesin lebih peduli tentang menemukan "pola" dalam data saya menemukannya bertentangan dengan model statistik untuk jangka waktu keuangan yang banyak menggunakan teori random walk (yang membuat keberadaan pola setidaknya dipertanyakan). Saya menyadari bahwa deskripsi yang sangat naif dan salah, tetapi apa yang saya coba katakan adalah bahwa sebagian besar teknik pembelajaran mesin berada dalam kontradiksi konseptual dengan pendekatan statistik untuk masalah tersebut. Saya tidak mengatakan bahwa beberapa pendekatan lebih baik, saya hanya mengatakan bahwa mereka memiliki kontradiksi. Apakah itu benar dan seberapa besar kontradiksi ini?
Saya sangat menyukai deskripsi dan ide model TAR yang bagi saya terlihat seperti perkawinan pembelajaran mesin dengan statistik. Ini adalah model yang ingin saya coba selanjutnya setelah saya menambahkan GARCH ke ARIMA saya. Tapi saya punya beberapa pertanyaan tentang itu:
- TAR jelas menggunakan pendekatan statistik dan pembelajaran mesin. Jadi, dengan mengingat pertanyaan pertama saya, bukankah ada kesalahan ketika triyng menemukan pola untuk set model, yang pada dasarnya dibangun di atas teori yang tidak termasuk pola? Atau itu hanya gagasan tentang bagaimana menggabungkan dua model yang mempelajari berbagai aspek masalah yang sama, menjadi satu model yang bahkan lebih kuat?
- Saat Anda melakukan pencarian berdasarkan kata kunci "ARIMA" di situs ini, Anda akan menemukan 15 halaman topik, sedangkan untuk TAR hanya ada satu. Juga mengapa orang berhenti hanya menerapkan AR? Mengapa tidak memperluas ide ini untuk model yang lebih kompleks (seperti ARIMA)? Apakah karena TAR tidak memberikan peningkatan yang diharapkan dari AR?
Saya tahu bahwa metode MCMC dan hal-hal pembelajaran mesin lainnya saat ini sedang dicampur dengan model statistik. Saya pribadi juga penggemar berat Hidden Markov Models dan Conditional Random Fields. Apakah Anda tahu tentang campuran dari salah satu metode ini dengan model statistik?

machine-learning arima finance

— GrayR
sumber

Perhatikan bahwa ARIMA biasanya lebih tentang representasi daripada model yang berbeda dengan AR. Biasanya, Anda dapat mengatur ulang model ARIMA menjadi model AR. Saya pikir Anda mengalami masalah estimasi jika Anda tidak bisa (saya cukup yakin model seri kali non-invertible sulit untuk disesuaikan). Juga, banyak perbedaan Anda lebih pada terminologi daripada model. Random Field bersyarat pada dasarnya adalah model campuran. Model Hidden Markov sangat mirip dengan Filter Kalman, dll.

— probabilityislogic

@probabilityislogic terima kasih atas komentar Anda. Ya, saya sadar ada banyak kesamaan. Sangat menggoda bagi saya untuk mengatakan bahwa seluruh pendekatan statistik sama dengan pembelajaran mesin, sama seperti beberapa metode baru. Saya hanya takut bahwa saya akan kehilangan sesuatu yang penting dalam kasus seperti itu, jadi saya berkonsentrasi pada perbedaan, untuk menyadari lebih banyak tentang cara yang benar dan salah untuk menerapkan model ini. Mudah bagi saya untuk melihat kesamaan, itu perbedaan yang saya takut untuk lewatkan.

— GrayR

Mengenai pertanyaan 1, deret waktu tidak berurusan terutama dengan jalan-jalan acak. Rangkaian waktu stasioner memiliki struktur korelasi yang dimodelkan misalnya model ARMA. Analisis deret waktu juga melihat efek periodik dan tren (kami menyebutnya deret waktu nonstasioner). Mencari pola dalam data tidak bertentangan dengan statistik selama ada pengakuan bahwa ada pola + komponen acak dan komponen acak harus dipertimbangkan dalam analisis. Mengenai pertanyaan 2, saya tidak melihat mengapa Anda menyebut TAR campuran pembelajaran mesin dan statistik. Saya melihatnya hanya sebagai model deret waktu yang lebih rumit yang mencakup parameter ambang batas dan model 2 AR. Saya kira saya juga tidak melihat perbedaan besar antara pembelajaran mesin dan statistik. Saya melihat pembelajaran mesin sebagai bagian dari pengenalan / klasifikasi pola statistik yang berada di bawah bidang analisis multivariat. Sepertinya saya bahwa TAR dapat dengan mudah diperluas untuk menempatkan ambang batas pada model ARMA. Saya tidak tahu apakah sudah dicoba atau mengapa belum dikembangkan. Mungkin seseorang yang bekerja dengan model time series jenis ini dapat menjawab pertanyaan itu.

— Michael R. Chernick
sumber