Cara baru penambangan data yang revolusioner?

21

Kutipan berikut berasal dari Schwager's Hedge Fund Market Wizzards (Mei 2012), sebuah wawancara dengan manajer dana lindung nilai yang sukses secara konsisten Jaffray Woodriff:

Untuk pertanyaan: "Apa kesalahan terburuk yang dilakukan orang dalam penambangan data?":

Banyak orang berpikir mereka baik-baik saja karena mereka menggunakan data dalam sampel untuk pelatihan dan data tidak sampel untuk pengujian. Kemudian mereka mengurutkan model berdasarkan bagaimana kinerja mereka pada data sampel dan memilih yang terbaik untuk menguji pada data sampel keluar. Kecenderungan manusia adalah untuk mengambil model yang terus melakukan dengan baik dalam data out-of-sample dan memilih model untuk diperdagangkan. Jenis proses itu hanya mengubah data out-of-sample menjadi bagian dari data pelatihan karena itu memilih model yang melakukan yang terbaik dalam periode out-of-sample. Ini adalah salah satu kesalahan paling umum yang dilakukan orang dan salah satu alasan mengapa data mining seperti biasanya diterapkan menghasilkan hasil yang mengerikan.

Pewawancara kemudian bertanya: "Apa yang harus Anda lakukan?":

Anda dapat mencari pola di mana, rata-rata, semua model out-of-sample terus bekerja dengan baik. Anda tahu Anda baik-baik saja jika rata-rata untuk model out-of-sample adalah persentase yang signifikan dari skor in-sample. Secara umum, Anda benar-benar mendapatkan suatu tempat jika hasil out-of-sample lebih dari 50 persen dari in-sample. Model bisnis QIM tidak akan pernah berhasil jika SAS dan IBM membangun perangkat lunak pemodelan prediktif yang hebat.

Pertanyaan saya
Apakah ini masuk akal? Apa yang dia maksud Apakah Anda memiliki petunjuk - atau bahkan nama untuk metode yang diusulkan dan beberapa referensi? Atau apakah orang ini menemukan cawan suci yang tidak dipahami orang lain? Dia bahkan mengatakan dalam wawancara ini bahwa metodenya berpotensi merevolusi sains ...

data-mining curve-fitting out-of-sample

— vonjd
sumber

4

Apakah dia tidak hanya membahas kesalahan dari satu sampel terpisah (kereta dan validasi) dan mengadvokasi proses validasi silang bersarang?

— B_Miner

12

Saya akan mewaspadai siapa pun yang mengklaim wawasan mendalam yang akan merevolusi "sains".

— kardinal

2

Manajer dana lindung nilai mengklaim "pendekatan pemodelan yang lebih baik" dan melakukan sedikit pembicaraan sampah tentang kompetisi? Tidak ada yang baru di sana.

— zbicyclist

2

wow, bagaimana pertanyaan ini mendapatkan begitu banyak upvotes? Prediksi out of sample adalah masalah yang dibahas pada hari pertama dari setiap kursus pembelajaran mesin pengantar. Ada orang-orang yang tidak mengatasi prediksi out-of-sample dengan benar, tetapi tentu saja tidak ada yang bahkan memiliki petunjuk sedikit pun tentang tugas prediksi.

— user4733

Perdagangan tentu saja merupakan masalah waktu-sereis, apa yang ia katakan tampaknya bahwa validasi silang (tentu saja menggunakan data yang diketahui) tidak dapat menyelesaikan masalah perubahan struktur seiring waktu !, jadi bukan grail suci. Tetapi apa yang sebenarnya dia lakukan tidak dapat disimpulkan.

— kjetil b halvorsen

6

Apakah ini masuk akal ? Sebagian.

Apa yang dia maksud Tolong tanyakan padanya.

Apakah Anda memiliki petunjuk - atau bahkan nama untuk metode yang diusulkan dan beberapa referensi?

Validasi silang. http://en.wikipedia.org/wiki/Cross-validation_(statistics)

Atau apakah orang ini menemukan cawan suci yang tidak dipahami orang lain? Tidak.

Dia bahkan mengatakan dalam wawancara ini bahwa metodenya berpotensi merevolusi sains ... Mungkin dia lupa memasukkan referensi untuk pernyataan itu ...

— image_doctor
sumber

2

Yah, setidaknya dia menunjukkan masalah sebenarnya ...

8

Tidak yakin apakah akan ada respons "ranty" lainnya, tetapi ini milik saya.

Validasi Silang sama sekali tidak "baru". Selain itu, Validasi Silang tidak digunakan ketika solusi analitik ditemukan. Misalnya Anda tidak menggunakan validasi silang untuk memperkirakan beta, Anda menggunakan OLS atau IRLS atau solusi "optimal" lainnya.

Apa yang saya lihat sebagai celah yang sangat jelas dalam kutipan adalah tidak ada referensi untuk gagasan benar-benar memeriksa model "terbaik" untuk melihat apakah mereka masuk akal. Secara umum, model yang baik masuk akal pada tingkat intuitif. Sepertinya klaimnya adalah bahwa CV adalah peluru perak untuk semua masalah prediksi. Ada juga tidak ada pengaturan pembicaraan di tingkat yang lebih tinggi dari struktur model - apakah kita menggunakan SVM , Regression Trees , Boosting , Bagging , OLS , GLMS , GLMNS. Apakah kita mengatur variabel? Kalau begitu bagaimana? Apakah kita mengelompokkan variabel bersama? Apakah kita ingin ketahanan terhadap sparsity? Apakah kita punya pencilan? Haruskah kita memodelkan data secara keseluruhan atau dalam potongan? Ada terlalu banyak pendekatan yang harus diputuskan berdasarkan CV .

Dan aspek penting lainnya adalah sistem komputer apa yang tersedia? Bagaimana data disimpan dan diproses? Apakah ada yang hilang - bagaimana kita menjelaskan hal ini?

Dan inilah yang besar: apakah kita memiliki data yang cukup baik untuk membuat prediksi yang baik? Apakah ada variabel yang diketahui yang tidak kita miliki dalam kumpulan data kita? Apakah data kami mewakili apa pun yang kami coba prediksi?

$K$ $K-2$ lipatan data .

$n$ $p$ $n$ $p$ $n$ $p$

— probabilityislogic
sumber

9

Kata-kata kasar yang bagus. Akan jauh lebih mudah dibaca jika Anda menggunakan topi sesekali ...

— MånsT

4

Penjelasannya tentang kesalahan umum dalam penambangan data tampaknya masuk akal. Penjelasannya tentang apa yang dia lakukan tidak masuk akal. Apa yang dia maksudkan ketika dia berkata, "Secara umum, Anda benar-benar mendapatkan suatu tempat jika hasil out-of-sample lebih dari 50 persen dari in-sample."? Kemudian SAS yang mulutnya buruk dan IBM juga tidak membuatnya tampak sangat pintar. Orang-orang dapat sukses di pasar tanpa memahami statistik dan bagian dari kesuksesan adalah keberuntungan. Adalah salah untuk memperlakukan pengusaha yang sukses seolah-olah mereka adalah ahli ramalan.

— Michael R. Chernick
sumber

1

Apakah tidak cukup jelas apa yang dimaksud dengan pernyataan yang dikutip? Tergantung pada bagaimana model yang akan digunakan, apa yang dia katakan bisa sangat masuk akal. Sebagai contoh, "takeaway" utama dari tantangan Netflix tampaknya adalah kekuatan "model blending" selama seseorang memiliki sedikit kebutuhan untuk interpretabilitas. Dalam hal itu, beberapa "rata-rata" dari kinerja sampel model yang dipertimbangkan mungkin benar-benar relevan.

— kardinal

@ cardinal: Bisakah Anda membentuk jawaban dari pemikiran yang sangat menarik ini? Akan bagus, terima kasih!

— vonjd

2

@ cardinal Mungkin jelas bagi Anda tetapi kemudian jelaskan kalimat "Anda benar-benar mendapatkan suatu tempat jika hasil out-of-sample lebih dari 50 persen dari in-sample". Jika Anda mengatakan bahwa rata-rata emsemble di seluruh model bisa efektif maka tentu saja saya bisa setuju dengan itu. Meningkatkan telah terbukti berfungsi dengan baik di banyak aplikasi. Tapi saya tidak melihat dari mana komentar Woodriff keluar.

— Michael R. Chernick

2

Saya jelas tidak tahu perincian dari apa yang diklaim oleh Tuan Woodriff tetapi interpretasi saya berdasarkan kutipan ini adalah sesuatu yang efeknya: "[Dalam aplikasi saya] jika rata-rata kinerja out-of-sample [menggunakan metrik apa pun Saya anggap relevan] setidaknya setengah sebagus kinerja dalam sampel setelah pemasangan model, maka itu bermakna untuk aplikasi saya. " Saya seorang ahli matematika / ahli statistik, jadi saya perlu peringatan. Jika saya seorang manajer dana lindung nilai yang mencari pengakuan dari luar, saya mungkin lebih muluk dan absolut dalam pernyataan saya.

— kardinal

1

@ cardinal Jadi ambil tingkat kesalahan sebagai ukuran kinerja, maka Anda menafsirkan Woodriff untuk mengatakan bahwa jika tingkat kesalahan dalam sampel adalah 5% dan tingkat kesalahan sampel di luar adalah 10% maka metode ini baik? Mengapa tidak melihat saja kinerja sampel untuk diputuskan? Saya kira rasio out of sample performacne dalam kinerja sampel memberi tahu Anda sesuatu tentang seberapa dapat diandalkan / tidak dapat diandalkannya estimasi tingkat kesalahan sampel, tetapi saya tidak melihatnya masuk ke dalam evaluasi kinerja classifier. Saya masih tidak melihat di mana model blending masuk ke dalam sambutannya.

— Michael R. Chernick

4

Anda dapat mencari pola di mana, rata-rata, semua model out-of-sample terus bekerja dengan baik.

Pemahaman saya tentang pola kata sini, apakah ia berarti kondisi pasar yang berbeda. Pendekatan naif akan menganalisis semua data yang tersedia (kita semua tahu lebih banyak data lebih baik), untuk melatih model pemasangan kurva terbaik, kemudian menjalankannya pada semua data, dan berdagang dengan itu sepanjang waktu.

Manajer hedge fund dan trader algoritmik yang lebih sukses menggunakan pengetahuan pasar mereka. Sebagai contoh nyata, setengah jam pertama sesi perdagangan bisa lebih tidak stabil. Jadi mereka akan mencoba model pada semua data mereka tetapi hanya untuk setengah jam pertama itu, dan pada semua data mereka, tetapi tidak termasuk setengah jam pertama itu. Mereka mungkin menemukan bahwa dua model mereka bekerja dengan baik pada setengah jam pertama, tetapi delapan dari mereka kehilangan uang. Padahal, ketika mereka mengecualikan setengah jam pertama, tujuh model mereka menghasilkan uang, tiga kehilangan uang.

Namun, alih-alih mengambil dua model yang menang dan menggunakannya dalam setengah jam pertama perdagangan, mereka mengatakan: itu adalah waktu yang buruk untuk perdagangan algoritmik, dan kami tidak akan berdagang sama sekali. Sisa hari mereka akan menggunakan tujuh model mereka. Yaitu tampaknya pasar lebih mudah untuk diprediksi dengan pembelajaran mesin pada waktu itu, sehingga model-model tersebut memiliki lebih banyak peluang untuk dapat diandalkan di masa mendatang. (Waktu bukan satu-satunya pola hari; yang lain biasanya terkait dengan peristiwa berita, misalnya pasar lebih fluktuatif sebelum angka-angka ekonomi utama diumumkan.)

Itulah interpretasi saya tentang apa yang dia katakan; mungkin benar-benar salah, tapi saya harap ini masih merupakan makanan yang berguna untuk dipikirkan seseorang

— Darren Cook
sumber

2

Sebagai seorang profesional keuangan saya tahu konteks yang cukup bahwa pernyataan itu tidak menghadirkan ambiguitas. Serangkaian waktu keuangan sering ditandai dengan perubahan rezim, jeda struktural, dan pergeseran konsep, sehingga validasi silang seperti yang dilakukan di industri lain tidak sesukses dalam aplikasi keuangan. Pada bagian kedua ia mengacu pada metrik keuangan, baik laba atas investasi dengan rasio Sharpe (pengembalian dalam pembilang), bukan MSE atau fungsi kerugian lainnya. Jika strategi sampel menghasilkan pengembalian 10%, maka dalam perdagangan riil mungkin hanya menghasilkan 5% secara realistis. Bagian "revolusioner" pastilah tentang pendekatan analisis hak miliknya, bukan pada kutipan.

— onlyvix.blogspot.com
sumber

Pertanyaan untuk onlyvix: Apakah Anda tahu ada pekerjaan menggunakan metrik keuangan Anda sebagai alat untuk optimasi parameter, yaitu, secara langsung mengoptimalkan parameter dengan memaksimalkan metrik itu, daripada menggunakan kemungkinan maksimum?

— kjetil b halvorsen

@ kbh itu bukan metrik keuangan saya - mengoptimalkan rasio sharpe sangat umum. Salah satu contoh tepat di atas kepala saya ssrn.com/abstract=962461 - tidak ada model statistik yang tepat dikembangkan tetapi aturan perdagangan yang dibuat untuk (dalam istilah yang sangat umum) memaksimalkan pengembalian dan meminimalkan risiko.

— onlyvix.blogspot.com