Kutipan berikut berasal dari Schwager's Hedge Fund Market Wizzards (Mei 2012), sebuah wawancara dengan manajer dana lindung nilai yang sukses secara konsisten Jaffray Woodriff:
Untuk pertanyaan: "Apa kesalahan terburuk yang dilakukan orang dalam penambangan data?":
Banyak orang berpikir mereka baik-baik saja karena mereka menggunakan data dalam sampel untuk pelatihan dan data tidak sampel untuk pengujian. Kemudian mereka mengurutkan model berdasarkan bagaimana kinerja mereka pada data sampel dan memilih yang terbaik untuk menguji pada data sampel keluar. Kecenderungan manusia adalah untuk mengambil model yang terus melakukan dengan baik dalam data out-of-sample dan memilih model untuk diperdagangkan. Jenis proses itu hanya mengubah data out-of-sample menjadi bagian dari data pelatihan karena itu memilih model yang melakukan yang terbaik dalam periode out-of-sample. Ini adalah salah satu kesalahan paling umum yang dilakukan orang dan salah satu alasan mengapa data mining seperti biasanya diterapkan menghasilkan hasil yang mengerikan.
Pewawancara kemudian bertanya: "Apa yang harus Anda lakukan?":
Anda dapat mencari pola di mana, rata-rata, semua model out-of-sample terus bekerja dengan baik. Anda tahu Anda baik-baik saja jika rata-rata untuk model out-of-sample adalah persentase yang signifikan dari skor in-sample. Secara umum, Anda benar-benar mendapatkan suatu tempat jika hasil out-of-sample lebih dari 50 persen dari in-sample. Model bisnis QIM tidak akan pernah berhasil jika SAS dan IBM membangun perangkat lunak pemodelan prediktif yang hebat.
Pertanyaan saya
Apakah ini masuk akal? Apa yang dia maksud Apakah Anda memiliki petunjuk - atau bahkan nama untuk metode yang diusulkan dan beberapa referensi? Atau apakah orang ini menemukan cawan suci yang tidak dipahami orang lain? Dia bahkan mengatakan dalam wawancara ini bahwa metodenya berpotensi merevolusi sains ...