Ada rumor selama bertahun-tahun bahwa Google menggunakan semua fitur yang tersedia dalam membangun algoritme prediktifnya. Namun hingga saat ini, tidak ada penafian, penjelasan atau kertas putih telah muncul yang mengklarifikasi dan / atau membantah rumor ini. Bahkan paten mereka yang dipublikasikan pun tidak membantu dalam pemahaman. Akibatnya, tidak ada orang luar Google yang tahu apa yang mereka lakukan, sejauh yang saya ketahui.
/ * Pembaruan pada September 2019, seorang penginjil Google Tensorflow mencatat dalam sebuah presentasi yang menyatakan bahwa para insinyur Google secara teratur mengevaluasi lebih dari 5 miliar parameter untuk versi saat ini. PageRank saat ini . * /
Sebagai catatan OP, salah satu masalah terbesar dalam pemodelan prediktif adalah perpaduan antara pengujian hipotesis klasik dan spesifikasi model yang cermat vs penambangan data murni. Yang terlatih secara klasik bisa menjadi sangat dogmatis tentang perlunya "kekakuan" dalam desain dan pengembangan model. Faktanya adalah bahwa ketika dihadapkan dengan sejumlah besar kandidat prediktor dan beberapa target yang mungkin atau variabel dependen, kerangka kerja klasik tidak bekerja, tidak memegang atau memberikan panduan yang bermanfaat. Sejumlah makalah baru-baru ini menggambarkan dilema ini dari kertas Chattopadhyay dan Lipson yang brilian, Data Smashing: Mengungkap Urutan Mengintai di Data http://rsif.royalsocietypublishing.org/content/royinterface/11/101/20140826.full.pdf
Hambatan utama adalah bahwa sebagian besar algoritma perbandingan data saat ini bergantung pada seorang ahli manusia untuk menentukan 'fitur' data yang relevan untuk perbandingan. Di sini, kami mengusulkan prinsip baru untuk memperkirakan kesamaan antara sumber aliran data arbitrer, tidak menggunakan pengetahuan domain atau pembelajaran.
Untuk makalah AER tahun lalu tentang Masalah Kebijakan Prediksi oleh Kleinberg, et al.https://www.aeaweb.org/articles?id=10.1257/aer.p20151023 yang menjadikan kasus untuk penambangan dan prediksi data sebagai alat yang berguna dalam pembuatan kebijakan ekonomi, dengan mengutip contoh-contoh di mana "kesimpulan sebab akibat bukanlah pusat, atau bahkan perlu. "
Faktanya adalah, pertanyaan yang lebih besar, $ 64.000 adalah perubahan besar dalam pemikiran dan tantangan terhadap kerangka kerja pengujian hipotesis klasik yang tersirat dalam, misalnya, simposium Edge.org tentang pemikiran ilmiah "usang" ini https://www.edge.org/ tanggapan / apa-ide-ilmiah-siap-untuk-pensiun serta artikel baru-baru ini oleh Eric Beinhocker tentang "ekonomi baru" yang menyajikan beberapa proposal radikal untuk mengintegrasikan berbagai disiplin ilmu yang berbeda seperti ekonomi perilaku, teori kompleksitas, model prediksi teori pengembangan, jaringan dan portofolio sebagai platform untuk implementasi dan adopsi kebijakan https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/Tak perlu dikatakan, masalah-masalah ini jauh melampaui kekhawatiran ekonomi dan menunjukkan bahwa kita sedang mengalami perubahan mendasar dalam paradigma ilmiah. Pandangan bergeser sama mendasarnya dengan perbedaan antara reduksionisme, Pisau Cukur Occam seperti model-bangunan vs Prinsip Kelimpahan yang Luas dari Epicurus atau berbagai penjelasan yang secara kasar menyatakan bahwa jika beberapa temuan menjelaskan sesuatu, pertahankan semuanya ... https: // en. wikipedia.org/wiki/Principle_of_plenitude
Tentu saja, orang-orang seperti Beinhocker benar-benar tidak terbebani dengan masalah praktis, dalam hal parit terkait dengan solusi statistik terapan untuk paradigma yang berkembang ini. Untuk pertanyaan-pertanyaan penting dari pemilihan variabel dimensi ultra-tinggi, OP relatif tidak spesifik mengenai pendekatan yang layak untuk membangun model yang mungkin memanfaatkan, misalnya, Lasso, LAR, algoritma bertahap atau "model gajah" yang menggunakan semua informasi yang tersedia. Kenyataannya adalah bahwa, bahkan dengan AWS atau superkomputer, Anda tidak dapat menggunakan semua informasi yang tersedia pada saat yang sama - tidak ada cukup RAM untuk memuat semuanya. Apa artinya ini? Solusi telah diajukan, misalnya, Penemuan NSF dalam Kumpulan Data Kompleks atau Masif: Tema Statistik Umum untuk "membagi dan menaklukkan" algoritma untuk penambangan data besar-besaran, misalnya, Wang, kertas et al, Survei Metode Statistik dan Komputasi untuk Data Besar http://arxiv.org/pdf/1502.07989.pdf serta Leskovec, dkk. book Mining of Massive Datasets http://www.amazon.com/Mining-Massive-Datasets-Jure-Leskovec/dp/1107077230/ref=sr_1_1?ie=UTF8&qid=1464528800&sr=8-1&keywords=Mining+of+Massive+Datasets
Sekarang ada ratusan, jika tidak ribuan makalah yang berhubungan dengan berbagai aspek tantangan ini, semuanya mengusulkan mesin analitik yang sangat berbeda sebagai inti mereka dari algoritma “divide and conquer”; model "pembelajaran dalam" tanpa pengawasan; teori matriks acak diterapkan pada konstruksi kovarians masif; Model tensor Bayesian untuk klasik, regresi logistik yang diawasi, dan banyak lagi. Lima belas tahun yang lalu, perdebatan tersebut sebagian besar terfokus pada pertanyaan-pertanyaan tentang manfaat relatif dari solusi Bayesian hierarkis vs model campuran terbatas yang sering. Dalam sebuah makalah yang membahas masalah-masalah ini, Ainslie, et al.http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdfsampai pada kesimpulan bahwa pendekatan teoretis yang berbeda, dalam praktiknya, menghasilkan hasil yang sebagian besar setara dengan pengecualian masalah yang melibatkan data jarang dan / atau dimensi tinggi di mana model HB memiliki keunggulan. Hari ini dengan munculnya solusi D & C, setiap model arbitrage HB yang mungkin dinikmati secara historis telah dieliminasi.
Logika dasar dari solusi D&C ini, pada umumnya, adalah perluasan dari teknik hutan acak terkenal Breiman yang mengandalkan resampling pengamatan dan fitur-fitur bootstrap. Breiman melakukan pekerjaannya di akhir tahun 90-an dengan satu CPU ketika data besar berarti beberapa lusin pertunjukan dan beberapa ribu fitur. Pada platform multi-core paralel paralel masif saat ini, dimungkinkan untuk menjalankan algoritma yang menganalisis terabyte data yang berisi puluhan juta fitur yang membangun jutaan model mini "RF" dalam beberapa jam.
Ada sejumlah pertanyaan penting yang muncul dari semua ini. Orang harus melakukan dengan keprihatinan atas hilangnya presisi karena sifat pendekatan dari solusi ini. Masalah ini telah diatasi oleh Chen dan Xie dalam makalah mereka, A Split-and-Conquer Approach untuk Analisis Data Luar Biasa Besar http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/201212.pdf di mana mereka menyimpulkan bahwa pendekatannya tidak dapat dibedakan dari model "informasi lengkap".
Kekhawatiran kedua yang, sejauh pengetahuan saya belum ditangani secara memadai oleh literatur, berkaitan dengan apa yang dilakukan dengan hasil (yaitu, "parameter") dari jutaan model mini yang dapat diprediksi setelah penyelesaiannya. telah digulung dan diringkas. Dengan kata lain, bagaimana seseorang menjalankan sesuatu yang sederhana seperti "mencetak" data baru dengan hasil ini? Apakah koefisien model-mini akan disimpan dan disimpan atau apakah seseorang hanya menjalankan kembali algoritma d & c pada data baru?
Dalam bukunya, Numbers Rule Your World , Kaiser Fung menggambarkan dilema yang dihadapi Netflix ketika dihadapkan dengan ansambel hanya 104 model yang diserahkan oleh para pemenang kompetisi mereka. Para pemenang, memang, telah meminimalkan MSE vs semua pesaing lain, tetapi ini diterjemahkan hanya dalam beberapa peningkatan desimal akurasi pada 5-point, skala tipe rating Likert yang digunakan oleh sistem penentu film mereka. Selain itu, pemeliharaan TI yang diperlukan untuk ansambel model ini harganya jauh lebih mahal daripada penghematan yang terlihat dari "peningkatan" dalam akurasi model.
Lalu ada seluruh pertanyaan apakah "optimasi" bahkan mungkin dengan informasi sebesar ini. Sebagai contoh, Emmanuel Derman, fisikawan dan insinyur keuangan, dalam bukunya My Life as a Quant menunjukkan bahwa optimisasi adalah mitos yang tidak berkelanjutan, setidaknya dalam rekayasa keuangan.
Akhirnya, pertanyaan penting tentang kepentingan fitur relatif dengan sejumlah besar fitur belum ditangani.
Tidak ada jawaban mudah untuk pertanyaan tentang perlunya pemilihan variabel dan tantangan baru yang dibuka oleh saat ini, solusi Epicurean masih harus diselesaikan. Intinya adalah bahwa kita semua adalah ilmuwan data sekarang.
**** EDIT ***
Referensi
Chattopadhyay I, Lipson H. 2014 Penghancuran data: mengungkap urutan data yang mengintai. JR Soc. Antarmuka 11: 20140826.
http://dx.doi.org/10.1098/rsif.2014.0826
Kleinberg, Jon, Jens Ludwig, Sendhil Mullainathan dan Ziad Obermeyer. 2015. "Masalah Kebijakan Prediksi." American Economic Review, 105 (5): 491-95. DOI: 10.1257 / aer.p20151023
Edge.org, Pertanyaan Tahunan 2014: IDEA ILMIAH APA YANG SIAP UNTUK PENSIUN?
https://www.edge.org/responses/what-scientific-idea-is-ready-for-retirement
Eric Beinhocker, Bagaimana Perubahan Mendalam dalam Ekonomi Membuat Debat Kiri vs Kanan Tidak relevan, 2016, Evonomics.org.
https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/
Prinsip Epicurus dari berbagai penjelasan: simpan semua model. Wikipedia
https://www.coursehero.com/file/p6tt7ej/Epicurus-Principle-of-Multiple-Explanations-Keep-all-models-that-are-consistent/
NSF, Penemuan dalam Kumpulan Data Kompleks atau Masif: Tema Statistik Umum, Lokakarya yang didanai oleh National Science Foundation, 16-17 Oktober 2007
https://www.nsf.gov/mps/dms/documents/DiscoveryInComplexOrMassiveDatasets.pdf
Metode Statistik dan Komputasi untuk Big Data, Kertas Kerja oleh Chun Wang, Ming-Hui Chen, Elizabeth Schifano, Jing Wu, dan Jun Yan, 29 Oktober 2015
http://arxiv.org/pdf/1502.07989.pdf
Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman, Penambangan Kumpulan Data Besar, Cambridge University Press; 2 edisi (29 Desember 2014) ISBN: 978-1107077232
Matriks Kovarian Sampel Besar dan Analisis Data Dimensi Tinggi (Seri Cambridge dalam Matematika Statistik dan Probabilitas), oleh Jianfeng Yao, Shurong Zheng, Zhidong Bai, Cambridge University Press; 1 edisi (30 Maret 2015) ISBN: 978-1107065178
RICK L. ANDREWS, ANDREW AINSLIE, dan IMRAN S. CURRIM, Suatu Perbandingan Empiris dari Model Pilihan Logit dengan Representasi Heterogenitas yang Terpisah dan Kontinyu, Jurnal Riset Pemasaran, 479 Vol. XXXIX (November 2002), 479–487
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdf
Pendekatan Split-and-Conquer untuk Analisis Data Besar yang Luar Biasa, Xueying Chen dan Minge Xie, Laporan Teknis DIMACS 2012-01, Januari 2012
http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf
Kaiser Fung, Angka Mengatur Dunia Anda: Pengaruh Tersembunyi dari Probabilitas dan Statistik pada Semua yang Anda Lakukan, Pendidikan McGraw-Hill; 1 edisi (15 Februari 2010) ISBN: 978-0071626538
Emmanuel Derman, Hidupku sebagai Kuantitas: Refleksi Fisika dan Keuangan, Wiley; 1 edisi (11 Januari 2016) ISBN: 978-0470192733
* Pembaruan pada November 2017 *
Buku Nathan Kutz 2013, Pemodelan Berbasis Data & Komputasi Ilmiah: Metode untuk Sistem Kompleks & Big Data adalah perjalanan matematika dan PDE yang terfokus ke dalam pemilihan variabel serta metode dan alat pengurangan dimensi. Pengantar pemikirannya selama 1 jam yang luar biasa dapat ditemukan di video Youtube Juni 2017 Data Driven Discovery of Dynamical Systems and PDE . Di dalamnya, ia membuat referensi ke perkembangan terbaru di bidang ini. https://www.youtube.com/watch?feature=youtu.be&v=Oifg9avnsH4&app=desktop