Pertanyaan yang diberi tag «out-of-sample»

Mengacu pada praktik menilai performa model pada beberapa kumpulan data "pengujian" atau "pisahan" atau "di luar sampel" yang tidak digunakan untuk pembuatan model.

8
Bagaimana saya bisa membantu memastikan data pengujian tidak bocor ke dalam data pelatihan?
Misalkan kita memiliki seseorang yang membangun model prediktif, tetapi seseorang belum tentu berpengalaman dalam prinsip-prinsip statistik atau pembelajaran mesin yang tepat. Mungkin kita membantu orang itu saat mereka sedang belajar, atau mungkin orang itu menggunakan semacam paket perangkat lunak yang membutuhkan pengetahuan minimal untuk digunakan. Sekarang orang ini mungkin sangat …

4
Sudahkah jurnal Science mendukung Analisis Garden of Forking Pathes?
Gagasan analisis data adaptif adalah Anda mengubah rencana Anda untuk menganalisis data saat Anda belajar lebih banyak tentangnya. Dalam kasus analisis data eksplorasi (EDA), ini umumnya merupakan ide yang baik (Anda sering mencari pola yang tidak terduga dalam data), tetapi untuk studi konfirmasi, ini diterima secara luas sebagai metode analisis …

5
Cara baru penambangan data yang revolusioner?
Kutipan berikut berasal dari Schwager's Hedge Fund Market Wizzards (Mei 2012), sebuah wawancara dengan manajer dana lindung nilai yang sukses secara konsisten Jaffray Woodriff: Untuk pertanyaan: "Apa kesalahan terburuk yang dilakukan orang dalam penambangan data?": Banyak orang berpikir mereka baik-baik saja karena mereka menggunakan data dalam sampel untuk pelatihan dan …


1
Apakah papan peringkat pribadi Kaggle merupakan prediktor yang baik untuk kinerja out-of-sample dari model pemenang?
Sementara hasil dari set tes pribadi tidak dapat digunakan untuk memperbaiki model lebih lanjut, bukankah pemilihan model dari sejumlah besar model yang dilakukan berdasarkan hasil set tes pribadi? Tidakkah Anda, melalui proses itu sendiri, berakhir overfitting ke set tes pribadi? Menurut "Pseudo-Matematika dan Charlatanisme Keuangan: Pengaruh Overtest Overfitting pada Out-of-Sample …

4
Model prediksi: statistik tidak mungkin mengalahkan pembelajaran mesin? [Tutup]
Ditutup . Pertanyaan ini perlu lebih fokus . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga berfokus pada satu masalah hanya dengan mengedit posting ini . Ditutup 2 tahun yang lalu . Saat ini saya mengikuti program magister yang berfokus pada statistik / ekonometrika. Di master …

3
Mengapa metode ketidaksepakatan (memisahkan data menjadi pelatihan dan pengujian) digunakan dalam statistik klasik?
Dalam paparan kelas saya untuk data mining, metode ketidaksepakatan diperkenalkan sebagai cara menilai kinerja model. Namun, ketika saya mengambil kelas pertama saya pada model linear, ini tidak diperkenalkan sebagai sarana validasi atau penilaian model. Penelitian online saya juga tidak menunjukkan adanya persimpangan. Mengapa metode ketidaksepakatan tidak digunakan dalam statistik klasik?


4
Apa cara yang lebih tepat untuk membuat set penahan: untuk menghapus beberapa mata pelajaran atau untuk menghapus beberapa pengamatan dari setiap mata pelajaran?
Saya memiliki dataset dengan 26 fitur dan 31000 baris. Ini adalah dataset dari 38 subjek. Ini untuk sistem biometrik. Jadi saya ingin dapat mengidentifikasi mata pelajaran. Untuk memiliki set pengujian, saya tahu saya harus menghapus beberapa nilai. Jadi apa yang lebih baik untuk dilakukan dan mengapa? (a) simpan 30 subjek …


2
A '' variabel signifikan '' yang tidak meningkatkan prediksi out-of-sample - bagaimana menafsirkan?
Saya punya pertanyaan yang menurut saya akan sangat mendasar bagi banyak pengguna. Saya menggunakan model regresi linier untuk (i) menyelidiki hubungan beberapa variabel penjelas dan variabel respons saya dan (ii) memprediksi variabel respons saya menggunakan variabel penjelas. Satu variabel penjelas X tertentu tampaknya secara signifikan mempengaruhi variabel respons saya. Untuk …



Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.