Apakah lebih baik melakukan analisis data eksplorasi hanya pada set data pelatihan?

15

Saya sedang melakukan analisis data eksplorasi (EDA) pada dataset. Kemudian saya akan memilih beberapa fitur untuk memprediksi variabel dependen.

Pertanyaannya adalah:
Apakah saya harus melakukan EDA hanya pada dataset pelatihan saya? Atau haruskah saya bergabung dengan pelatihan dan menguji kumpulan data kemudian melakukan EDA pada keduanya dan memilih fitur berdasarkan analisis ini?

— Aboelnour
sumber

6

Saya akan merekomendasikan untuk melihat "7.10.2 Cara yang Salah dan Benar untuk Melakukan Cross-validasi" di http://statweb.stanford.edu/~tibs/ElemStatLearn/printings/ESLII_print10.pdf .

Penulis memberikan contoh di mana seseorang melakukan hal berikut:

Saring prediktor: temukan subkelompok prediktor “baik” yang menunjukkan korelasi yang cukup kuat (univariat) dengan label kelas
Dengan hanya menggunakan subkumpulan prediktor ini, buatlah penggolong multivarian.
Gunakan cross-validation untuk memperkirakan parameter tuning yang tidak diketahui dan untuk memperkirakan kesalahan prediksi model akhir

Ini terdengar sangat mirip dengan melakukan EDA pada semua (yaitu pelatihan plus tes) data Anda dan menggunakan EDA untuk memilih prediktor "baik".

Para penulis menjelaskan mengapa ini bermasalah: tingkat kesalahan yang divalidasi silang akan sangat rendah, yang mungkin menyesatkan Anda untuk berpikir Anda telah menemukan model yang baik.

— Adrian
sumber

1

Jadi Anda ingin mengidentifikasi variabel independen yang berpengaruh pada variabel dependen Anda?

Kemudian, kedua pendekatan Anda sebenarnya tidak benar-benar direkomendasikan.

Setelah mendefinisikan pertanyaan penelitian Anda, Anda harus mengembangkan teori Anda. Dengan kata lain, bahwa dengan menggunakan literatur, Anda harus mengidentifikasi variabel yang harus memiliki efek (Anda harus dapat menjelaskan alasannya).

— Peter Clark
sumber

6

Walaupun pandangan ini sepertinya setuju dengan konsep klasik dari uji statistik (dan karena itu sangat menyakitkan untuk tidak setuju), ada banyak masalah modern yang tidak memungkinkan. Misalnya, Anda ingin melihat apakah ada dari 20.000 gen penyandi protein yang dikaitkan dengan penyakit turunan baru. Tidak ada latar belakang yang akan mempersiapkan Anda, tidak ada cara untuk "datang dengan teori" dan EDA adalah satu-satunya cara untuk memulai. Dan jika Anda memiliki cukup data untuk EDA dan analisis konfirmasi, Anda sebenarnya bisa mendapatkan suatu tempat.

— Cliff AB

3

"Anda harus mengembangkan teori Anda" - itu ide yang bagus, tetapi tidak selalu mungkin, terutama di industri. Terkadang, Anda terus saja melakukan peramalan tanpa mengembangkan teori apa pun

— Aksakal

1

Menerapkan EDA pada data uji adalah salah.

Pelatihan adalah proses melihat jawaban yang benar untuk menciptakan model terbaik. Proses ini tidak hanya terbatas pada menjalankan kode pada data pelatihan. Menggunakan informasi dari EDA untuk memutuskan model mana yang akan digunakan, untuk mengubah parameter, dan sebagainya adalah bagian dari proses pelatihan dan karenanya tidak boleh diizinkan mengakses data uji. Jadi jujur pada diri sendiri, gunakan data uji hanya untuk memeriksa kinerja model Anda.

Juga, jika Anda menyadari bahwa model tidak berkinerja baik selama pengujian dan kemudian Anda kembali menyesuaikan model Anda, maka itu juga tidak baik. Alih-alih, bagi data pelatihan Anda menjadi dua. Gunakan satu untuk pelatihan dan lainnya untuk menguji dan mengubah model Anda. Lihat Apa perbedaan antara set tes dan set validasi?

— tilish
sumber

0

Setelah paragraf jawaban ini . Lebih lanjut Hastie menjelaskan hal.245 :

"Berikut adalah cara yang benar untuk melakukan validasi silang dalam contoh ini:

Bagilah sampel menjadi lipatan validasi silang K (kelompok) secara acak.

Untuk setiap lipatan k = 1, 2,. . . , K
(a) Temukan subset dari prediktor "baik" yang menunjukkan korelasi yang cukup kuat (univariat) dengan label kelas, menggunakan semua sampel kecuali yang di flip k.
(B) Hanya menggunakan subset prediktor ini, membangun classifier multivariat, menggunakan semua sampel kecuali yang di flip k.
(c) Gunakan penggolong untuk memprediksi label kelas untuk sampel dalam lipatan k. "

— pengguna2672299
sumber

-3

Anda melakukan EDA di seluruh kumpulan data. Misalnya, jika Anda menggunakan validasi silang satu-keluar , bagaimana Anda akan melakukan EDA hanya pada kumpulan data pelatihan ? Dalam hal ini setiap pengamatan adalah pelatihan dan ketidaksepakatan setidaknya sekali.

Jadi, tidak, Anda membentuk pemahaman Anda tentang data pada seluruh sampel. Jika Anda berada dalam pengaturan industri, itu bahkan lebih jelas. Anda diharapkan menunjukkan tren dan deskripsi umum data kepada para pemangku kepentingan di perusahaan, dan Anda melakukannya pada seluruh sampel.

— Aksakal
sumber