Gagasan analisis data adaptif adalah Anda mengubah rencana Anda untuk menganalisis data saat Anda belajar lebih banyak tentangnya. Dalam kasus analisis data eksplorasi (EDA), ini umumnya merupakan ide yang baik (Anda sering mencari pola yang tidak terduga dalam data), tetapi untuk studi konfirmasi, ini diterima secara luas sebagai metode analisis yang sangat cacat (kecuali semua langkah-langkahnya didefinisikan dengan jelas dan direncanakan dengan baik sebelumnya).
Bahwa menjadi kata, analisis data adaptif adalah biasanya berapa banyak peneliti benar-benar melakukan analisis mereka, banyak yang cemas dari statistik. Dengan demikian, jika seseorang dapat melakukan ini dengan cara yang valid secara statistik, itu akan merevolusi praktik statistik.
Artikel Science berikut ini mengklaim telah menemukan metode untuk melakukan itu (saya minta maaf untuk paywall, tetapi jika Anda berada di universitas, Anda mungkin memiliki akses): Dwork et al, 2015, Keberadaan yang dapat digunakan kembali: Menjaga validitas dalam analisis data adaptif .
Secara pribadi, saya selalu skeptis dengan artikel statistik yang diterbitkan di Science , dan yang ini tidak berbeda. Bahkan, setelah membaca artikel dua kali, termasuk bahan tambahan, saya tidak bisa mengerti (sama sekali) mengapa penulis mengklaim bahwa metode mereka mencegah pemasangan yang berlebihan.
Pemahaman saya adalah bahwa mereka memiliki set data holdout, yang akan mereka gunakan kembali. Mereka tampaknya mengklaim dengan "mengaburkan" hasil analisis konfirmasi pada set data ketidaksesuaian, over-fitting akan dicegah (perlu dicatat bahwa fuzzing tampaknya hanya menambahkan kebisingan jika statistik yang dihitung pada data pelatihan cukup jauh). dari statistik yang dihitung pada data ketidaksepakatan ). Sejauh yang saya tahu, tidak ada alasan sebenarnya ini harus mencegah pemasangan berlebihan.
Apakah saya salah dengan apa yang penulis ajukan? Apakah ada efek halus yang saya abaikan? Atau sudahkah Sains mendukung praktik statistik terburuk hingga saat ini?