Ok, peringatan yang adil - ini adalah pertanyaan filosofis yang tidak melibatkan angka. Saya telah berpikir banyak tentang bagaimana kesalahan merayap ke set data dari waktu ke waktu dan bagaimana itu harus diperlakukan oleh analis - atau jika itu benar-benar penting?
Sebagai latar belakang, saya melakukan analisis pada studi jangka panjang yang melibatkan banyak set data yang dikumpulkan oleh sekitar 25 orang selama 7-8 tahun - tidak ada yang pernah membawa semua data ke dalam struktur yang koheren (itulah pekerjaan saya). Saya telah melakukan banyak entri data (menyalin dari fotokopi notebook lab lama) dan saya terus menemukan kesalahan transkripsi kecil yang dibuat orang lain, dan juga menemukan entri data yang sulit atau tidak mungkin dibaca - kebanyakan karena tinta telah memudar seiring waktu. Saya menggunakan konteks untuk membuat 'tebakan terbaik' tentang apa yang dikatakan data dan meninggalkan data secara keseluruhan jika saya tidak yakin. Tapi saya terus berpikir tentang fakta bahwa setiap kali data disalin, frekuensi kesalahan pasti akan meningkat hingga data asli benar-benar hilang.
Jadi, ini membawa saya pada pemikiran: selain kesalahan instrumen / pengukuran, dan kesalahan perekaman, ada komponen fundamental 'kesalahan penanganan data' yang akan meningkat seiring waktu dan dengan lebih banyak penanganan data (catatan tambahan: ini mungkin hanyalah cara lain untuk menyatakan hukum ke-2 Termodinamika, bukan? Entropi data akan selalu meningkat). Konsekuensinya, saya bertanya-tanya apakah harus ada semacam 'koreksi' yang diperkenalkan untuk menjelaskan sejarah kehidupan set data (sesuatu yang mirip dengan koreksi Bonferroni)? Dengan kata lain, haruskah kita berasumsi bahwa set data yang lebih lama, atau lebih banyak disalin kurang akurat, dan jika demikian, haruskah kita menyesuaikan temuan?
Tetapi kemudian pemikiran saya yang lain adalah bahwa kesalahan adalah bagian inheren dari pengumpulan data dan penanganan data, dan karena semua tes statistik telah dikembangkan dengan data dunia nyata, mungkin sumber kesalahan ini sudah 'dihargai' untuk dianalisis?
Juga, poin lain yang layak disebutkan adalah bahwa karena kesalahan data acak, mereka jauh lebih mungkin mengurangi kekuatan temuan daripada memperbaikinya - dengan kata lain, kesalahan penanganan data akan menyebabkan kesalahan Tipe 2, bukan kesalahan Tipe 1 . Jadi, dalam banyak konteks, jika Anda menggunakan data lama / dipertanyakan dan masih menemukan efek, itu akan meningkatkan kepercayaan diri Anda bahwa efeknya nyata (karena itu cukup kuat untuk selamat dari penambahan kesalahan acak ke kumpulan data). Jadi untuk alasan itu, mungkin 'koreksi' harus pergi ke arah lain (meningkatkan level alpha yang diperlukan untuk 'temuan'), atau tidak menyusahkan kita?
Bagaimanapun, maaf karena begitu bertele-tele dan tumpul, saya tidak benar-benar yakin bagaimana mengajukan pertanyaan ini dengan lebih ringkas. Terima kasih telah bersama dengan saya.