Pertanyaan saya dapat diulangi sebagai "bagaimana menilai kesalahan pengambilan sampel menggunakan data besar", terutama untuk publikasi jurnal. Berikut adalah contoh untuk menggambarkan tantangan.
Dari kumpulan data yang sangat besar (> 100000 pasien unik dan obat yang diresepkan dari 100 rumah sakit), saya tertarik untuk memperkirakan proporsi pasien yang menggunakan obat tertentu. Sangat mudah untuk mendapatkan proporsi ini. Interval kepercayaannya (misalnya parametrik atau bootstrap) sangat ketat / sempit, karena n sangat besar. Meskipun beruntung memiliki ukuran sampel yang besar, saya masih mencari cara untuk menilai, menyajikan, dan / atau memvisualisasikan beberapa bentuk probabilitas kesalahan. Meskipun tampaknya tidak membantu (jika tidak menyesatkan) untuk menempatkan / memvisualisasikan interval kepercayaan (misalnya, 95% CI: .65878 - .65881), juga tampaknya tidak mungkin untuk menghindari beberapa pernyataan tentang ketidakpastian.
Tolong beritahu saya bagaimana menurut anda. Saya akan sangat menghargai literatur tentang topik ini; cara untuk menghindari kepercayaan berlebihan pada data bahkan dengan ukuran sampel yang besar.