Pengalaman saya berasal dari eksperimen A / B online, di mana masalahnya biasanya kurang bertenaga studi atau mengukur hal-hal yang salah. Tetapi bagi saya, studi yang terlalu kuat menghasilkan interval kepercayaan yang lebih sempit daripada studi yang sebanding, nilai-p yang lebih rendah, dan mungkin perbedaan yang berbeda. Saya membayangkan ini bisa membuat lebih sulit untuk membandingkan studi serupa. Sebagai contoh, jika saya mengulangi penelitian yang dikuasai menggunakan kekuatan yang tepat, nilai-p saya akan lebih tinggi bahkan jika saya benar-benar mereplikasi efeknya. Ukuran sampel yang meningkat bahkan dapat menghilangkan variabilitas atau memperkenalkan variabilitas jika ada outlier yang mungkin memiliki peluang lebih tinggi untuk muncul dalam sampel yang lebih besar.
Juga, simulasi saya menunjukkan bahwa efek selain yang Anda tertarik mungkin menjadi signifikan dengan sampel yang lebih besar. Jadi, sementara nilai-p dengan benar memberi tahu Anda probabilitas bahwa hasil Anda nyata, mereka bisa nyata karena alasan selain apa yang Anda pikirkan misalnya, kombinasi peluang, beberapa efek sementara yang tidak Anda kendalikan, dan mungkin beberapa lainnya efek yang lebih kecil yang Anda perkenalkan tanpa menyadarinya. Jika studi sedikit dikuasai, risiko ini rendah. Masalahnya seringkali sulit untuk mengetahui kekuatan yang memadai misalnya, jika metrik dasar dan efek target minimum adalah tebakan atau ternyata berbeda dari yang diharapkan.
Saya juga menemukan artikel yang berpendapat bahwa sampel yang terlalu besar dapat membuat tes good-of-fit terlalu sensitif terhadap penyimpangan yang tidak penting, yang mengarah pada hasil yang berpotensi kontra-intuitif.
Yang mengatakan, saya percaya yang terbaik untuk berbuat salah di sisi kekuatan tinggi daripada rendah.