Data konsentrasi kimia sering memiliki nol, tetapi ini tidak mewakili nilai nol : mereka adalah kode yang beragam (dan membingungkan) mewakili kedua tidak terdeteksi (pengukuran ditunjukkan, dengan tingkat kemungkinan tinggi, bahwa analit tidak ada) dan "tidak dikuantifikasi" nilai (pengukuran mendeteksi analit tetapi tidak dapat menghasilkan nilai numerik yang dapat diandalkan). Anggap saja "ND" ini samar-samar di sini.
Biasanya, ada batas yang terkait dengan ND yang dikenal sebagai "batas deteksi," "batas kuantitasi," atau (jauh lebih jujur) "batas pelaporan," karena laboratorium memilih untuk tidak memberikan nilai numerik (sering untuk legal alasan). Tentang semua yang kita benar-benar ketahui tentang ND adalah bahwa nilai sebenarnya cenderung kurang dari batas yang terkait: hampir (tetapi tidak cukup) merupakan bentuk sensor kiri1.3301.330.50.1
Penelitian ekstensif telah dilakukan selama 30 tahun terakhir tentang cara terbaik untuk meringkas dan mengevaluasi dataset tersebut. Dennis Helsel menerbitkan buku tentang ini, Nondetects and Data Analysis (Wiley, 2005), mengajarkan kursus, dan merilis R
paket berdasarkan beberapa teknik yang ia sukai. Nya situs komprehensif.
Bidang ini penuh dengan kesalahan dan kesalahpahaman. Helsel jujur tentang ini: di halaman pertama bab 1 dari bukunya ia menulis,
... metode yang paling umum digunakan dalam studi lingkungan saat ini, penggantian setengah dari batas deteksi, BUKAN metode yang masuk akal untuk menafsirkan data yang disensor.
Jadi, apa yang harus dilakukan? Pilihannya termasuk mengabaikan nasihat yang baik ini, menerapkan beberapa metode dalam buku Helsel, dan menggunakan beberapa metode alternatif. Itu benar, buku itu tidak komprehensif dan alternatif yang valid memang ada. Menambahkan konstanta ke semua nilai dalam dataset ("memulai" mereka) adalah satu. Tapi pertimbangkan:
111
0
Alat yang sangat baik untuk menentukan nilai awal adalah plot probabilitas lognormal: selain dari ND, data harus sekitar linier.
Pengumpulan ND juga dapat digambarkan dengan apa yang disebut distribusi "delta lognormal". Ini adalah campuran massa titik dan lognormal.
Sebagaimana terbukti dalam histogram nilai simulasi berikut, distribusi yang disensor dan delta tidak sama. Pendekatan delta paling berguna untuk variabel penjelas dalam regresi: Anda dapat membuat variabel "dummy" untuk menunjukkan ND, mengambil logaritma dari nilai yang terdeteksi (atau mentransformasikannya sesuai kebutuhan), dan tidak khawatir tentang nilai penggantian untuk ND. .
Dalam histogram ini, sekitar 20% dari nilai terendah telah digantikan oleh nol. Untuk perbandingan, semuanya didasarkan pada 1000 nilai lognormal yang disimulasikan yang disimulasikan (kiri atas). Distribusi delta dibuat dengan mengganti 200 nilai dengan nol secara acak . Distribusi yang disensor dibuat dengan mengganti 200 nilai terkecil dengan nol. Distribusi "realistis" sesuai dengan pengalaman saya, yaitu bahwa batas pelaporan sebenarnya bervariasi dalam praktiknya (bahkan ketika itu tidak ditunjukkan oleh laboratorium!): Saya membuatnya berbeda secara acak (hanya sedikit, jarang lebih dari 30 dalam salah satu arah) dan mengganti semua nilai simulasi kurang dari batas pelaporannya dengan nol.
Untuk menunjukkan kegunaan plot probabilitas dan untuk menjelaskan interpretasinya , gambar berikut menampilkan plot probabilitas normal yang terkait dengan logaritma dari data sebelumnya.
log(1+0)=0) diplot terlalu rendah. Kiri bawah adalah plot probabilitas untuk dataset yang disensor dengan nilai awal 120, yang dekat dengan batas pelaporan tipikal. Kesesuaian di kiri bawah sekarang layak - kami hanya berharap bahwa semua nilai ini mendekati, tetapi di sebelah kanan, garis yang pas - tetapi kelengkungan di ekor atas menunjukkan bahwa menambahkan 120 mulai mengubah bentuk distribusi. Kanan bawah menunjukkan apa yang terjadi pada data delta-lognormal: ada kecocokan yang baik untuk ekor atas, tetapi beberapa kelengkungan diucapkan dekat batas pelaporan (di tengah plot).
Akhirnya, mari kita jelajahi beberapa skenario yang lebih realistis:
Kiri atas menunjukkan dataset tersensor dengan nol diatur ke setengah batas pelaporan. Ini sangat cocok. Di kanan atas adalah dataset yang lebih realistis (dengan batas pelaporan yang berbeda-beda secara acak). Nilai awal 1 tidak membantu, tetapi - di kiri bawah - untuk nilai awal 120 (dekat kisaran atas batas pelaporan) kecocokannya cukup baik. Menariknya, kelengkungan di dekat tengah ketika titik-titik naik dari ND ke nilai-nilai yang dikuantifikasi mengingatkan pada distribusi delta lognormal (walaupun data ini tidak dihasilkan dari campuran seperti itu). Di kanan bawah adalah plot probabilitas yang Anda dapatkan ketika data realistis memiliki ND mereka diganti dengan setengah dari batas pelaporan (khas). Ini paling cocok, meskipun itu menunjukkan beberapa perilaku seperti delta-lognormal di tengah.
Jadi, yang harus Anda lakukan adalah menggunakan plot peluang untuk menjelajahi distribusi karena berbagai konstanta digunakan sebagai pengganti ND. Mulai pencarian dengan setengah dari batas nominal, rata-rata, pelaporan, lalu variasikan dari atas ke bawah. Pilih plot yang terlihat seperti kanan bawah: kira-kira garis lurus diagonal untuk nilai-nilai yang dikuantifikasi, drop-off cepat ke dataran tinggi rendah, dan dataran tinggi nilai-nilai yang (hampir pas-pasan) memenuhi perluasan diagonal. Namun, mengikuti saran Helsel (yang sangat didukung dalam literatur), untuk ringkasan statistik aktual, hindari metode apa pun yang menggantikan ND dengan konstanta apa pun. Untuk regresi, pertimbangkan untuk menambahkan variabel dummy untuk menunjukkan ND. Untuk beberapa tampilan grafis, penggantian ND konstan dengan nilai yang ditemukan dengan latihan plot probabilitas akan bekerja dengan baik. Untuk tampilan grafis lainnya, penting untuk menggambarkan batas pelaporan yang sebenarnya, jadi gantilah ND dengan batas pelaporannya. Anda harus fleksibel!