Saya mencoba untuk menemukan distribusi karakteristik yang paling tepat dari data pengukuran berulang dari jenis tertentu.
Pada dasarnya, di cabang geologi saya, kami sering menggunakan penanggalan radiometrik mineral dari sampel (bongkahan batu) untuk mengetahui berapa lama peristiwa terjadi (batu itu mendingin di bawah suhu ambang batas). Biasanya, beberapa (3-10) pengukuran akan dilakukan dari masing-masing sampel. Kemudian, mean dan standar deviasi diambil. Ini adalah geologi, sehingga usia pendinginan sampel dapat menskala dari hingga tahun, tergantung pada situasinya.
Namun, saya punya alasan untuk percaya bahwa pengukuran itu bukan Gaussian: 'Pencilan', baik dinyatakan secara sewenang-wenang, atau melalui beberapa kriteria seperti kriteria Peirce [Ross, 2003] atau uji-Q Dixon [Dean dan Dixon, 1951] , cukup adil. umum (katakanlah, 1 dalam 30) dan ini hampir selalu lebih tua, menunjukkan bahwa pengukuran ini cenderung miring. Ada alasan yang dipahami dengan baik untuk hal ini berkaitan dengan pengotor mineralogi.
Oleh karena itu, jika saya dapat menemukan distribusi yang lebih baik, yang menyertakan ekor dan kemiringan yang gemuk, saya pikir kita dapat membangun parameter lokasi dan skala yang lebih bermakna, dan tidak perlu membuang pencilan dengan begitu cepat. Yaitu jika dapat ditunjukkan bahwa jenis pengukuran ini adalah lognormal, atau log-Laplacian, atau apa pun, maka ukuran kemungkinan maksimum yang lebih dapat digunakan daripada dan , yang tidak kuat dan mungkin bias dalam kasus ini. data miring kanan sistematis.
Saya bertanya-tanya apa cara terbaik untuk melakukan ini. Sejauh ini, saya memiliki database dengan sekitar 600 sampel, dan 2-10 (atau lebih) mereplikasi pengukuran per sampel. Saya telah mencoba menormalkan sampel dengan membagi masing-masing dengan mean atau median, dan kemudian melihat histogram dari data yang dinormalisasi. Ini menghasilkan hasil yang masuk akal, dan tampaknya menunjukkan bahwa data tersebut bersifat log-Laplacian:
Namun, saya tidak yakin apakah ini cara yang tepat untuk melakukannya, atau jika ada peringatan yang tidak saya sadari yang mungkin bias hasil saya sehingga mereka terlihat seperti ini. Apakah ada yang punya pengalaman dengan hal semacam ini, dan tahu praktik terbaik?