Saya akan menjawab poin Anda tentang simulasi dengan R karena ini adalah satu-satunya yang saya kenal. R memiliki banyak distribusi bawaan yang dapat Anda tiru. Logika penamaan adalah untuk mensimulasikan distribusi yang disebut dis
nama rdis
.
Di bawah ini adalah yang paling sering saya gunakan
# Some continuous distributions.
?rnorm
?runif
?rgamma
?rlnorm
?rweibull
?rexp
?rt
# Some discrete distributions.
?rpoiss
?rbinom
?rnbinom
?rgeom
?rhyper
Anda dapat menemukan beberapa pelengkap di Fitting distribusi dengan R .
Tambahan: terima kasih kepada @jthetzel karena menyediakan tautan dengan daftar distribusi yang komprehensif dan paket-paket milik mereka.
Tapi tunggu, masih ada lagi: OK, mengikuti komentar @ whuber saya akan mencoba untuk membahas poin lainnya. Mengenai poin 1, saya tidak pernah menggunakan pendekatan good-of-fit. Sebaliknya saya selalu berpikir tentang asal usul sinyal, seperti apa yang menyebabkan fenomena, apakah ada beberapa simetri alami dalam apa yang menghasilkannya, dll. Anda perlu beberapa bab buku untuk mengatasinya, jadi saya hanya akan memberikan dua contoh.
Jika data dihitung dan tidak ada batas atas, saya coba Poisson. Variabel poisson dapat diartikan sebagai jumlah independen berturut-turut selama jangka waktu, yang merupakan kerangka kerja yang sangat umum. Saya menyesuaikan distribusi dan melihat (sering secara visual) apakah variansnya dijelaskan dengan baik. Cukup sering, varians sampel jauh lebih tinggi, dalam hal ini saya menggunakan Binomial Negatif. Binomial negatif dapat diartikan sebagai campuran Poisson dengan variabel yang berbeda, yang bahkan lebih umum, jadi ini biasanya sangat cocok untuk sampel.
Jika saya berpikir bahwa data simetris di sekitar rata-rata, yaitu bahwa penyimpangan sama-sama cenderung positif atau negatif, saya mencoba menyesuaikan Gaussian. Saya kemudian memeriksa (lagi secara visual) apakah ada banyak outlier, yaitu titik data yang sangat jauh dari rata-rata. Jika ada, saya menggunakan t Student. Distribusi t Siswa dapat diartikan sebagai campuran Gaussian dengan varian yang berbeda, yang sekali lagi sangat umum.
Dalam contoh-contoh itu, ketika saya mengatakan secara visual, maksud saya saya menggunakan plot QQ
Butir 3, juga layak mendapat beberapa bab buku. Efek menggunakan distribusi bukan yang lain tidak terbatas. Jadi alih-alih membahas semuanya, saya akan melanjutkan dua contoh di atas.
Di masa-masa awal saya, saya tidak tahu bahwa Binomial Negatif dapat memiliki interpretasi yang bermakna sehingga saya menggunakan Poisson sepanjang waktu (karena saya ingin dapat menginterpretasikan parameter dalam istilah manusia). Sangat sering, ketika Anda menggunakan Poisson, Anda cocok dengan mean, tetapi Anda meremehkan varians. Ini berarti bahwa Anda tidak dapat mereproduksi nilai ekstrem dari sampel Anda dan Anda akan mempertimbangkan nilai-nilai seperti outlier (titik data yang tidak memiliki distribusi yang sama dengan titik lainnya) sedangkan sebenarnya tidak.
Lagi di masa-masa awal saya, saya tidak tahu bahwa t Student juga memiliki interpretasi yang bermakna dan saya akan menggunakan Gaussian sepanjang waktu. Hal serupa terjadi. Saya akan cocok dengan mean dan varians dengan baik, tapi saya masih tidak akan menangkap outlier karena hampir semua titik data seharusnya berada dalam 3 standar deviasi dari mean. Hal yang sama terjadi, saya menyimpulkan bahwa beberapa poin "luar biasa", padahal sebenarnya tidak.