Sementara sejumlah posting di situs membahas berbagai properti Cauchy, saya tidak berhasil menemukan satu yang benar-benar meletakkannya bersama. Semoga ini bisa menjadi tempat yang baik untuk mengumpulkan beberapa. Saya dapat mengembangkan ini.
Ekor yang berat
Sementara Cauchy simetris dan berbentuk lonceng kasar, agak seperti distribusi normal, ia memiliki ekor yang jauh lebih berat (dan lebih sedikit "bahu"). Sebagai contoh, ada kemungkinan kecil tetapi berbeda bahwa variabel acak Cauchy akan meletakkan lebih dari 1000 rentang interkuartil dari median - kira-kira dari urutan yang sama dengan variabel acak normal menjadi setidaknya 2,67 rentang interkuartil dari mediannya.
Perbedaan
Varian Cauchy tidak terbatas.
Sunting: JG mengatakan dalam komentar bahwa itu tidak terdefinisi. Jika kita mengambil varians sebagai rata-rata setengah jarak kuadrat antara pasangan nilai - yang identik dengan varians ketika keduanya ada, maka itu akan menjadi tak terbatas. Namun, dengan definisi biasa, JG benar. [Namun demikian berbeda dengan sarana sampel, yang tidak benar-benar menyatu dengan apa pun ketika n menjadi besar, distribusi varian sampel terus bertambah besar seiring dengan meningkatnya ukuran sampel; skala meningkat secara proporsional ke n, atau ekuivalen distribusi varian log tumbuh secara linier dengan ukuran sampel. Tampaknya produktif untuk benar-benar mempertimbangkan versi varians yang menghasilkan infinity memberitahu kita sesuatu.]
Deviasi standar sampel ada, tentu saja, tetapi semakin besar sampel semakin besar cenderung (mis. Median standar deviasi sampel pada n = 10 adalah sekitar 3,67 kali parameter skala (setengah IQR), tetapi pada n = 100 ini tentang 11.9).
Berarti
Distribusi Cauchy bahkan tidak memiliki mean yang terbatas; integral untuk mean tidak bertemu. Akibatnya, bahkan hukum jumlah besar tidak berlaku - saat n tumbuh, sampel berarti tidak menyatu dengan kuantitas tetap (memang tidak ada yang menyatu bagi mereka).
Faktanya, distribusi mean sampel dari distribusi Cauchy sama dengan distribusi pengamatan tunggal (!). Ekornya sangat berat sehingga menambahkan lebih banyak nilai ke dalam penjumlahan membuat nilai yang sangat ekstrem cukup mungkin untuk hanya mengkompensasi pembagian dengan penyebut yang lebih besar ketika mengambil mean.
Prediktabilitas
Anda tentu dapat menghasilkan interval prediksi yang sangat masuk akal untuk pengamatan dari distribusi Cauchy; ada penaksir sederhana, cukup efisien yang berkinerja baik untuk memperkirakan lokasi dan skala dan perkiraan interval prediksi dapat dibangun - jadi dalam hal itu, setidaknya, varian Cauchy 'dapat diprediksi'. Namun, ekor memanjang sangat jauh, sehingga jika Anda menginginkan interval probabilitas tinggi, mungkin cukup lebar.
Jika Anda mencoba memprediksi pusat distribusi (misalnya dalam model tipe regresi), itu mungkin relatif mudah diprediksi; Cauchy cukup memuncak (ada banyak distribusi "dekat" ke pusat untuk ukuran skala khas), sehingga pusat dapat diperkirakan dengan relatif baik jika Anda memiliki penduga yang tepat.
Ini sebuah contoh:
Saya menghasilkan data dari hubungan linier dengan kesalahan Cauchy standar (100 pengamatan, intersep = 3, slope = 1.5), dan memperkirakan garis regresi dengan tiga metode yang cukup kuat untuk y-outlier: Tukey 3 grup line (merah), regresi Theil (hijau tua) dan regresi L1 (biru). Tidak ada yang sangat efisien di Cauchy - meskipun mereka semua akan membuat titik awal yang sangat baik untuk pendekatan yang lebih efisien.
Namun demikian ketiganya hampir kebetulan dibandingkan dengan kebisingan data dan terletak sangat dekat dengan pusat di mana data berjalan; dalam arti itu Cauchy jelas "dapat diprediksi".
Median residu absolut hanya sedikit lebih besar dari 1 untuk setiap garis (sebagian besar data terletak cukup dekat dengan garis perkiraan); dalam pengertian itu juga, Cauchy "dapat diprediksi".
Untuk plot di sebelah kiri ada outlier besar. Untuk melihat data yang lebih baik, saya mempersempit skala pada sumbu y ke bawah di sebelah kanan.