Saya baru-baru ini menemukan penaksir kuantil berikut untuk variabel acak kontinu dalam makalah (nonstatistik, diterapkan): untuk vektor 100-panjang $x$ , kuantil 1% diperkirakan dengan $\min(x)$ . Berikut ini performanya: di bawah ini adalah plot kerapatan kernel dari realisasi penaksir $\min(x)$ dari 100.000 simulasi berjalan dari sampel 100-panjang dari distribusi $N(0,1)$ . Garis vertikal adalah nilai sebenarnya, yaitu 1% teoritis dari distribusi $N(0,1)$ . Kode untuk simulasi juga diberikan.

M=10e5; n=100
quantiles=rep(NA,M)
for(i in 1:M){ set.seed(i); quantiles[i]=min(rnorm(n)) }
plot(density(quantiles),main="Kernel density estimate of quantiles from M=100,000 simulation runs"); abline(v=qnorm(1/n))

Grafik terlihat serupa secara kualitatif untuk distribusi (hanya sebuah contoh). Dalam kedua kasus, estimator bias ke bawah. Tanpa membandingkan dengan beberapa estimator lain, sulit untuk mengatakan seberapa bagusnya. Oleh karena itu pertanyaan saya : apakah ada penaksir alternatif yang lebih baik dalam, katakanlah, kesalahan absolut yang diharapkan atau dugaan kesalahan kuadrat yang diharapkan? $t(3)$

quantiles

— Richard Hardy
sumber

Ya, 1% dari 100 adalah 1 jadi adalah kuantil empiris 1%.

min {X_{i}}

$\min\{X_i\}$

— Xi'an

@ Xi'an, pada saat yang sama, bukan suatu titik bahwa 1% dari data memiliki nilai yang lebih rendah sedangkan 99% dari data memiliki nilai yang lebih besar. Bahkan, 0% dari data memiliki nilai lebih rendah dari oleh desain estimator ini. Saya bertanya-tanya apakah itu bukan masalah. (Dalam contoh ini, kita dapat mengasumsikan distribusi kontinu).

min (x)

$\min(x)$

— Richard Hardy

Di sisi lain, memperkirakan 1% kuantil berdasarkan 100 pengamatan meminta terlalu banyak dari data.

— Xi'an

"Bagus" dalam arti apa? Apa fungsi kerugian Anda dan apa model probabilitas yang mendasari Anda?

— whuber

Minimum bisa menjadi penaksir yang sangat baik, seperti ketika distribusi memiliki batas bawah yang terbatas. Ketika ekor kiri bisa berat, minimum bisa memiliki varian yang sangat besar dan karenanya menjadi penaksir yang buruk. Simetri tidak masalah, karena distribusi minimum tidak akan terpengaruh oleh ekor atas. Untuk masalah parametrik, terutama dalam keluarga skala lokasi, jawaban oleh Aksakal mengisyaratkan bagaimana membangun penaksir persentil yang lebih baik. Ini umumnya dikenal sebagai interval toleransi. Untuk masalah nonparametrik, semuanya tergantung.

— whuber

Min dari 100 pengamatan, sampel panjang digunakan sebagai penaksir 1% kuantil dalam praktiknya. Saya pernah melihatnya disebut "persentil empiris."

Keluarga distribusi yang dikenal

Jika Anda menginginkan perkiraan yang berbeda DAN memiliki gagasan tentang distribusi data, maka saya sarankan untuk melihat urutan median statistik. Misalnya, paket R ini menggunakannya untuk koefisien korelasi plot probabilitas PPCC . Anda dapat menemukan bagaimana mereka melakukannya untuk beberapa distribusi seperti biasa. Anda dapat melihat rincian lebih lanjut dalam makalah Vogel pada tahun 1986 "Uji Koefisien Probabilitas Plot untuk Hipotesis Distribusi Normal, Lognormal, dan Gumbel" di sini berdasarkan urutan statistik median pada distribusi normal dan lognormal.

Misalnya, dari makalah Vogel, Persamaan.2 mendefinisikan min (x) dari 100 sampel pengamatan dari distribusi normal standar sebagai berikut: mana perkiraan median CDF:

M_{1} = Φ^{- 1} (F_{Y} (min (y)))

$M_1=\Phi^{-1}(F_Y(\min(y)))$

{\hat{F}}_{Y} (min (y)) = 1 - (1 / 2)^{1 / 100} = 0.0069

$\hat F_Y(\min(y))=1-(1/2)^{1/100}=0.0069$

Kami mendapatkan nilai berikut: untuk standar normal yang Anda bisa menerapkan lokasi dan skala untuk mendapatkan perkiraan Anda dari persentil 1: . $M_1=-2.46$ $\hat\mu-2.46\hat\sigma$

Di sini perbandingannya dengan min (x) pada distribusi normal:

Plot di atas adalah distribusi penaksir min (x) dari persentil ke-1, dan yang di bawah adalah yang saya sarankan untuk dilihat. Saya juga menempelkan kode di bawah ini. Dalam kode saya secara acak memilih mean dan dispersi dari distribusi normal, kemudian menghasilkan sampel pengamatan panjang 100. Selanjutnya, saya menemukan min (x), kemudian skala ke standar normal menggunakan parameter sebenarnya dari distribusi normal. Untuk metode M1, saya menghitung kuantil menggunakan estimasi mean dan varians, lalu skala kembali ke standar menggunakan parameter true lagi. Dengan cara ini saya dapat menjelaskan dampak kesalahan estimasi mean dan standar deviasi sampai batas tertentu. Saya juga menunjukkan persentil yang sebenarnya dengan garis vertikal.

Anda dapat melihat bagaimana penaksir M1 jauh lebih ketat daripada min (x). Itu karena kita menggunakan pengetahuan kita tentang tipe distribusi yang sebenarnya , yaitu normal. Kami masih belum tahu parameter sebenarnya, tetapi bahkan mengetahui keluarga distribusi sangat meningkatkan perkiraan kami.

KODE OCTAVE

Anda dapat menjalankannya di sini secara online: https://octave-online.net/

N=100000
n=100

mus = randn(1,N);
sigmas = abs(randn(1,N));
r = randn(n,N).*repmat(sigmas,n,1)+repmat(mus,n,1);
muhats = mean(r);
sigmahats = std(r);

fhat = 1-(1/2)^(1/100)
M1 = norminv(fhat)
onepcthats = (M1*sigmahats + muhats - mus) ./ sigmas;

mins = min(r);
minonepcthats = (mins - mus) ./ sigmas;

onepct = norminv(0.01)

figure
subplot(2,1,1)
hist(minonepcthats,100)
title 'min(x)'
xlims = xlim;
ylims = ylim;
hold on
plot([onepct,onepct],ylims)

subplot(2,1,2)
hist(onepcthats,100)
title 'M1'
xlim(xlims)
hold on
plot([onepct,onepct],ylims)

Distribusi tidak dikenal

Jika Anda tidak berasal dari distribusi data mana, maka ada pendekatan lain yang digunakan dalam aplikasi risiko keuangan . Ada dua distribusi Johnson, SU dan SL. Yang pertama adalah untuk kasus yang tidak terikat seperti Normal dan Student t, dan yang terakhir adalah untuk batas bawah seperti lognormal. Anda dapat menyesuaikan distribusi Johnson dengan data Anda, kemudian menggunakan estimasi parameter, memperkirakan kuantil yang diperlukan. Tuenter (2001) menyarankan prosedur pemasangan pencocokan momen, yang digunakan dalam praktik oleh beberapa orang.

Apakah akan lebih baik daripada min (x)? Saya tidak tahu pasti, tetapi kadang-kadang menghasilkan hasil yang lebih baik dalam praktik saya, misalnya ketika Anda tidak tahu distribusinya tetapi tahu bahwa itu berbatas rendah.

— Aksakal
sumber

@ RichardHardy, saya menambahkan demo untuk menunjukkan apa yang saya sarankan dan bagaimana meningkatkannya pada min (x). Tidak, Vogel bahkan tidak berbicara tentang min (x). Itu aplikasi saya dari metode median untuk kasus Anda. PPCC menggunakan kuantil dari 1 hingga n dalam sampel. Dalam 100 sampel observasi, min (x) adalah persentil ke-1.

— Aksakal

Terima kasih atas pembaruannya! Yang saya tanyakan adalah makalah Vogel Persamaan.2 mendefinisikan min (x) dari 100 sampel pengamatan : haruskah ada bukannya min (x)? Karena sebaliknya memang min (x) sedang didefinisikan ulang sebagai sesuatu yang berbeda dari min literal (x), itulah kesan saya.

M_{1}

$M_1$

— Richard Hardy

@RichardHardy, mereka menyusun ulang pengamatan, jadi M1 akan menjadi min (x)

— Aksakal

sebagai penduga kuantil untuk kuantil 1% dari

Keluarga distribusi yang dikenal

KODE OCTAVE

Distribusi tidak dikenal