Apakah properti kuantitatif populasi merupakan "parameter"?

13

Saya relatif akrab dengan perbedaan antara istilah statistik dan parameter. Saya melihat statistik sebagai nilai yang diperoleh dari menerapkan fungsi ke data sampel. Namun, sebagian besar contoh parameter terkait dengan mendefinisikan distribusi parametrik. Contoh umum adalah mean dan standar deviasi untuk parameterise distribusi normal atau koefisien dan varians kesalahan untuk parameterise regresi linier.

Namun, ada banyak nilai lain dari distribusi populasi yang kurang prototipikal (misalnya, minimum, maksimum, r-square dalam regresi berganda, .25 kuantil, median, jumlah prediktor dengan koefisien tidak nol, skewness, angka korelasi dalam matriks korelasi lebih besar dari 0,3, dll.).

Jadi, pertanyaan saya adalah:

Haruskah properti kuantitatif suatu populasi diberi label "parameter"?
Jika ya, lalu mengapa?
Jika tidak, karakteristik apa yang tidak boleh dilabeli sebagai parameter? Apa yang harus mereka beri label? Dan mengapa?

Elaborasi tentang kebingungan

Artikel Wikipedia tentang penaksir menyatakan:

"Estimator" atau "estimasi titik" adalah statistik (yaitu, fungsi data) yang digunakan untuk menyimpulkan nilai parameter yang tidak diketahui dalam model statistik.

Tapi saya bisa mendefinisikan nilai yang tidak diketahui sebagai 0,25 kuantil dan saya bisa mengembangkan penduga untuk yang tidak diketahui. Yaitu, tidak semua properti kuantitatif dari suatu populasi adalah parameter dengan cara yang sama yang mengatakan mean dan sd adalah parameter dari distribusi normal, namun sah untuk mengupayakan memperkirakan properti populasi kuantitatif.

— Jeromy Anglim
sumber

15

Pertanyaan ini menjadi inti dari apa itu statistik dan bagaimana melakukan analisis statistik yang baik. Ini memunculkan banyak masalah, beberapa terminologi dan lain-lain teori. Untuk memperjelasnya, mari kita mulai dengan mencatat konteks implisit dari pertanyaan dan pergi dari sana untuk mendefinisikan istilah kunci "parameter," "properti," dan "penaksir." Beberapa bagian dari pertanyaan dijawab ketika mereka muncul dalam diskusi. Bagian penutup akhir merangkum ide-ide kunci.

Ruang negara

Penggunaan statistik umum "distribusi," seperti dalam "distribusi Normal dengan PDF sebanding dengan "sebenarnya merupakan penyalahgunaan (serius) bahasa Inggris, karena jelas ini bukan satu distribusi: itu adalah seluruh keluarga distribusi yangdiparameterisasioleh simboldan. Notasi standar untuk ini adalah "state space", satuset $\exp(-\frac{1}{2}(x-\mu)/\sigma)^2)dx$ $\mu$ $\sigma$ $\Omega$ distribusi. (Saya menyederhanakan sedikit di sini demi eksposisi dan akan terus menyederhanakan saat kita melanjutkan, sambil tetap seketat mungkin.) Perannya adalah untuk menggambarkan target yang mungkin dari prosedur statistik kami: ketika kami memperkirakan sesuatu, kami memilih satu (atau terkadang lebih) elemen . $\Omega$

Kadang-kadang spasi state secara eksplisit parameter, seperti dalam . Dalam uraian ini ada korespondensi satu-ke-satu antara set tupel di bidang setengah atas dan set distribusi yang akan kami gunakan untuk memodelkan data kami. Salah satu nilai dari parameterisasi tersebut adalah bahwa kita sekarang dapat merujuk secara konkret ke distribusi dalam dengan menggunakan pasangan bilangan real yang dipesan. $\Omega = \{\mathcal{N}(\mu, \sigma^2)|\mu \in \mathbb{R}, \sigma \gt 0\}$ $\{(\mu,\sigma)\}$ $\Omega$

Dalam kasus lain, spasi negara tidak parameterisasi secara eksplisit. Contohnya adalah himpunan semua distribusi kontinu unimodal. Di bawah ini, kami akan menjawab pertanyaan apakah parameterisasi yang memadai dapat ditemukan dalam kasus tersebut.

Parameterisasi

Umumnya, parameterisasi dari adalah korespondensi (matematika fungsi ) dari subset dari (dengan terbatas) ke . Yaitu, ia menggunakan set -tuple yang dipesan untuk memberi label pada distribusi. Tapi itu bukan sembarang korespondensi: itu harus "berperilaku baik." Untuk memahami hal ini, pertimbangkan set semua distribusi kontinu yang PDF-nya memiliki harapan terbatas. Ini akan secara luas dianggap sebagai "non-parametrik" dalam arti bahwa setiap upaya "alami" untuk mengukur parameter set ini akan melibatkan urutan bilangan real yang dapat dihitung (menggunakan ekspansi dalam basis ortogonal apa pun). Namun demikian, karena set ini memiliki kardinalitas $\Omega$ $\mathbb{R}^d$ $d$ $\Omega$ $d$ , yang merupakan kardinalitas dari real, harus ada beberapa korespondensi satu-ke-satu antara distribusi ini dan . Paradoksnya, yang tampaknya membuat iniruang keadaanparameterizeddenganparameter nyatatunggal! $\aleph_1$ $\mathbb{R}$

Paradoks diselesaikan dengan mencatat bahwa bilangan real tunggal tidak dapat menikmati hubungan "baik" dengan distribusi: ketika kita mengubah nilai angka itu, distribusi yang bersesuaian harus dalam beberapa kasus berubah secara radikal. Kami mengesampingkan parameterisasi "patologis" seperti itu dengan mengharuskan distribusi yang sesuai dengan nilai tutup dari parameter mereka sendiri harus "dekat" satu sama lain. Membahas definisi "tutup" yang sesuai akan membawa kita terlalu jauh, tetapi saya harap uraian ini cukup untuk menunjukkan bahwa ada lebih banyak hal untuk menjadi parameter daripada sekadar menyebutkan distribusi tertentu.

Properti distribusi

Melalui aplikasi berulang, kita menjadi terbiasa memikirkan "properti" dari suatu distribusi sebagai sejumlah kuantitas yang dapat dipahami yang sering muncul dalam pekerjaan kita, seperti ekspektasi, varian, dan sebagainya. Masalah dengan ini sebagai definisi yang mungkin dari "properti" adalah bahwa itu terlalu kabur dan tidak cukup umum. (Di sinilah matematika pada pertengahan abad ke-18, di mana "fungsi" dianggap sebagai proses yang terbatas diterapkan pada objek.) Sebaliknya, tentang satu-satunya definisi yang masuk akal dari "properti" yang akan selalu berfungsi adalah menganggap properti sebagai menjadi nomor yang secara unik ditugaskan untuk setiap distribusi di $\Omega$ . Ini termasuk rata-rata, varians, setiap momen, setiap kombinasi aljabar momen, setiap kuantil, dan banyak lagi, termasuk hal-hal yang bahkan tidak dapat dihitung. Namun, itu tidak termasuk hal-hal yang tidak masuk akal untuk beberapa elemen . Misalnya, jika terdiri dari semua distribusi t Student, maka mean bukan properti yang valid untuk (karena tidak memiliki rata-rata). Ini mempesona pada kami sekali lagi berapa banyak ide-ide kita tergantung pada apa yang benar-benar terdiri dari. $\Omega$ $\Omega$ $\Omega$ $t_1$ $\Omega$

Properti tidak selalu parameter

Properti dapat berupa fungsi yang rumit sehingga tidak akan berfungsi sebagai parameter. Pertimbangkan kasus "Distribusi normal." Kita mungkin ingin tahu apakah mean distribusi sebenarnya, ketika dibulatkan ke bilangan bulat terdekat, adalah genap. Itu sebuah properti. Tapi itu tidak akan berfungsi sebagai parameter.

Parameter tidak harus sifat

Ketika parameter dan distribusi dalam korespondensi satu-ke-satu maka jelas parameter apa pun, dan fungsi parameter apa pun dalam hal ini, adalah properti menurut definisi kami. Tetapi tidak perlu ada korespondensi satu-ke-satu antara parameter dan distribusi: kadang-kadang beberapa distribusi harus dijelaskan oleh dua atau lebih nilai parameter yang berbeda. Sebagai contoh, parameter lokasi untuk titik-titik pada bola akan secara alami menggunakan garis lintang dan garis bujur. Itu baik-baik saja - kecuali pada dua kutub, yang sesuai dengan garis lintang tertentu dan setiap bujur valid. The lokasi(point on the sphere) memang merupakan properti tetapi garis bujurnya belum tentu merupakan properti. Meskipun ada berbagai dodges (hanya menyatakan garis bujur dari sebuah kutub menjadi nol, misalnya), masalah ini menyoroti perbedaan konseptual yang penting antara properti (yang secara unik terkait dengan distribusi) dan parameter (yang merupakan cara pelabelan distribusi dan mungkin tidak unik).

Prosedur statistik

Target estimasi disebut estimasi dan . Ini hanyalah sebuah properti. Ahli statistik tidak bebas memilih estimasi dan: itu adalah provinsi kliennya. Ketika seseorang mendatangi Anda dengan sampel suatu populasi dan meminta Anda untuk memperkirakan persentil ke-99 populasi, Anda kemungkinan besar akan lalai dalam menyediakan penduga rata-rata sebagai gantinya! Pekerjaan Anda, sebagai ahli statistik, adalah mengidentifikasi prosedur yang baik untuk memperkirakan estimasi dan Anda telah diberikan. (Terkadang pekerjaan Anda adalah meyakinkan klien Anda bahwa ia telah memilih estimasi yang salah dan untuk tujuan ilmiahnya, tetapi itu masalah yang berbeda ...)

Menurut definisi, prosedur adalah cara untuk mendapatkan nomor dari data. Prosedur biasanya diberikan sebagai formula untuk diterapkan pada data, seperti "tambahkan semuanya dan bagi dengan jumlah mereka." Secara harfiah setiap prosedur dapat diucapkan sebagai "penaksir" dari estimasi yang diberikan dan. Sebagai contoh, saya dapat menyatakan bahwa mean sampel (rumus yang diterapkan pada data) memperkirakan varians populasi (properti populasi, dengan asumsi klien kami telah membatasi serangkaian populasi yang mungkin hanya untuk menyertakan mereka yang benar-benar memiliki varian). $\Omega$

Pengukur

Estimator tidak perlu memiliki koneksi yang jelas ke estimasi dan. Misalnya, apakah Anda melihat hubungan antara mean sampel dan varians populasi? Saya juga tidak. Namun demikian, mean sampel sebenarnya adalah penaksir yang baik dari varians populasi untuk tertentu $\Omega$ (seperti himpunan semua distribusi Poisson). Di sinilah terletak satu kunci untuk memahami penduga: kualitas mereka bergantung pada set keadaan yang memungkinkan . Tapi itu hanya sebagian saja. $\Omega$

Seorang ahli statistik yang kompeten ingin mengetahui seberapa baik prosedur yang mereka rekomendasikan akan benar-benar dilakukan. Mari kita sebut prosedur " " dan biarkan estimasi dan . Tidak mengetahui distribusi mana yang sebenarnya adalah yang benar, ia akan merenungkan kinerja prosedur untuk setiap kemungkinan distribusi . Mengingat seperti , dan diberikan setiap kemungkinan hasil (yaitu, satu set data), dia akan membandingkan (apa perkiraan prosedur nya) untuk (nilai estimand untuk ). $t$ $\theta$ $F \in \Omega$ $F$ $s$ $t(s)$ $\theta(F)$ $F$ Adalah tanggung jawab kliennya untuk mengatakan seberapa dekat atau jauh jarak keduanya. (Ini sering dilakukan dengan fungsi "kehilangan".) Ia kemudian dapat merenungkan harapan jarak antara dan . Ini adalah risiko prosedurnya. Karena itu tergantung pada , risikonya adalah fungsi yang didefinisikan pada . $t(s)$ $\theta(F)$ $F$ $\Omega$

(Baik) ahli statistik merekomendasikan prosedur berdasarkan perbandingan risiko. Misalnya, anggap bahwa untuk setiap , risiko prosedur lebih kecil atau sama dengan risiko . Maka tidak ada alasan untuk menggunakan : itu "tidak dapat diterima." Kalau tidak, itu "diterima". $F \in \Omega$ $t_1$ $t$ $t$

(Seorang ahli statistik "Bayesian" akan selalu membandingkan risiko dengan rata-rata lebih dari distribusi "sebelumnya" dari negara-negara yang mungkin (biasanya disediakan oleh klien). Seorang ahli statistik "Frequentist" mungkin melakukan ini, jika ada sebelumnya yang dibenarkan ada, tetapi juga bersedia untuk bandingkan risiko dengan cara lain yang dilakukan Bayesians.)

Kesimpulan

Kami memiliki hak untuk mengatakan bahwa yang dapat diterima untuk adalah penduga dari . $t$ $\theta$ $\theta$ Kita harus, untuk tujuan praktis (karena prosedur yang dapat diterima mungkin sulit ditemukan), tekuk ini untuk mengatakan bahwa setiap yang memiliki risiko kecil yang dapat diterima (bila dibandingkan dengan ) di antara prosedur yang praktis adalah penaksir . $t$ $\theta$ $\theta$ "Dapat diterima" dan "dapat dipraktikkan" ditentukan oleh klien, tentu saja: "dapat diterima" mengacu pada risiko mereka dan "dapat dipraktikkan" mencerminkan biaya (pada akhirnya dibayar oleh mereka) untuk mengimplementasikan prosedur.

Yang mendasari definisi singkat ini adalah semua ide yang baru saja dibahas: untuk memahaminya kita harus memiliki spesifik (yang merupakan model masalah, proses, atau populasi yang diteliti), estimasi yang pasti dan (disediakan oleh klien), sebuah fungsi kerugian spesifik (yang secara kuantitatif menghubungkan dengan estimasi dan juga diberikan oleh klien), gagasan risiko (dihitung oleh ahli statistik), beberapa prosedur untuk membandingkan fungsi risiko (tanggung jawab ahli statistik dalam konsultasi dengan klien), dan pemahaman tentang prosedur apa yang sebenarnya dapat dilakukan (masalah "kepraktisan"), meskipun tidak ada satupun yang secara eksplisit disebutkan dalam definisi. $\Omega$ $t$

— whuber
sumber

2

@Nick Cox, dalam jawabannya, mengemukakan beberapa poin bagus yang (dalam interpretasi saya) mengarah ke "apa yang kita lakukan ketika kita tahu bahwa setiap model

dan setiap fungsi kerugian yang kita tentukan akan menjadi agak tidak akurat atau tidak memadai?" Jawabannya akan membawa kita ke arah yang berbeda; semua yang ingin saya katakan di sini adalah bahwa kerangka kerja yang telah saya tentukan - yang merupakan kerangka klasik yang bereaksi Tukey - memberi kita dasar yang baik untuk memikirkan pertanyaan analisis data yang lebih luas. Paling tidak, ini mengklarifikasi asumsi implisit yang masuk ke dalam istilah standar seperti "estimator."

Ω

$\Omega$

— whuber

11

Seperti halnya banyak pertanyaan tentang definisi, jawaban perlu memperhatikan prinsip-prinsip yang mendasarinya dan tentang cara istilah-istilah digunakan dalam praktik, yang sering kali paling tidak sedikit longgar atau tidak konsisten, bahkan oleh individu yang memiliki informasi yang cukup, dan lebih banyak lagi. yang penting, variabel dari komunitas ke komunitas.

Salah satu prinsip umum adalah bahwa statistik adalah properti dari sampel, dan konstanta yang diketahui, dan parameter adalah properti yang sesuai dari populasi, sehingga konstanta yang tidak diketahui. Kata "korespondensi" harus dipahami cukup elastis di sini. Secara kebetulan, tepatnya pembedaan ini dan tepatnya terminologi ini kurang dari seabad, diperkenalkan oleh RA Fisher.

Tapi

Kumpulan sampel dan populasi tidak mencirikan semua masalah kita sendiri. Rangkaian waktu adalah salah satu kelas contoh utama di mana idenya lebih merupakan proses pembangkit yang mendasarinya, dan sesuatu seperti itu bisa dibilang ide yang lebih dalam dan lebih umum.
Ada pengaturan di mana parameter berubah. Sekali lagi, analisis deret waktu memberikan contoh.
Untuk poin utama di sini, dalam praktiknya kita tidak menganggap semua properti populasi atau proses sebagai parameter. Jika beberapa prosedur mengasumsikan model distribusi normal, maka minimum dan maksimum bukan parameter. (Memang, menurut model, angka minimum dan maksimum adalah angka negatif dan positif yang besar secara sewenang-wenang, bukan berarti itu yang membuat kita khawatir.)

Saya akan mengatakan bahwa untuk sekali Wikipedia menunjuk ke arah yang benar di sini, dan praktik dan prinsip sama-sama dihormati jika kita mengatakan bahwa parameter adalah apa pun yang kita perkirakan .

Ini juga membantu dengan pertanyaan lain yang menyebabkan kebingungan. Misalnya, jika kita menghitung rata-rata 25% yang dipangkas, apa yang kita perkirakan? Jawaban yang masuk akal adalah properti yang sesuai dari populasi, yang pada dasarnya ditentukan oleh metode estimasi. Satu terminologi adalah bahwa estimator memiliki estimasi dan, apa pun yang diperkirakan. Dimulai dengan beberapa ide Platonis tentang properti "di luar sana" (katakanlah mode distribusi) dan pikirkan cara memperkirakan yang masuk akal, seperti memikirkan resep yang baik untuk menganalisis data dan memikirkan apa yang tersirat ketika dianggap sebagai kesimpulan.

Seperti sering dalam matematika atau sains terapan, ada aspek dua kali lipat untuk parameter. Kita sering menganggapnya sebagai sesuatu yang nyata di luar sana yang kita temukan, tetapi juga benar bahwa itu adalah sesuatu yang ditentukan oleh model proses kita, sehingga tidak memiliki makna di luar konteks model.

Dua poin yang sangat berbeda:

Banyak ilmuwan menggunakan kata "parameter" dalam cara para ahli statistik menggunakan variabel. Saya memiliki kepribadian ilmuwan dan statistik, dan saya akan mengatakan itu tidak menguntungkan. Variabel dan properti adalah kata-kata yang lebih baik.
Sangat umum dalam penggunaan bahasa Inggris yang lebih luas bahwa parameter dianggap berarti batas atau batas, yang dapat berasal dari beberapa kebingungan asli antara "parameter" dan "perimeter".

Catatan tentang estimasi dan sudut pandang

Posisi klasik adalah bahwa kami mengidentifikasi parameter terlebih dahulu dan kemudian memutuskan bagaimana memperkirakannya, dan ini tetap menjadi praktik mayoritas, tetapi membalikkan prosesnya tidak masuk akal dan dapat membantu untuk beberapa masalah. Saya menyebutnya estimasi dan sudut pandang. Itu telah ada dalam literatur selama setidaknya 50 tahun. Tukey (1962, p.60) mendesak itu

"Kita harus memberi lebih banyak perhatian untuk memulai dengan estimator dan menemukan apa yang merupakan estimasi yang masuk akal, dan untuk menemukan apa yang masuk akal untuk menganggap estimator sebagai estimasi."

Sudut pandang yang serupa telah diuraikan secara formal dalam rincian dan kedalaman yang cukup oleh Bickel dan Lehmann (1975) dan secara informal dengan kejernihan yang cukup besar oleh Mosteller dan Tukey (1977, pp.32-34).

Ada juga versi dasar. Menggunakan (katakanlah) median sampel atau rata-rata geometrik untuk memperkirakan parameter populasi yang sesuai masuk akal terlepas dari apakah distribusi yang mendasarinya simetris, dan niat baik yang sama dapat diperluas ke (misalnya) sampel yang dipangkas, yang dianggap sebagai penduga dari mitra populasi mereka .

Bickel, PJ dan EL Lehmann. 1975. Statistik deskriptif untuk model nonparametrik. II Lokasi . Annals of Statistics 3: 1045-1069.

Mosteller, F. dan JW Tukey. 1977. Analisis dan Regresi Data. Membaca, MA: Addison-Wesley.

Tukey, JW 1962. Masa depan analisis data . Sejarah Statistik Matematika 33: 1-67.

— Nick Cox
sumber

Banyak dari ini terlihat bertentangan dengan literatur statistik standar, terutama definisi parameter Anda. Tampaknya membingungkan proses menemukan prosedur untuk menghitung perkiraan dan mengidentifikasi apa yang diperkirakan. Yang terakhir - memilih estimasi dan - adalah masalah yang harus ditentukan oleh ilmuwan atau penyelidik. Yang pertama kemudian dipilih oleh ahli statistik untuk memiliki sifat yang diinginkan di antara semua prosedur yang mungkin untuk memperkirakan estimasi dan. Ada juga masalah teknis; Cukuplah untuk mengatakan bahwa suatu parameter lebih dibatasi daripada estimasi arbitrer.

— whuber

Saya akan memperluas jawaban saya untuk mengatasi ini.

— Nick Cox

1

Saya setuju dengan Tukey walaupun Anda mungkin berpikir dari jawaban saya untuk utas ini bahwa saya adalah salah satu ahli statistik "keras" yang dia tantang. Masalahnya adalah Anda telah mengutipnya di luar konteks. Tukey secara khusus menangani pertanyaan tentang bagaimana mengevaluasi sifat-sifat prosedur "ketika hipotesis yang mereka kembangkan tidak tahan." Ini sama sekali tidak mengubah definisi hal-hal seperti parameter, penaksir, dan taksiran. Secara khusus, parameter masih bukan "apa pun yang kami perkirakan."

— Whuber

3

Banyak makanan untuk dipikirkan di sini. Sebagai balasan cepat: Jawaban saya tidak dimaksudkan untuk menyiratkan bahwa kita berada di Liberty Hall di mana saja. Konteks untuk kutipan Tukey Saya menyambut, sebagai sudut pandang saya adalah bahwa hal itu biasa bahwa hipotesis adat tidak memegang sejauh semua model adalah perkiraan tidak persis cocok dengan data. Jauh dari menggigit, klausa itu menggarisbawahi nilai dari sudut pandang yang berbeda. Secara umum, saya tidak berusaha, atau memenuhi syarat untuk menghasilkan, definisi formal yang lebih abstrak dan lebih matematis.

— Nick Cox

6

pdf = \frac{1}{\sqrt{2 π σ^{2}}} e^{- \frac{1}{2} \frac{(x_{i} - μ)^{2}}{σ^{2}}}

$\text{pdf}=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{1}{2}\frac{(x_i-\mu)^2}{\sigma^2}}$

1

$1$

2

$2$

π

$\pi$

\approx 3.1415926

$\approx 3.1415926$

e

$e$

\approx 2.718281828

$\approx 2.718281828$

X

$X$

x_{i}

$x_i$ $\boldsymbol\mu$ $\boldsymbol\sigma^2$

X

$X$

25^{th} %

$25^{\text{th}}\%$

μ

$\mu$

σ^{2}

$\sigma^2$

μ

$\mu$

σ^{2}

$\sigma^2$

Y = β_{0} + β_{1} X_{1} + β_{2} X_{2} + ε where ε \sim N (0, σ^{2})

$Y=\beta_0 + \beta_1X_1 + \beta_2X_2 + \varepsilon \\ \text{where } \varepsilon\sim\mathcal N(0, \sigma^2)$ $\boldsymbol\beta_0$ $\boldsymbol\beta_1$ $\boldsymbol\beta_2$ $\boldsymbol\sigma^2$

25^{th} %

$25^{\text{th}}\%$

Y

$Y$

X = x_{i}

$X=x_i$

β_{0}

$\beta_0$

β_{1}

$\beta_1$

β_{2}

$\beta_2$

σ^{2}

$\sigma^2$

β_{0}

$\beta_0$

β_{1}

$\beta_1$

β_{2}

$\beta_2$

σ^{2}

$\sigma^2$

(Semua ini mengasumsikan, tentu saja, bahwa model saya tentang distribusi populasi atau proses menghasilkan data adalah benar. Seperti biasa, patut diingat bahwa "semua model salah, tetapi beberapa berguna" - George Box .)

Untuk menjawab pertanyaan Anda secara lebih eksplisit, saya akan mengatakan:

Tidak, semua kuantitatif lama yang benar tidak boleh diberi label "parameter".
t / a
Karakteristik yang harus diberi label "parameter" tergantung pada spesifikasi model. Saya tidak memiliki nama khusus untuk karakteristik kuantitatif lainnya, tetapi saya pikir tidak masalah untuk menyebutnya sebagai properti atau karakteristik atau konsekuensi , dll.

— gung - Pasang kembali Monica
sumber

Terima kasih. Tetapi terminologi apa yang Anda gunakan untuk menggambarkan semua nilai populasi yang dapat diturunkan dari model parametrik tetapi tidak dalam set parameter yang sesuai untuk merepresentasikan model itu? Atau sebagai alternatif, mungkin ada kasus, di mana Anda tidak tahu model populasi dan tidak terlalu peduli, tetapi tertarik pada aspek non-standar tertentu dari model populasi.

— Jeromy Anglim

I don't have any generally applicable special name, but there are names for some particular values. Eg, if you don't really believe that your population is sufficiently close to any well studied distribution, you could attempt to characterize it by its median, quartiles, hinge points, etc.

— gung - Pulihkan Monica

3

Masalah halus tentang parameter diekspos oleh trik komputer lama: ambil representasi biner (atau desimal) dari

β_{0}, β_{1}, β_{2},

$\beta_0, \beta_1, \beta_2,$ dan

σ

$\sigma$ dan interleave mereka (dengan kelompok empat) untuk membuat angka biner (atau desimal) baru

θ

$\theta$ . Jelas prosesnya reversibel: Anda bisa membaca

β_{0}

$\beta_0$ dari digit pertama, kelima, kesembilan, ..., dll

θ

$\theta$ , dan seterusnya. Oleh karena itu "begitu [Anda] mempelajari nilai dari

θ

$\theta$ , [kamu] tahu segalanya yang perlu diketahui. "Tapi

θ

$\theta$ adalah tidak parameter yang valid karena cara berkerut di mana label distribusi mungkin.

— Whuber

3

Ada beberapa jawaban yang bagus untuk pertanyaan ini, saya hanya berpikir saya akan meringkas referensi menarik yang menyediakan diskusi yang cukup ketat tentang penduga.

Halaman laboratorium virtual tentang penaksir menentukan

sebuah statistik sebagai "fungsi diamati dari variabel hasil".
"Dalam arti teknis, sebuah parameter $\theta$ adalah fungsi dari distribusi X "

Konsep fungsi distribusi adalah ide yang sangat umum. Dengan demikian, setiap contoh yang diberikan di atas dapat dilihat sebagai fungsi dari distribusi tertentu.

Setiap kuantil, termasuk min, median, kuantil ke-25, maks dapat menjadi fungsi distribusi.
Skewness adalah fungsi dari suatu distribusi. Jika distribusi populasi itu normal, maka ini akan menjadi nol, tetapi itu tidak menghentikan perhitungan nilai-nilai ini.
Menghitung jumlah korelasi yang lebih besar dari nilai tertentu adalah fungsi dari matriks kovarians yang pada gilirannya merupakan fungsi dari distribusi multivariat.
R-squared adalah fungsi dari distribusi.

— Jeromy Anglim
sumber

1

Salah satu alasan saya menawarkan jawaban yang lebih rumit adalah bahwa definisi "parameter" ini tidak cukup baik. Untuk satu contoh balik lihat komentar saya untuk jawaban @ gung . Secara intuitif, satu set parameter distribusi membentuk topologi berjenis-dengan-batas terbatas dimensi; suatu parameter harus merupakan fungsi kontinu yang didefinisikan pada manifold. Ini lebih dari sekadar persyaratan teknis, karena ini berkaitan dengan distribusi taksiran sampling.

— whuber