Konsep statistik dan matematika persis sama, memahami bahwa "keluarga" adalah istilah matematika umum dengan variasi teknis yang disesuaikan dengan keadaan yang berbeda:
Famili parametrik adalah kurva (atau permukaan atau generalisasi dimensi-terbatas lainnya) dalam ruang semua distribusi.
Sisa dari posting ini menjelaskan apa artinya itu. Sebagai tambahan, saya tidak berpikir semua ini kontroversial, baik secara matematis atau statistik (terlepas dari satu masalah kecil yang dicatat di bawah). Untuk mendukung pendapat ini, saya telah menyediakan banyak referensi (kebanyakan ke artikel Wikipedia).
Terminologi ini dari "keluarga" cenderung digunakan ketika belajar kelas dari fungsi ke dalam satu set Y atau "peta." Diberikan domain X , keluarga F dari peta pada X yang diparameterisasi oleh beberapa set Θ ("parameter") adalah fungsiCYYX FX Θ
F: X× Θ → Y
di mana (1) untuk setiap , fungsi F θ : X → Y yang diberikan oleh F θ ( x ) = F ( x , θ ) berada di C Y dan (2) Fθ ∈ ΘFθ:X→ YFθ( x ) =F(x,θ)CYF itu sendiri memiliki tertentu "bagus" sifat.
Idenya adalah kita ingin memvariasikan fungsi dari ke Y dengan cara "halus" atau terkontrol. Properti (1) berarti bahwa masing-masing θ menunjuk fungsi seperti itu, sementara perincian properti (2) akan menangkap pengertian di mana perubahan "kecil" pada θ menginduksi perubahan "kecil" yang cukup dalam F θ .XYθθFθ
Contoh matematika standar, dekat dengan yang disebutkan dalam pertanyaan, adalah homotopy . Dalam hal ini adalah kategori dari peta terus-menerus dari ruang topologi X ke dalam ruang topologi Y ; Θ = [ 0 , 1 ] ⊂ R adalah interval satuan dengan topologi biasa, dan kami mengharuskan F menjadi terus menerus peta dari produk topologi X × Θ ke Y . Ini dapat dianggap sebagai "deformasi kontinu dari peta FCY XYΘ=[0,1]⊂RFX×ΘY hingga F 1. "Ketika X = [ 0 , 1 ] itu sendiri merupakan interval, peta tersebut adalahkurvadalam Y dan homotopy adalah deformasi halus dari satu kurva ke kurva lainnya.F0F1X=[0,1]Y
Untuk aplikasi statistik, adalah himpunan semua distribusi pada R (atau, dalam praktek, pada R n untuk beberapa n , tetapi untuk menjaga eksposisi sederhana saya akan fokus pada n = 1 ). Kami dapat mengidentifikasinya dengan set semua fungsi càdlàg yang tidak berkurang R → [ 0 , 1 ] di mana penutupan rentangnya mencakup 0 dan 1 : ini adalah fungsi distribusi kumulatif, atau hanya fungsi distribusi. Jadi, X = RCYRRnnn=1R→[0,1]01X=R dan.Y=[0,1]
Sebuah keluarga dari distribusi adalah subset dari . CY Nama lain untuk keluarga adalah model statistik. Ini terdiri dari semua distribusi yang kita anggap mengatur pengamatan kita, tetapi kita tidak tahu distribusi mana yang sebenarnya.
- Sebuah keluarga bisa kosong.
- CY itu sendiri adalah sebuah keluarga.
- Sebuah keluarga dapat terdiri dari distribusi tunggal atau hanya sejumlah terbatas.
Karakteristik set-teoretis abstrak ini memiliki minat atau utilitas yang relatif sedikit. Hanya ketika kita mempertimbangkan tambahan (relevan) struktur matematika pada bahwa konsep ini menjadi berguna. Tapi apa sifat dari C Y yang menarik statistik? Beberapa yang sering muncul adalah:CYCY
adalahset cembung: diberikan setiap dua distribusi F , G ∈ C Y , kita dapat membentukdistribusi campuran(1-t) F +t G ∈Yuntuk semuat∈[0,1]. Ini adalah semacam "homotopy" dariFkeGCYF,G∈CY (1−t)F+tG∈Yt∈[0,1]FG .
Sebagian besar mendukung berbagai metrik semu, seperti perbedaan Kullback-Leibler atau Informasi Fisher terkait erat metrik.CY
memiliki struktur aditif: sesuai dengan setiap dua distribusiFdanGadalah jumlah mereka, F ⋆ G .CYFGF⋆G
mendukung banyak berguna, fungsi alami, sering diistilahkan "sifat." Ini termasuk setiap kuantil tetap (seperti median) sertakumulans.CY
adalah himpunan bagian darifungsi ruang. Dengan demikian, itu mewarisi banyak metrik berguna, sepertinorma sup( L ∞ norma) yang diberikan oleh | | F-G | | ∞ = sup x ∈ R | F(x)-G(x) | .CYL∞
||F−G||∞=supx∈R|F(x)−G(x)|.
Natural tindakan kelompok pada menginduksi tindakan pada C Y . Tindakan yang paling umum adalah terjemahan T μ : x → x + μ dan pengukuran S σ : x → x σ untuk σ > 0 . Efeknya terhadap distribusi adalah mengirim F ke distribusi yang diberikan oleh F μ , σ ( x ) = F ( ( x - μ )RCY Tμ:x→x+μ Sσ:x→xσσ>0F . Ini mengarah pada konsep keluarga skala lokasi dan generalisasi mereka. (Saya tidak memberikan referensi, karena pencarian Web yang luas menghasilkan berbagai definisi yang berbeda: di sini, setidaknya, mungkin ada sedikit kontroversi.)Fμ,σ(x)=F((x−μ)/σ)
Properti yang penting tergantung pada masalah statistik dan pada bagaimana Anda bermaksud untuk menganalisis data. Mengatasi semua variasi yang disarankan oleh karakteristik sebelumnya akan mengambil terlalu banyak ruang untuk media ini. Mari kita fokus pada satu aplikasi penting yang umum.
Ambil, misalnya, Kemungkinan Maksimum. Di sebagian besar aplikasi, Anda ingin dapat menggunakan Kalkulus untuk memperoleh taksiran. Agar ini berhasil, Anda harus dapat "mengambil turunan" dalam keluarga.
( Teknis samping: Cara biasa di mana ini dilakukan adalah untuk memilih domain untuk d ≥ 0 dan menentukan terus menerus, secara lokal dibalik fungsi p dari Θ ke C Y (Ini berarti bahwa untuk setiap. Q ∈ Θ ada ada bola B ( θ , ϵ ) , dengan ϵ > 0 yang p ∣ B ( θ , ϵ ) :Θ⊂Rdd≥0pΘCYθ∈ΘB(θ,ϵ)ϵ>0dengan jumlah yang cukup kecil kita akan selalu mendapatkan distribusi yang berbeda.)) adalah satu-ke-satu. Dengan kata lain, jika kita mengubah θp∣B(θ,ϵ):B(θ,ϵ)∩Θ→CYθ
Akibatnya, dalam sebagian besar aplikasi ML kami meminta agar kontinu (dan mudah-mudahan, hampir di mana saja dapat dibedakan) dalam komponen Θ . (Tanpa kontinuitas, memaksimalkan kemungkinan secara umum menjadi masalah yang sulit dipecahkan.) Hal ini mengarah pada definisi berorientasi-kemungkinan berikut dari keluarga parametrikpΘ :
Keluarga parametrik dari distribusi (univariat) adalah peta yang tidak dapat dibalik secara lokal dengan Θ ⊂ R n , di mana (a) setiap F θ adalah fungsi distribusi dan (b) untuk setiap x ∈ R , fungsi L x : θ → [ 0 , 1 ] diberikan oleh L x ( θ ) = F ( x , θ )
F:R×Θ→[0,1],
Θ⊂RnFθx∈RLx:θ→[0,1]Lx(θ)=F(x,θ) berkelanjutan dan hampir di mana-mana dapat dibedakan.
Perhatikan bahwa keluarga parametrik lebih dari sekedar kumpulan F θ : ia juga mencakup cara spesifik di mana nilai parameter θFFθθ sesuai dengan distribusi.
Mari kita akhiri dengan beberapa contoh ilustrasi.
Biarkan menjadi himpunan semua distribusi Normal. Seperti yang diberikan, ini bukan keluarga parametrik: itu hanya keluarga. Untuk menjadi parametrik, kita harus memilih parameterisasi. Salah satu caranya adalah dengan memilih Θ = { ( μ , σ ) ∈ R 2 ∣ σ > 0 }
dan untuk memetakan ( μ , σ ) ke distribusi Normal dengan rata-rata μ
dan varians σ 2 .CYΘ={(μ,σ)∈R2∣σ>0}(μ,σ)μσ2
Set distribusi Poisson (λ) adalah keluarga parametrik dengan λ∈Θ=(0,∞)⊂R1 .
Set distribusi Uniform (yang ditampilkan dengan jelas dalam banyak latihan buku teks) adalah keluarga parametrik dengan
θ ∈ R 1 . Dalam hal ini, F θ ( x ) = maks ( 0 , min ( 1 , x - θ ) ) dapat dibedakan dalam θ kecuali untuk
θ ∈ { x , x - 1 }(θ,θ+1)θ∈R1Fθ(x)=max(0,min(1,x−θ))θθ∈{x,x−1} .
Mari dan G menjadi salah dua distribusi. Maka F ( x , θ ) = ( 1 - θ ) F ( x ) + θ G ( x ) adalah keluarga parametrik untuk θ ∈ [ 0 , 1 ] . (Bukti: gambar F adalah sekumpulan distribusi dan turunan parsialnya dalam θ sama dengan - F ( x ) + x )FGF(x,θ)=(1−θ)F(x)+θG(x)θ∈[0,1]Fθ−F(x)+G(x) yang didefinisikan di mana-mana.)
Keluarga Pearson adalah keluarga empat dimensi, , yang meliputi (antara lain) distribusi Normal, distribusi Beta, dan distribusi Inverse Gamma. Ini menggambarkan fakta bahwa setiap distribusi yang diberikan mungkin milik banyak keluarga distribusi yang berbeda . Ini sangat analog dengan mengamati bahwa setiap titik dalam ruang (cukup besar) mungkin milik banyak jalur yang bersinggungan di sana. Ini, bersama dengan konstruksi sebelumnya, menunjukkan kepada kita bahwa tidak ada distribusi yang secara unik menentukan keluarga dari mana ia berasal.Θ⊂R4
Keluarga dari semua terbatas-variance distribusi benar-benar terus menerus tidak parametrik. Buktinya membutuhkan teorema dalam topologi: jika kita memberkati C Y dengan setiap topologi (apakah secara statistik berguna atau tidak) dan p : q → C Y kontinu dan lokal memiliki invers terus menerus, maka secara lokal C Y harus memiliki dimensi yang sama seperti bahwa dari Θ . Namun, dalam semua topologi statistik bermakna, C Y adalah tak terbatas dimensi.CYCYp:Θ→CYCYΘCY