Apa distribusi dalam regresi linier di bawah hipotesis nol? Mengapa modenya tidak nol ketika ?


26

Apa distribusi koefisien determinasi, atau R kuadrat, , dalam regresi berganda univariat linier di bawah hipotesis nol ?R2H0:β=0

Bagaimana hal itu tergantung pada jumlah prediktor dan jumlah sampel ? Apakah ada ekspresi bentuk tertutup untuk mode distribusi ini?kn>k

Secara khusus, saya merasa bahwa untuk regresi sederhana (dengan satu prediktor ) distribusi ini memiliki mode nol, tetapi untuk regresi berganda mode berada pada nilai positif bukan nol. Jika ini memang benar, adakah penjelasan intuitif tentang "transisi fase" ini?x


Memperbarui

Seperti yang ditunjukkan oleh @Alecos di bawah ini, distribusi memang memuncak pada nol ketika dan dan tidak pada nol ketika . Saya merasa bahwa harus ada pandangan geometris pada transisi fase ini. Pertimbangkan tampilan geometris OLS: adalah vektor dalam , mendefinisikan subruang -dimensi di sana. OLS sama dengan memproyeksikan ke subruang ini, dan dikuadratkan dengan cosinus sudut antara dan projeksi \ hat {\ mathbf y} .k=2k=3k>3yRnXkyR2yyy^

Sekarang, dari jawaban @ Alecos dapat disimpulkan bahwa jika semua vektor adalah acak, maka distribusi probabilitas sudut ini akan memuncak pada 90 untuk k=2 dan k=3 , tetapi akan memiliki mode pada beberapa nilai lain <90 untuk k>3 . Mengapa?!


Pembaruan 2: Saya menerima jawaban @ Alecos, tetapi masih merasa bahwa saya kehilangan beberapa wawasan penting di sini. Jika ada yang menyarankan pandangan lain (geometris atau tidak) tentang fenomena ini yang akan membuatnya "jelas", saya akan dengan senang hati menawarkan hadiah.


1
Apakah Anda bersedia menganggap normalitas kesalahan?
Dimitriy V. Masterov

1
Ya, saya kira kita harus menganggapnya untuk membuat pertanyaan ini dapat dijawab (?).
Amoeba berkata Reinstate Monica


1
@Khashaa: sebenarnya, saya harus mengakui bahwa saya memang menemukan halaman blogspot itu sebelum memposting pertanyaan saya di sini. Jujur, saya masih ingin berdiskusi tentang fenomena ini di forum kami, jadi pura-pura tidak melihatnya.
Amuba mengatakan Reinstate Monica

Jawaban:


33

Untuk hipotesis spesifik (bahwa semua koefisien regresi adalah nol, tidak termasuk istilah konstan, yang tidak diperiksa dalam tes ini) dan di bawah normalitas, kita tahu (lihat misalnya Maddala 2001, hal. 155, tetapi perhatikan bahwa ada, menghitung regressor tanpa suku konstanta, sehingga ekspresi terlihat sedikit berbeda) dengan statistikk

F(k-1,n-k)

F=nkk1R21R2
didistribusikan sebagai variabel acak pusat .F(k1,nk)

Perhatikan bahwa meskipun kita tidak menguji istilah konstan, juga menghitungnya.k

Memindahkan segalanya,

(k1)F(k1)FR2=(nk)R2(k1)F=R2[(nk)+(k1)F]

R2=(k1)F(nk)+(k1)F

Tetapi sisi kanan didistribusikan sebagai distribusi Beta , khususnya

R2Beta(k12,nk2)

The modus distribusi ini

modeR2=k121k12+nk22=k3n5

FINITE & MODE UNIK
Dari hubungan di atas kita dapat menyimpulkan bahwa untuk distribusi memiliki mode yang unik dan terbatas kita harus memiliki

k3,n>5

Ini konsisten dengan persyaratan umum untuk distribusi Beta, yaitu

{α>1,β1},OR{α1,β>1}

seperti yang dapat disimpulkan dari utas CV ini atau baca di sini .
Perhatikan bahwa jika , kami memperoleh distribusi Uniform, jadi semua titik kerapatan adalah mode (terbatas tetapi tidak unik). Yang menciptakan pertanyaan: Mengapa, jika , didistribusikan sebagai ?k = 3 , n = 5 R 2 U ( 0 , 1 ){α=1,β=1}k=3,n=5R2U(0,1)

IMPLIKASI
Asumsikan bahwa Anda memiliki regresi (termasuk konstanta), dan pengamatan. Regresi yang cukup bagus, tidak ada overfitting. Kemudiann = 99k=5n=99

R2|β=0Beta(2,47),modeR2=1470.021

dan plot kepadatan

masukkan deskripsi gambar di sini

Tolong intuisi: ini adalah distribusi bawah hipotesis bahwa sebenarnya tidak ada regresi yang termasuk dalam regresi. Jadi a) distribusinya tidak tergantung pada regressor, b) karena ukuran sampel meningkat distribusinya terkonsentrasi ke nol ketika informasi meningkat rawa variabilitas sampel kecil yang dapat menghasilkan beberapa "cocok" tetapi juga c) karena jumlah regressor yang tidak relevan meningkat untuk ukuran sampel yang diberikan, distribusi terkonsentrasi ke , dan kami memiliki fenomena "spurious fit". R21

Tetapi juga, perhatikan betapa "mudahnya" untuk menolak hipotesis nol: dalam contoh khusus, untuk probabilitas kumulatif telah mencapai , sehingga diperoleh akan menolak nol dari "regresi tidak signifikan" "pada level signifikansi %.R2=0.130.99R2>0.131

ADDENDUM
Untuk menanggapi masalah baru mengenai mode distribusi , saya dapat menawarkan garis pemikiran berikut (bukan geometris), yang menghubungkannya dengan fenomena "spurious fit": ketika kami menjalankan kuadrat-terkecil pada data set, kita pada dasarnya menyelesaikan sistem persamaan linear dengan tidak diketahui (satu-satunya perbedaan dari matematika SMA adalah bahwa saat itu kita disebut "koefisien dikenal" apa yang dalam regresi linier kita sebut "variabel / regresi", "tidak diketahui x" apa sekarang kita sebut "koefisien tidak diketahui", dan "istilah konstan" yang kita kenal sebagai "variabel dependen"). AsalkanR2nkk<nsistem ini terlalu-diidentifikasi dan tidak ada solusi yang tepat, hanya perkiraan-dan perbedaan muncul sebagai "varians yang tidak dijelaskan dari variabel dependen", yang ditangkap oleh . Jika sistem memiliki satu solusi yang tepat (dengan asumsi independensi linear). Di antaranya, saat kami meningkatkan jumlah , kami mengurangi "tingkat overidentification" dari sistem dan kami "bergerak menuju" solusi tunggal yang tepat. Di bawah pandangan ini, masuk akal mengapa meningkat secara palsu dengan penambahan regresi yang tidak relevan, dan akibatnya, mengapa modenya bergerak secara bertahap menuju , karena meningkat untuk diberikan .1R2k=nkR21kn


1
Itu matematika. Untuk parameter pertama dari distribusi beta (" " dalam notasi standar) menjadi lebih kecil dari satu. Dalam hal ini distribusi Beta tidak memiliki mode terbatas, bermain-main dengan keisan.casio.com/exec/system/1180573226 untuk melihat bagaimana bentuk berubah. k=2α
Alecos Papadopoulos

1
@Alecos Jawaban yang sangat bagus! (+1) Dapatkah saya sangat menyarankan agar Anda menambahkan ke jawaban Anda persyaratan untuk mode ada? Ini biasanya dinyatakan sebagai dan tetapi lebih halus, tidak apa-apa jika kesetaraan berlaku di salah satu dari dua ... Saya pikir untuk tujuan kita ini menjadi dan dan setidaknya salah satu dari ketimpangan ini sangat ketat . α>1β>1k3 nk+2
Silverfish

2
@ Khashaa Kecuali jika teori menuntutnya, saya tidak pernah mengecualikan intersep dari regresi - itu adalah level rata-rata dari variabel dependen, regressor atau no regressor (dan level ini biasanya positif, sehingga akan menjadi kesalahan spesifikasi yang dibuat sendiri oleh bodoh untuk hilangkan itu). Tetapi saya selalu mengecualikannya dari F-test regresi, karena apa yang saya pedulikan bukanlah apakah variabel dependen memiliki bukan-nol berarti tanpa syarat, tetapi apakah para regresi memiliki kekuatan penjelas sehubungan dengan penyimpangan dari rata-rata ini.
Alecos Papadopoulos

1
+1! Apakah ada hasil untuk distribusi untuk bukan nol β j ? R2βj
Christoph Hanck


18

Aku tidak akan rederive yang distribusi jawaban yang sangat bagus dari @ Alecos (ini adalah hasil standar, lihat disiniuntuk diskusi yang bagus) tetapi saya ingin mengisi lebih banyak detail tentang konsekuensinya! Pertama, seperti apa distribusi nullR2untuk rentang nilaindank? Grafik dalam jawaban Alecos cukup representatif dari apa yang terjadi dalam regresi berganda praktis, tetapi terkadang wawasan diperoleh dengan lebih mudah dari kasus yang lebih kecil. Saya sudah memasukkan mean, mode (di mana ada) dan standar deviasi. Grafik / tabel layak mendapatkan bola mata yang bagus:paling baik dilihat pada ukuran penuh. Saya bisa memasukkan lebih sedikit segi tetapi polanya akan kurang jelas; Saya telah menambahkanBeta(k12,nk2)R2nkRkode sehingga pembaca dapat bereksperimen dengan himpunan bagian yang berbeda dari dan k .nk

Distribusi R2 untuk ukuran sampel kecil

Nilai parameter bentuk

Skema warna grafik menunjukkan apakah setiap parameter bentuk kurang dari satu (merah), sama dengan satu (biru), atau lebih dari satu (hijau). Sisi kiri menunjukkan nilai sementara β di kanan. Karena α = k - 1αβ , nilainya meningkat dalam perkembangan aritmatika dengan perbedaan umum1α=k12 ketika kita bergerak langsung dari kolom ke kolom (tambahkan regressor ke model kita) sedangkan, untukntetap,β=n-k12n berkurang sebanyak1β=nk2 . Totalα+β=n-112 ditetapkan untuk setiap baris (untuk ukuran sampel tertentu). Jika sebaliknya kita memperbaikikdan menurunkan kolom (menambah ukuran sampel sebesar 1), makaαtetap konstan danβmeningkat sebesar1α+β=n12kαβ . Dalam istilah regresi,αadalah setengah dari jumlah regressor yang termasuk dalam model, danβadalah setengah dari derajat kebebasan yang tersisa. Untuk menentukan bentuk distribusi kami terutama tertarik di manaαatauβsama dengan.12αβαβ

Aljabar mudah untuk : kami memiliki k - 1αjadik=3. Ini memang satu-satunya kolom plot segi yang berwarna biru di sebelah kiri. Demikian pulaα<1untukk<3(kolomk=2berwarna merah di sebelah kiri) danα>1untukk>3(dari kolomk=4dan seterusnya, sisi kiri berwarna hijau).k12=1k=3α<1k<3k=2α>1k>3k=4

Untuk kita memiliki n - kβ=1makak=n-2. Perhatikan bagaimana kasing ini (ditandai dengan sisi kanan berwarna biru) memotong garis diagonal di seluruh sisi bidang. Untukβ>1kita memperolehk<n-2(grafik dengan sisi kiri hijau terletak di sebelah kiri garis diagonal). Untukβ<1kita perluk>n-2, yang hanya melibatkan sebagian besar kasus pada grafik saya: padan=kkita memilikiβ=0dan distribusinya mengalami degenerasi, tetapinnk2=1k=n2β>1k<n2β<1k>n2n=kβ=0 di mana β = 1n=k1 diplot (sisi kanan berwarna merah).β=12

Karena PDF adalah , jelas bahwa jika (dan hanya jika) α < 1 maka f ( x ) sebagai x 0 . Kita bisa melihat ini dalam grafik: ketika sisi kiri berbayang merah, amati perilaku di 0. Demikian pula ketika β < 1 lalu f ( x ) sebagai x 1 . Lihat di mana sisi kanan berwarna merah!f(x;α,β)xα1(1x)β1α<1f(x)x0β<1f(x)x1

Simetri

Salah satu fitur grafik yang paling menarik perhatian adalah tingkat simetri, tetapi ketika distribusi Beta terlibat, ini seharusnya tidak mengejutkan!

Distribusi Beta itu sendiri simetris jika . Bagi kami ini terjadi jika n = 2 k - 1 yang mengidentifikasi panel dengan benar ( k = 2 , n = 3 ) , ( k = 3 , n = 5 ) , ( k = 4 , n = 7 ) dan ( k = 5 , n = 9 )α=βn=2k1(k=2,n=3)(k=3,n=5)(k=4,n=7)(k=5,n=9). Sejauh mana distribusi simetris di tergantung pada berapa banyak variabel regresi yang kami sertakan dalam model untuk ukuran sampel itu. Jika k = n + 1R2=0.5 distribusiR2adalah simetris sempurna sekitar 0,5; jika kita memasukkan lebih sedikit variabel daripada itu menjadi semakin asimetris dan sebagian besar massa kemungkinan bergeser lebih dekat keR2=0; jika kita memasukkan lebih banyak variabel maka itu bergeser lebih dekat keR2=1. Ingatlah bahwakmenyertakan intersep dalam hitungannya, dan kami bekerja di bawah nol, sehingga variabel regressor harus memiliki koefisien nol dalam model yang ditentukan dengan benar.k=n+12R2R2=0R2=1k

Ada juga simetri yang jelas antara distribusi untuk setiap diberikan , yaitu setiap baris dalam facet grid. Misalnya, bandingkan ( k = 3 , n = 9 ) dengan ( k = 7 , n = 9 ) . Apa yang menyebabkan ini? Ingatlah bahwa distribusi B e t a ( α , β ) adalah gambar cermin dari B e t a ( β , α ) di seluruh xn(k=3,n=9)(k=7,n=9)Beta(α,β)Beta(β,α) . Sekarang kami memiliki α k , n = k - 1x=0.5 danβk,n=n-kαk,n=k12 . Pertimbangkank'=n-k+1dan kita menemukan:βk,n=nk2k=nk+1

βk,n=n-(n-k+1)

αk,n=(nk+1)12=nk2=βk,n
βk,n=n(nk+1)2=k12=αk,n

Jadi ini menjelaskan simetri saat kita memvariasikan jumlah regresi dalam model untuk ukuran sampel tetap. Ini juga menjelaskan distribusi yang sendiri simetris sebagai kasus khusus: bagi mereka, sehingga mereka wajib simetris dengan diri mereka sendiri!k=k

Ini memberitahu kita sesuatu yang kita mungkin tidak menduga tentang regresi berganda: untuk ukuran sampel yang diberikan , dan dengan asumsi tidak ada regressors memiliki hubungan asli dengan Y , yang R 2 untuk model menggunakan k - 1 regressors ditambah intercept memiliki distribusi yang sama seperti 1 - R 2 tidak untuk model dengan k - 1 derajat sisa kebebasan yang tersisa .nYR2k11R2k1

Distribusi khusus

Ketika kita memiliki β = 0 , yang bukan merupakan parameter yang valid. Namun, seperti β 0 distribusi menjadi berdegenerasi dengan lonjakan sedemikian rupa sehingga P ( R 2 = 1 ) = 1 . Ini konsisten dengan apa yang kita ketahui tentang model dengan parameter sebanyak poin data - itu mencapai sangat cocok. Saya belum menggambar distribusi degenerasi pada grafik saya tetapi sudah memasukkan mean, mode dan standar deviasi.k=nβ=0β0P(R2=1)=1

Ketika dan n = 3 kita memperoleh B e t a ( 1k=2n=3yang merupakandistribusi arcsine. Ini simetris (karenaα=β) dan bimodal (0 dan 1). Karena ini adalah satu-satunya kasus di mana keduaα<1danβ<1(ditandai merah di kedua sisi), itu adalah satu-satunya distribusi kami yang pergi hingga tak terbatas di kedua ujung dukungan.Beta(12,12)α=βα<1β<1

The distribusi adalah satu-satunya distribusi Beta yangberbentuk persegi panjang (seragam). Semua nilai R 2 dari 0 hingga 1 kemungkinan sama besar. Satu-satunya kombinasi k dan n dimana α = β = 1 terjadi adalah k = 3 dan n = 5 (ditandai biru di kedua sisi).Beta(1,1)R2knα=β=1k=3n=5

Kasing khusus sebelumnya terbatas penerapannya, tetapi dan β = 1 (hijau di kiri, biru di kanan) penting. Sekarang f ( x ;α>1β=1 sehingga kami memilikidistribusi kuasa-hukumpada [0, 1]. Tentu saja tidak mungkin kami melakukan regresi dengan k = n - 2 dan k > 3 , saat itulah situasi ini terjadi. Tetapi dengan argumen simetri sebelumnya, atau aljabar sepele pada PDF,ketika k = 3 dan n > 5f(x;α,β)xα1(1x)β1=xα1k=n2k>3k=3n>5, yang merupakan prosedur berulang dari beberapa regresi dengan dua regresi dan mencegat pada ukuran sampel non-sepele, akan mengikuti distribusi kekuatan hukum yang tercermin pada [0, 1] di bawah H 0 . R2H0Ini sesuai dengan dan β > 1 sehingga ditandai biru di kiri, hijau di kanan.α=1β>1

Anda mungkin juga memperhatikan distribusi segitiga di dan refleksinya ( k = 3 , n = 7 ) . Kita dapat mengenali dari α dan β mereka bahwa ini hanyalah kasus khusus dari hukum-kekuasaan dan distribusi hukum-hukum yang direfleksikan di mana kekuatannya 2 - 1 = 1 .(k=5,n=7)(k=3,n=7)αβ21=1

Mode

Jika dan β > 1 , semuanya berwarna hijau di plot, f ( x ;α>1β>1 cekung dengan f ( 0 ) = f ( 1 ) = 0 , dan distribusi Beta memiliki mode unik α - 1f(x;α,β)f(0)=f(1)=0 . Menempatkan ini dalam bentukkdann, kondisinya menjadik>3dann>k+2saat mode adalahk-3α1α+β2knk>3n>k+2 .k3n5

Semua kasus lain telah ditangani di atas. Jika kita mengendurkan ketidaksetaraan untuk memungkinkan , maka kita menyertakan distribusi hukum-kekuatan (hijau-biru) dengan k = n - 2 dan k > 3 (setara, n > 5 ). Kasus-kasus ini jelas memiliki mode 1, yang sebenarnya setuju dengan rumus sebelumnya sejak ( n - 2 ) - 3β=1k=n2k>3n>5. Jika sebaliknya kita membiarkanα=1tetapi masih menuntutβ>1, kita akan menemukan distribusi hukum-daya yang dipantulkan (biru-hijau) dengank=3dann>5. Mode mereka adalah 0, yang setuju dengan3-3(n2)3n5=1α=1β>1k=3n>5. Namun, jika kita mengendurkan kedua ketidaksetaraan secara bersamaan untuk memungkinkanα=β=1, kita akan menemukan distribusi seragam (semua biru) dengank=3dann=5, yang tidak memiliki mode unik. Selain itu rumus sebelumnya tidak dapat diterapkan dalam kasus ini, karena akan mengembalikan bentuk tak tentu3-333n5=0α=β=1k=3n=5 .3355=00

Ketika kita mendapatkan distribusi yang berdegenerasi dengan mode 1. Ketika β < 1 (dalam istilah regresi, n = k - 1 sehingga hanya ada satu derajat residual kebebasan) maka f ( x ) sebagai x 1 , dan ketika α < 1 (dalam istilah regresi, k = 2 jadi model linier sederhana dengan intersep dan satu regresi) maka f ( x ) sebagai x 0n=kβ<1n=k1f(x)x1α<1k=2f(x)x0. Ini akan menjadi mode unik kecuali dalam kasus yang tidak biasa di mana dan n = 3 (pas model linier sederhana ke tiga titik) yang merupakan bimodal pada 0 dan 1. k=2n=3

Berarti

Pertanyaan yang diajukan tentang mode, tetapi rata-rata bawah nol juga menarik - ia memiliki bentuk sangat sederhana k - 1R2 . Untuk ukuran sampel tetap, ini meningkatkan progres aritmatika karena lebih banyak regressor ditambahkan ke model, hingga nilai rata-rata adalah 1 ketikak=n. Mean dari distribusi Beta adalahαk1n1k=n sehingga perkembangan aritmatika seperti itu tidak dapat dihindari dari pengamatan kami sebelumnya bahwa, untukntetap, jumlahα+βadalah konstan tetapiαmeningkat sebesar 0,5 untuk setiap regressor yang ditambahkan ke model.αα+βnα+βα

αα+β=(k1)/2(k1)/2+(nk)/2=k1n1

Kode untuk plot

require(grid)
require(dplyr)

nlist <- 3:9 #change here which n to plot
klist <- 2:8 #change here which k to plot

totaln <- length(nlist)
totalk <- length(klist)

df <- data.frame(
    x = rep(seq(0, 1, length.out = 100), times = totaln * totalk),
    k = rep(klist, times = totaln, each = 100),
    n = rep(nlist, each = totalk * 100)
)

df <- mutate(df,
    kname = paste("k =", k),
    nname = paste("n =", n),
    a = (k-1)/2,
    b = (n-k)/2,
    density = dbeta(x, (k-1)/2, (n-k)/2),
    groupcol = ifelse(x < 0.5, 
        ifelse(a < 1, "below 1", ifelse(a ==1, "equals 1", "more than 1")),
        ifelse(b < 1, "below 1", ifelse(b ==1, "equals 1", "more than 1")))
)

g <- ggplot(df, aes(x, density)) +
    geom_line(size=0.8) + geom_area(aes(group=groupcol, fill=groupcol)) +
    scale_fill_brewer(palette="Set1") +
    facet_grid(nname ~ kname)  + 
    ylab("probability density") + theme_bw() + 
    labs(x = expression(R^{2}), fill = expression(alpha~(left)~beta~(right))) +
    theme(panel.margin = unit(0.6, "lines"), 
        legend.title=element_text(size=20),
        legend.text=element_text(size=20), 
        legend.background = element_rect(colour = "black"),
        legend.position = c(1, 1), legend.justification = c(1, 1))


df2 <- data.frame(
    k = rep(klist, times = totaln),
    n = rep(nlist, each = totalk),
    x = 0.5,
    ymean = 7.5,
    ymode = 5,
    ysd = 2.5
)

df2 <- mutate(df2,
    kname = paste("k =", k),
    nname = paste("n =", n),
    a = (k-1)/2,
    b = (n-k)/2,
    meanR2 = ifelse(k > n, NaN, a/(a+b)),
    modeR2 = ifelse((a>1 & b>=1) | (a>=1 & b>1), (a-1)/(a+b-2), 
        ifelse(a<1 & b>=1 & n>=k, 0, ifelse(a>=1 & b<1 & n>=k, 1, NaN))),
    sdR2 = ifelse(k > n, NaN, sqrt(a*b/((a+b)^2 * (a+b+1)))),
    meantext = ifelse(is.nan(meanR2), "", paste("Mean =", round(meanR2,3))),
    modetext = ifelse(is.nan(modeR2), "", paste("Mode =", round(modeR2,3))),
    sdtext = ifelse(is.nan(sdR2), "", paste("SD =", round(sdR2,3)))
)

g <- g + geom_text(data=df2, aes(x, ymean, label=meantext)) +
    geom_text(data=df2, aes(x, ymode, label=modetext)) +
    geom_text(data=df2, aes(x, ysd, label=sdtext))
print(g)

1
Visualisasi yang sangat mencerahkan. +1
Khashaa

Tambahan yang bagus, +1, terima kasih. Saya perhatikan bahwa Anda memanggil mode ketika distribusi masuk ke + ketika x 0 (dan tempat lain) - sesuatu yang @Alecos di atas (di komentar) tidak ingin lakukan. Saya setuju dengan Anda: nyaman. 0+x0
Amuba mengatakan Reinstate Monica

1
@amoeba dari grafik, kami ingin mengatakan "nilai sekitar 0 kemungkinan besar" (atau 1). Tetapi jawaban Alecos juga konsisten dan konsisten dengan banyak pihak berwenang (orang berbeda pada apa yang harus dilakukan tentang penghentian penuh 0 dan 1, apalagi apakah mereka dapat dihitung sebagai mode!). Pendekatan saya pada mode berbeda dari Alecos karena saya menggunakan kondisi pada alpha dan beta untuk menentukan di mana rumus itu berlaku, daripada mengambil titik awal saya sebagai rumus dan melihat k dan n mana yang memberikan jawaban yang masuk akal.
Silverfish

1
(+1), ini adalah jawaban yang sangat gemuk. Dengan menjaga terlalu dekat dengan n dan keduanya kecil, pertanyaan itu mempelajari secara terperinci, dan dengan sangat meyakinkan, kasus sampel yang sangat kecil dengan regressor yang relatif terlalu banyak dan tidak relevan. kn
Alecos Papadopoulos

@amoeba Anda mungkin memperhatikan bahwa jawaban ini memberikan jawaban aljabar mengapa, untuk cukup besar , mode distribusi adalah 0 untuk k = 3 tetapi positif untuk k > 3 . Karena f ( x ) x ( k - 3 ) / 2 ( 1 - x ) ( n - k - 2 ) / 2 maka untuk k = 3 kita memiliki f ( xnk=3k>3f(x)x(k3)/2(1x)(nk2)/2k=3 yang jelas akan memiliki modus pada 0 untuk n > 5 , sedangkan untuk k = 4 kita memiliki f ( x ) α x 1 / 2 ( 1 - x ) ( n - 6 ) / 2 yang maksimal dapat ditemukan oleh kalkulus untuk menjadi rumus mode yang dikutip. Saat k meningkat, kekuatan xf(x)(1x)(n5)/2n>5k=4f(x)x1/2(1x)(n6)/2kxnaik 0,5 setiap kali. Ini ini faktor yang membuat f ( 0 ) = 0 sehingga membunuh modus pada 0xα1f(0)=0
Silverfish
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.