Statistik dan Big Data model-selection

1

Derajat kebebasan residual yang sesuai setelah menjatuhkan persyaratan dari suatu model

Saya merenungkan diskusi seputar pertanyaan ini dan khususnya komentar Frank Harrell bahwa estimasi untuk varians dalam model yang dikurangi (yaitu satu dari mana sejumlah variabel penjelas telah diuji dan ditolak) harus menggunakan Tingkat Kemerdekaan Umum Ye . Profesor Harrell menunjukkan ini akan jauh lebih dekat dengan derajat sisa kebebasan dari …

27 r regression model-selection regression-strategies

3

Dapatkah AIC membandingkan berbagai jenis model?

Saya menggunakan AIC (Kriteria Informasi Akaike) untuk membandingkan model non-linear dalam R. Apakah valid untuk membandingkan AIC dari berbagai jenis model? Secara khusus, saya membandingkan model yang dipasang oleh glm versus model dengan istilah efek acak yang dipasang oleh glmer (lme4). Jika tidak, adakah cara perbandingan seperti itu dapat dilakukan? …

27 lme4-nlme model-selection aic

4

Bagaimana mengukur / memberi peringkat “variabel penting” saat menggunakan CART? (khusus menggunakan {rpart} dari R)

Ketika membangun model CART (khususnya pohon klasifikasi) menggunakan rpart (dalam R), seringkali menarik untuk mengetahui apa pentingnya berbagai variabel yang diperkenalkan pada model. Dengan demikian, pertanyaan saya adalah: Apa ukuran umum yang ada untuk menentukan peringkat / mengukur variabel kepentingan variabel yang berpartisipasi dalam model CART? Dan bagaimana ini bisa …

27 r classification model-selection cart rpart

3

Prasyarat untuk perbandingan model AIC

Apa saja prasyarat yang harus dipenuhi untuk perbandingan model AIC agar bekerja? Saya baru saja menjawab pertanyaan ini ketika melakukan perbandingan seperti ini: > uu0 = lm(log(usili) ~ rok) > uu1 = lm(usili ~ rok) > AIC(uu0) [1] 3192.14 > AIC(uu1) [1] 14277.29 Dengan cara ini saya membenarkan logtransformasi variabel …

26 regression model-selection aic model-comparison nested-models

4

Mengatasi ketidakpastian model

Saya bertanya-tanya bagaimana orang Bayesian di komunitas CrossValidated melihat masalah ketidakpastian model dan bagaimana mereka lebih suka menghadapinya? Saya akan mencoba mengajukan pertanyaan saya dalam dua bagian: Seberapa penting (dalam pengalaman / pendapat Anda) berurusan dengan ketidakpastian model? Saya belum menemukan makalah yang menangani masalah ini di komunitas pembelajaran mesin, …

25 machine-learning bayesian model-selection

5

Apa keuntungan dari memperlakukan faktor sebagai acak dalam model campuran?

Saya memiliki masalah dalam merangkul manfaat pemberian label faktor model secara acak karena beberapa alasan. Bagi saya sepertinya dalam hampir semua kasus solusi optimal adalah memperlakukan semua faktor sebagai tetap. Pertama, perbedaan fixed vs random cukup arbitrer. Penjelasan standar adalah bahwa, jika seseorang tertarik pada unit eksperimen tertentu, maka ia …

24 model-selection random-effects-model aic fixed-effects-model mixed-model

4

Apakah Anda memiliki visi global tentang teknik analisis tersebut?

Saat ini saya sedang mengerjakan proyek yang pada dasarnya saya butuhkan, seperti yang kita semua lakukan, untuk memahami bagaimana output terkait dengan input . Kekhasan di sini adalah bahwa data diberikan kepada saya satu per satu, jadi saya ingin memperbarui analisis saya setiap kali saya menerima yang baru . Saya …

24 modeling model-selection

2

Stabilitas topik dalam model topik

Saya sedang mengerjakan sebuah proyek di mana saya ingin mengekstraksi beberapa informasi tentang isi dari serangkaian esai terbuka. Dalam proyek khusus ini, 148 orang menulis esai tentang organisasi siswa hipotetis sebagai bagian dari eksperimen yang lebih besar. Meskipun di bidang saya (psikologi sosial), cara khas untuk menganalisis data ini adalah …

23 machine-learning model-selection small-sample topic-models dirichlet-process

3

AIC versus validasi silang dalam seri waktu: kasus sampel kecil

Saya tertarik pada pemilihan model dalam pengaturan deret waktu. Untuk konkret, anggaplah saya ingin memilih model ARMA dari kumpulan model ARMA dengan pesanan lag yang berbeda. Maksud utamanya adalah perkiraan . Pemilihan model dapat dilakukan oleh validasi silang, penggunaan kriteria informasi (AIC, BIC), antara metode lainnya. Rob J. Hyndman menyediakan …

23 time-series forecasting cross-validation model-selection aic

2

Mengapa Wilks 1938 proof tidak berfungsi untuk model yang tidak ditentukan spesifikasi?

Dalam makalah yang terkenal tahun 1938 (" Distribusi sampel-besar dari rasio kemungkinan untuk menguji hipotesis komposit ", Annals of Mathematical Statistics, 9: 60-62), Samuel Wilks memperoleh distribusi asimtotik dari (log likelihood ratio) untuk hipotesis bersarang, dengan asumsi bahwa hipotesis yang lebih besar ditentukan dengan benar. Distribusi pembatas adalah (chi-squared) dengan …

23 hypothesis-testing model-selection likelihood-ratio asymptotics misspecification

1

Memilih di antara aturan penilaian yang tepat

Sebagian besar sumber daya pada aturan penilaian yang tepat menyebutkan sejumlah aturan penilaian yang berbeda seperti log-loss, Brier score atau spherical scoring. Namun, mereka sering tidak memberikan banyak panduan tentang perbedaan di antara mereka. (Bukti A: Wikipedia .) Memilih model yang memaksimalkan skor logaritmik sesuai dengan memilih model maksimum-likelihood, yang …

22 machine-learning classification model-selection theory scoring-rules

3

Model stabilitas ketika berhadapan dengan besar , kecil masalah

Pengantar: Saya memiliki dataset dengan "p besar, n kecil masalah" klasik. Jumlah sampel yang tersedia n = 150 sedangkan jumlah prediktor yang mungkin p = 400. Hasilnya adalah variabel kontinu. Saya ingin menemukan deskriptor yang paling "penting", yaitu, yang merupakan kandidat terbaik untuk menjelaskan hasil dan membantu membangun teori. Setelah …

22 regression cross-validation model-selection feature-selection elastic-net

2

Pendekatan terbaik untuk pemilihan model Bayesian atau validasi silang?

Ketika mencoba untuk memilih di antara berbagai model atau sejumlah fitur untuk disertakan, katakan prediksi saya dapat memikirkan dua pendekatan. Membagi data menjadi pelatihan dan set tes. Lebih baik lagi, gunakan bootstrap atau k-fold cross-validation. Latihlah set latihan setiap kali dan hitung kesalahan dari set tes. Plot test error vs. …

22 bayesian model-selection cross-validation feature-selection

2

Apa yang dimaksud dengan properti oracle dari estimator?

Apa yang dimaksud dengan properti oracle dari estimator? Apa tujuan pemodelan yang relevan dengan properti oracle (prediktif, jelas, ...)? Baik penjelasan teoritis yang ketat dan (terutama) intuitif dipersilakan.

22 feature-selection model-selection estimators oracle

3

AIC atau p-value: mana yang akan dipilih untuk pemilihan model?

Saya baru untuk hal R ini tetapi tidak yakin model mana yang harus dipilih. Saya melakukan regresi maju bertahap memilih setiap variabel berdasarkan AIC terendah. Saya datang dengan 3 model yang saya tidak yakin mana yang "terbaik". Model 1: Var1 (p=0.03) AIC=14.978 Model 2: Var1 (p=0.09) + Var2 (p=0.199) AIC …

22 model-selection aic stepwise-regression

Pertanyaan yang diberi tag «model-selection»