Saya menjalankan model regresi LOESS dalam R, dan saya ingin membandingkan output dari 12 model yang berbeda dengan ukuran sampel yang bervariasi. Saya dapat menjelaskan model yang sebenarnya lebih terinci jika itu membantu dengan menjawab pertanyaan.
Berikut adalah ukuran sampel:
Fastballs vs RHH 2008-09: 2002
Fastballs vs LHH 2008-09: 2209
Fastballs vs RHH 2010: 527
Fastballs vs LHH 2010: 449
Changeups vs RHH 2008-09: 365
Changeups vs LHH 2008-09: 824
Changeups vs RHH 2010: 201
Changeups vs LHH 2010: 330
Curveballs vs RHH 2008-09: 488
Curveballs vs LHH 2008-09: 483
Curveballs vs RHH 2010: 213
Curveballs vs LHH 2010: 162
Model regresi LOESS adalah fit permukaan, di mana lokasi X dan lokasi Y dari masing-masing lapangan baseball digunakan untuk memprediksi probabilitas sw, pukulan ayun. Namun, saya ingin membandingkan antara 12 model ini, tetapi pengaturan rentang yang sama (yaitu rentang = 0,5) akan menghasilkan hasil yang berbeda karena ada berbagai ukuran sampel.
Pertanyaan dasar saya adalah bagaimana Anda menentukan rentang model Anda? Rentang yang lebih tinggi memuluskan fit lebih banyak, sementara rentang yang lebih rendah menangkap lebih banyak tren tetapi memperkenalkan kebisingan statistik jika ada terlalu sedikit data. Saya menggunakan rentang yang lebih tinggi untuk ukuran sampel yang lebih kecil dan rentang yang lebih rendah untuk ukuran sampel yang lebih besar.
Apa yang harus saya lakukan? Apa aturan praktis yang baik ketika menetapkan rentang untuk model regresi LOESS di R? Terima kasih sebelumnya!