Seberapa besar sampel untuk teknik estimasi dan parameter yang diberikan?


12

Apakah ada aturan praktis atau bahkan cara apa pun untuk mengetahui seberapa besar sampel dalam rangka memperkirakan model dengan sejumlah parameter tertentu?

Jadi, misalnya, jika saya ingin memperkirakan regresi kuadrat-terkecil dengan 5 parameter, seberapa besar seharusnya sampel itu?

Apakah penting teknik estimasi apa yang Anda gunakan (mis. Kemungkinan maksimum, kuadrat terkecil, GMM), atau berapa banyak atau tes apa yang akan Anda lakukan? Haruskah variabilitas sampel diperhitungkan saat mengambil keputusan?

Jawaban:


11

Jawaban sepele adalah bahwa lebih banyak data selalu lebih disukai daripada lebih sedikit data.

Masalah ukuran sampel kecil jelas. Dalam regresi linier (OLS) secara teknis Anda dapat memasukkan model seperti OLS di mana n = k + 1 tetapi Anda akan mendapatkan sampah dari itu yaitu kesalahan standar yang sangat besar. Ada makalah hebat oleh Arthur Goldberger bernama Micronumerocity pada topik ini yang dirangkum dalam bab 23 bukunya A Course in Econometrics .

Heuristik yang umum adalah Anda harus memiliki 20 pengamatan untuk setiap parameter yang ingin Anda perkirakan. Itu selalu merupakan trade off antara ukuran kesalahan standar Anda (dan karenanya pengujian signifikansi) dan ukuran sampel Anda. Ini adalah salah satu alasan sebagian dari kita membenci pengujian signifikansi karena Anda bisa mendapatkan kesalahan standar (relatif) yang sangat kecil dengan sampel yang sangat besar dan karenanya menemukan signifikansi statistik yang tidak berguna pada tes naif seperti apakah koefisien regresi nol.

Sementara ukuran sampel penting, kualitas sampel Anda lebih penting, misalnya apakah sampel dapat digeneralisasikan untuk populasi, apakah itu Sampel Acak Sederhana atau metodologi pengambilan sampel lain yang sesuai (dan apakah ini diperhitungkan selama analisis), apakah ada kesalahan pengukuran , bias respon, bias seleksi, dll.


3

Saya suka menggunakan resampling: Saya ulangi metode apa pun yang saya gunakan dengan subsampel data (katakanlah 80% atau bahkan 50% dari total). Dengan melakukan ini dengan banyak subsampel yang berbeda, saya dapat merasakan seberapa kuat perkiraannya. Untuk banyak prosedur estimasi ini dapat dibuat menjadi estimasi kesalahan Anda yang nyata (artinya dapat diterbitkan).


2

Itu harus selalu cukup besar! ;)

Semua estimasi parameter datang dengan ketidakpastian estimasi, yang ditentukan oleh ukuran sampel. Jika Anda melakukan analisis regresi, ada baiknya Anda mengingatkan diri sendiri bahwa distribusi Χ 2 dibangun dari set data input. Jika model Anda memiliki 5 parameter dan Anda memiliki 5 titik data, Anda hanya dapat menghitung satu titik dari distribusi Χ 2 . Karena Anda harus menguranginya, Anda hanya bisa memilih satu titik sebagai perkiraan untuk minimum, tetapi harus menetapkan kesalahan tak terbatas ke parameter perkiraan Anda. Memiliki lebih banyak titik data akan memungkinkan Anda untuk memetakan ruang parameter yang lebih baik yang mengarah ke perkiraan yang lebih baik dari minimum distribusi Χ 2 dan dengan demikian kesalahan penduga yang lebih kecil.

Apakah Anda akan menggunakan estimator Kemungkinan Maksimum sebagai gantinya situasinya akan serupa: Lebih banyak titik data mengarah ke estimasi minimum yang lebih baik.

Sedangkan untuk varian titik, Anda perlu memodelkan ini juga. Memiliki lebih banyak titik data akan membuat pengelompokan titik di sekitar nilai "benar" menjadi lebih jelas (karena Teorema Batas Pusat) dan bahaya menafsirkan flucuasi peluang yang besar sebagai nilai sebenarnya untuk titik itu akan turun. Dan untuk parameter lainnya, estimasi Anda untuk varians titik akan menjadi lebih stabil semakin banyak poin data yang Anda miliki.


2

Saya telah mendengar dua aturan praktis dalam hal ini. Satu berpendapat bahwa selama ada cukup pengamatan dalam istilah kesalahan untuk membangkitkan teorema batas pusat, misalnya 20 atau 30, Anda baik-baik saja. Yang lain berpendapat bahwa untuk setiap kemiringan diperkirakan satu harus memiliki setidaknya 20 atau 30 pengamatan. Perbedaan antara menggunakan 20 atau 30 sebagai nomor target didasarkan pada pemikiran yang berbeda mengenai ketika ada cukup pengamatan untuk membangkitkan Teorema Limit Pusat.


1
dua jawaban terlihat terlalu berbeda bagi saya. Yang satu mengatakan 20 hingga 30, yang lain mengatakan 20 hingga 30 kali lereng. Jadi, jika Anda memiliki 5 lereng, satu aturan memberi tahu Anda 20 hingga 30, lainnya 100 hingga 150 pengamatan. Rasanya tidak tepat bagi saya ....
Vivi

1
Mereka adalah pedoman yang sangat berbeda. Saya menduga pemutusan adalah apakah Anda berpikir bahwa uji keseluruhan model penting (pedoman N lebih rendah) atau uji lereng individu yang penting (pedoman N lebih tinggi).
russellpierce
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.