Apa yang secara intuitif adalah "bias"?

Saya berjuang untuk memahami konsep bias dalam konteks analisis regresi linier.

Apa definisi matematika dari bias?
Apa yang sebenarnya bias dan mengapa / bagaimana?
Contoh ilustratif?

— Fabian
sumber

Jawaban:

Bias adalah perbedaan antara nilai yang diharapkan dari estimator dan nilai sebenarnya yang diestimasi. Misalnya rata-rata sampel untuk sampel acak sederhana (SRS) adalah penaksir rata-rata dari rata-rata populasi karena jika Anda mengambil semua kemungkinan SRS menemukan sarana mereka, dan mengambil rata-rata dari sarana tersebut maka Anda akan mendapatkan rata-rata populasi (untuk yang terbatas). populasi ini hanya aljabar untuk menunjukkan ini). Tetapi jika kita menggunakan mekanisme pengambilan sampel yang entah bagaimana terkait dengan nilai maka rata-rata bisa menjadi bias, pikirkan sampel panggilan digit acak yang menanyakan pertanyaan tentang pendapatan.

Ini juga beberapa penduga yang bias secara alami. Mean dipangkas akan menjadi bias untuk populasi / distribusi miring. Varians standar tidak bias untuk SRS jika rata-rata populasi digunakan dengan penyebut atau rata-rata sampel digunakan dengan penyebut . $n$ $n-1$

Berikut ini adalah contoh sederhana menggunakan R, kami menghasilkan banyak sampel dari normal dengan rata-rata 0 dan standar deviasi 1, kemudian menghitung rata-rata rata-rata, varian, dan standar deviasi dari sampel. Perhatikan seberapa dekat rata-rata dan varians rata-rata dengan nilai-nilai sebenarnya (kesalahan pengambilan sampel berarti mereka tidak akan tepat), sekarang bandingkan rata-rata sd, itu adalah penaksir yang bias (meskipun tidak sangat bias).

> tmp.data <- matrix( rnorm(10*1000000), ncol=10 )
> mean( apply(tmp.data, 1, mean) )
[1] 0.0001561002
> mean( apply(tmp.data, 1, var) )
[1] 1.000109
> mean( apply(tmp.data, 1, sd) )
[1] 0.9727121

Dalam regresi kita bisa mendapatkan penduga yang bias dari lereng dengan melakukan regresi bertahap. Suatu variabel lebih mungkin untuk disimpan dalam regresi bertahap jika kemiringan diperkirakan lebih jauh dari 0 dan lebih mungkin untuk dijatuhkan jika lebih dekat ke 0, jadi ini adalah pengambilan sampel yang bias dan lereng dalam model akhir akan cenderung lebih jauh. dari 0 dari kemiringan sejati. Teknik seperti lasso dan ridge regression lereng menuju 0 untuk melawan bias seleksi dari 0.

— Greg Snow
sumber

SRS?

$\text{ }$

— kardinal

@ cardinal, Sampel Acak Sederhana.

— whuber

@whuber: Wow. Sementara singkatan itu masuk akal, saya tidak ingat pernah melihatnya di pengaturan yang lebih formal. Adakah subbidang khusus atau area terapan yang merupakan inisialisme "standar"?

— kardinal

@ cardinal Lihat en.wikipedia.org/wiki/Simple_random_sample

— whuber

(+1) Sunting @ whuber sangat membantu dalam mengklarifikasi jawaban ini.

— kardinal

Bias berarti bahwa nilai yang diharapkan dari penduga tidak sama dengan parameter populasi.

Secara intuitif dalam analisis regresi, ini berarti bahwa estimasi salah satu parameter terlalu tinggi atau terlalu rendah. Namun, estimasi regresi kuadrat terkecil yang biasa adalah BIRU, yang merupakan singkatan dari estimator linear tidak bias terbaik. Dalam bentuk regresi lain, estimasi parameter mungkin bias. Ini bisa menjadi ide yang baik, karena sering ada pertukaran antara bias dan varians. Sebagai contoh, regresi ridge kadang-kadang digunakan untuk mengurangi varians estimasi ketika ada collinearity.

Contoh sederhana dapat menggambarkan ini lebih baik, meskipun tidak dalam konteks regresi. Misalkan Anda menimbang 150 pound (diverifikasi pada skala keseimbangan yang memiliki Anda dalam satu keranjang dan setumpuk bobot di keranjang lainnya). Sekarang, Anda memiliki dua timbangan kamar mandi. Anda menimbang diri Anda masing-masing 5 kali.

Skala 1 memberikan bobot 152, 151, 151.5, 150.5 dan 152.

Skala 2 memberikan bobot 145, 155, 154, 146 dan 150.

Skala 1 bias, tetapi memiliki varian yang lebih rendah; rata-rata dari bobot bukanlah berat Anda yang sebenarnya. Skala 2 tidak bias (rata-rata 150), tetapi memiliki varian jauh lebih tinggi.

Skala mana yang "lebih baik"? Itu tergantung pada apa yang ingin Anda lakukan skala.

— Peter Flom - Pasang kembali Monica
sumber

Meskipun definisi biasnya benar, saya khawatir contoh-contoh itu membingungkannya dengan ketidaktepatan, yang merupakan sesuatu yang sama sekali berbeda! Bias adalah properti dari prosedur statistik (penduga) sedangkan akurasi adalah properti dari proses pengukuran . (-1).

— whuber

@whuber: Ya, saya setuju dengan itu. Dan, saya masih berpikir bahwa, meski begitu, perlu untuk memperjelas perbedaan antara ekspektasi matematika dan rata-rata sampel, karena mereka berhubungan dengan bias.

— kardinal

Tidak, saya tidak mencoba mengatakan apa-apa tentang "ketidaktepatan" (yang sangat sulit untuk didefinisikan) tetapi tentang "perbedaan". Satu skala tidak bias, skala lainnya memiliki varian rendah. Saya tidak menggunakan kata "akurat" atau "akurasi". Skala yang cenderung memperkirakan berat Anda terlalu tinggi (atau terlalu rendah) bias.

— Peter Flom - Pasang kembali Monica

Tetapi rasa "bias" ini hanya sinonim untuk tidak akurat; itu tidak sama dengan definisi yang Anda berikan di baris pertama. Selain itu, seperti yang ditunjukkan oleh @ cardinal, contoh ini juga mengacaukan harapan dengan rata-rata sampel tertentu.

— Whuber

Saya setuju dengan @whuber di sini. Dalam pengertian bias (yang wajar) yang ditanyakan oleh OP, bukan skala yang bias atau tidak bias, melainkan perkiraan berat apa pun yang Anda peroleh dari pengukurannya!

— kardinal

Dalam analisis regresi linier, bias merujuk pada kesalahan yang diperkenalkan dengan mendekati masalah kehidupan nyata, yang mungkin rumit, oleh model yang jauh lebih sederhana. Secara sederhana, Anda mengasumsikan model linier sederhana seperti y * = (a *) x + b * di mana seperti dalam kehidupan nyata masalah bisnis bisa menjadi y = ax ^ 3 + bx ^ 2 + c.

Dapat dikatakan bahwa tes MSE yang diharapkan (Mean squared error) dari masalah regresi dapat diuraikan seperti di bawah ini. E (y0 - f * (x0)) ^ 2 = Var (f * (x0)) + [Bias (f * (x0))] ^ 2 + Var (e)

f * -> bentuk fungsional yang diasumsikan untuk model regresi linier y0 -> nilai respons asli dicatat dalam data uji x0 -> nilai prediktor asli dicatat dalam data uji e -> kesalahan tak tereduksi Jadi, tujuannya adalah memilih metode terbaik dalam mendapatkan model yang mencapai varian rendah dan bias rendah.

Catatan: Pengantar Pembelajaran Statistik oleh Trevor Hastie & Robert Tibshirani memiliki wawasan yang baik tentang topik ini

— gangga
sumber

Ini sering disebut dengan sesuatu seperti "model kesalahan spesifikasi" agar tidak membingungkan dengan definisi standar bias yang diberikan dalam jawaban yang diterima. Jika tidak mustahil untuk memahami pernyataan (yang benar) yang OLS adalah berisi estimator dari koefisien dari regressors.

— whuber