Perbedaan antara bias, bias sistematis, dan kesalahan sistematis?


9

Apakah ada perbedaan di antara persyaratan berikut atau mereka sama?

  1. Bias
  2. Bias sistematik
  3. Kesalahan sistematis

Jika ada beberapa perbedaan, mohon jelaskan. Bisakah kesalahan ini dikurangi ketika seseorang menambah ukuran sampel?

UPDATE: Bidang minat saya adalah inferensi statistik. Maksud saya mengatakan bahwa bagaimana kita membedakan istilah ini sebagai ahli statistik.


1
Akan bermanfaat untuk menunjukkan bidang studi apa yang Anda minati. Jelas dari jawaban yang telah ditawarkan, misalnya, bahwa "bias" memiliki makna khusus yang berbeda dari analisis statistik (dalam teori estimasi, bias adalah perbedaan antara ekspektasi penduga dan nilai estimasi dan). Pertanyaan Anda sekarang ditandai dengan "epidemiologi" karena balasan saat ini berasal dari bidang itu, tetapi itu mungkin atau mungkin tidak sesuai dengan minat Anda.
whuber

1
Seperti yang saya pahami, dalam statistik bias adalah perbedaan antara estimator dan estimand , di mana dalam epidemiologi, bias adalah perbedaan non-acak antara estimator dan estimand . Ketika saya melihat istilah seperti 'bias' dan 'kesalahan sistematis' dalam konteks biostatistik, saya cenderung memikirkan interpretasi epidemiologis. Tapi sekali lagi, sebagai mahasiswa epidemiologi, saya bias. Ini set slide dari Sander Greenland menyentuh pada kedua konsep, namun berfokus pada epidemiologi.
jthetzel

Jawaban:


13

Istilah "bias" muncul dalam dua cara dalam literatur mendasar tentang statistik:

  1. "... bias , kadang-kadang disebut kesalahan sistematis, ..." [EL Lehmann, Teori Estimasi Titik, 1983. Ini adalah teks klasik.] Dalam notasi Lehmann, yang merupakan standar, adalah ekspektasi ketika distribusi diberikan oleh parameter , adalah estimator, adalah observasi, dan adalah properti dari distribusi yang akan diestimasi (estimasiand). Dengan kata lain, observasi (atau urutannya) adalah variabel acak, yang membuat taksiran acak, dan biasEθ[δ(X)]g(θ)EθθδXg(θ)adalah penyimpangan yang diharapkan antara estimasi dan estimasi dan. Itu tergantung pada distribusi (tidak diketahui tetapi benar) , menjadikannya fungsi dari distribusi yang benar. Lehmann mencurahkan seluruh bab untuk penduga yang tidak bias: mereka yang tidak memiliki bias terlepas dari nilai .θθ

  2. Dalam teori pengukuran, "bias" (atau "kesalahan sistematis" ) adalah perbedaan antara ekspektasi pengukuran dan nilai mendasar yang sebenarnya. Bias dapat dihasilkan dari kesalahan kalibrasi atau penyimpangan instrumental, misalnya. Bandingkan penggunaan ini dengan yang sebelumnya: di sini, bias adalah properti dari pengukuran, yang merupakan proses fisik, sedangkan sebelumnya itu adalah properti dari estimator statistik (yang merupakan prosedur yang didefinisikan secara matematis untuk membuat dugaan dari data).

"Bias sistematik" tampaknya hanya digunakan ketika membedakan bias dari "kesalahan" acak: istilah "kesalahan" cenderung digunakan terutama untuk istilah-istilah acak dengan nol harapan.

Dalam banyak kasus, bias dalam arti pertama berkurang ketika jumlah data meningkat: banyak penaksir yang bias dalam praktiknya menjadi semakin kurang bias dengan lebih banyak data (walaupun ini secara teoritis tidak dijamin, karena konsep biasnya begitu luas). Contoh yang baik adalah penaksir kemungkinan maksimum dari varian distribusi ketika menarik secara independen dari distribusi tersebut tersedia. Pengukur ML adalahnxi

v^=1ni=1n(xix¯)2,

untuk . Sudah diketahui bahwa ini bias; estimator tidak bias. Di mana, seperti , menjadi tidak bias tanpa gejala .x¯=1ni=1nxinn1v^nv^nn1v^

Bias dalam konteks pengukuran (pengertian kedua), bagaimanapun, biasanya tidak dapat direduksi dengan mengambil lebih banyak pengukuran: bias melekat dalam prosedur pengukuran itu sendiri. Kita harus memperkirakan dan mengurangi bias dengan mengkalibrasi prosedur pengukuran atau membandingkannya dengan prosedur lain yang diketahui tidak memiliki (atau kurang) bias, memperkirakan bias, dan mengkompensasi untuk itu.

Deskripsi singkat tentang terminologi yang digunakan untuk inferensi statistik tidak menggantikan balasan yang diperluas dan lebih khusus yang telah diposting. Alih-alih, ini dimaksudkan untuk berfungsi sebagai pengantar untuk mereka dan sebagai peringatan ringan untuk mewaspadai generalisasi universal yang dibuat dalam konteks terbatas, seperti "ketiga [istilah] ini setara dengan 'kesalahan sistematis'," yang jelas dapat benar hanya dalam arti sempit, karena dua definisi yang saya kutip tidak setara. Membaca jawaban lain telah mengingatkan saya pada kemungkinan bahwa literatur di bidang khusus seperti epidemiologi mungkin menggunakan istilah statistik standar yang lazim seperti "bias" dengan cara yang tidak terduga, beberapa di antaranya mungkin sebenarnya bertentangan dengan definisi statistik. Pada akhirnya,


1
Terima kasih untuk posting yang menarik. Saya menduga bahwa banyak ahli epidemiologi "meminjam" istilah dari ahli statistik, menyesuaikannya dengan pengaturan mereka dan kemudian ... karena kurangnya basis suara ... itu menjadi agak berantakan
Max Gordon

@ Max Gordon: whuber memberikan jawaban yang bagus. Mungkin bidang lain belum meminjam istilah dari statistik matematika secara serampangan, tetapi mendefinisikan istilah yang sesuai dengan tujuan bidang. Bagaimanapun, akan sangat membantu bagi ahli statistik, ahli epidemiologi, dan yang lainnya untuk menyadari perbedaan terminologi yang halus namun signifikan ini, terutama mengingat prevalensi upaya kolaboratif antar disiplin ilmu.
jthetzel

+1 jawaban yang bagus! Sangat jelas, dan masih keras dan ringkas.
gung - Reinstate Monica

@ jthtzel, statistik matematika tidak perlu diartikan sebagai sesuatu yang memiliki beberapa arti. Ini adalah ilmu yang dipimpin aplikasi yang menyiratkan bahwa ia mengurus masalah yang terkait dengan pengukuran (statistik) dan kebenaran yaitu matematika. Sampai sekarang, literatur menunjukkan bahwa kesalahan pengukuran berperilaku secara acak dan oleh karena itu, statistik (rata-rata dan varians) tetap tidak terpengaruh. Dan dalam kasus rata-rata, yang disebut bias konstan dapat menyebabkannya naik atau lebih rendah dari perkiraan sebenarnya. Namun, varian dan SD tetap tidak terpengaruh.
Subhash C. Davar

4

Jika saya telah mempelajari sesuatu melalui studi epidemiologi saya, ini adalah ladang ranjau di mana tidak ada benar atau salah. Saya suka statistik karena setidaknya memiliki dasar dalam matematika sedangkan epidemiologi lebih banyak pendapat. Yang mengatakan saya akan mencoba menjawab pertanyaan Anda.

Dari M. Porta A Dictionary of Epidemiology 5th ed. tidak ada penyebutan bias sistematis dan kesalahan sistematis mengatakan "Lihat BIAS". Ini meninggalkan bias yang digambarkan sebagai: “Penyimpangan sistematis atas hasil atau kesimpulan dari kebenaran. ... mengarah ke hasil atau kesimpulan yang secara sistematis (berlawanan dengan acak) berbeda dari kebenaran. " Saya akan mengatakan bahwa tidak ada bias tidak sistematis karena mereka semua menyimpang dari hasil Anda jauh dari perkiraan risiko yang sebenarnya. Hal terpenting tentang bias adalah Anda tidak bisa menguranginya dengan menambah ukuran sampel .

Ada banyak jenis bias, saya pernah mendengar bahwa salah satu artikel asli tentang bias berisi lebih dari 300 jenis. Yang penting adalah mengidentifikasi mereka sebelum Anda memulai studi Anda dan kemudian mencoba untuk mengatur studi / eksperimen Anda untuk menghindari bias. Dalam studi epidemiologi, sangat berguna untuk memisahkan bias menjadi tiga kategori:

  • Bias seleksi
  • Bias informasi
  • Perancu

Bias seleksi adalah ketika Anda memilih jenis individu yang salah untuk studi Anda. Katakanlah Anda tertarik melihat apakah bekerja di tambang batu bara adalah risiko - jika Anda mencari orang-orang yang belajar di tambang batu bara, Anda mungkin menemukan bahwa mereka lebih sehat daripada populasi umum hanya karena fakta bahwa orang-orang yang sakit tidak lagi bekerja di tambang batu bara yaitu Anda memilih individu yang paling sehat dan Anda tidak lagi mempelajari populasi sumber tetapi subsampel. Bias seleksi biasanya merupakan jenis bias yang paling ganas karena sangat sulit untuk diidentifikasi.

Bias informasi adalah ketika pengumpulan data Anda mengenai hasil atau paparan salah. Kesalahan umum adalah ahli bedah yang menanyakan pasiennya apakah dia lebih baik setelah operasi. Di sini, kedua pasien mungkin tidak ingin mengecewakan ahli bedah dan melaporkan hasil yang lebih baik daripada yang seharusnya, dan dokter bedah mungkin tidak ingin mengakui bahwa operasi itu gagal, melaporkan dan bias pewawancara.

Bias informasi juga dikenal sebagai bias pengamatan. Ketika itu adalah kesalahan dalam variabel kontinu itu kesalahan pengukuran sementara dalam pengaturan klasifikasi Anda memiliki bias kesalahan klasifikasi. Kesalahan klasifikasi berarti bahwa individu studi dapat berakhir dalam kategori yang salah, seorang perokok dapat diklasifikasikan sebagai bukan perokok baik secara kebetulan atau dengan melaporkan bias. Sekalipun kesalahan klasifikasi adalah kebetulan (kesalahan klasifikasi non-diferensial) masih akan cenderung meremehkan risiko secara sistematis, terutama ketika Anda memiliki beberapa kategori. Meskipun studi yang sangat baik oleh Jurek et al. 2005 menunjukkan bahwa Anda harus berhati-hati membuat asumsi ini berdasarkan satu studi. Sehubungan dengan pertanyaan Anda, saya dapat membayangkan bahwa ini adalah "bias non-sistematis" yang terkait dengan bias sistematis.

Faktor perancu adalah faktor yang berhubungan dengan pajanan dan hasil dan berhubungan lebih dekat dengan individu penelitian. Misalnya Lambe et al. 2006 menunjukkan bahwa merokok selama kehamilan meningkatkan risiko kinerja sekolah rendah tetapi ketika melihat saudara kandung dalam subpopulasi di mana ibu telah berhenti merokok selama kehamilan kedua, kinerja sekolah mereka sama buruknya. Ini menunjukkan bahwa merokok bukanlah penyebab kinerja sekolah yang buruk, tetapi mungkin faktor perancu untuk faktor sosial lainnya.

Artikel ini oleh Sica et al. 2006 masuk ke lebih detail. Yang harus Anda persiapkan adalah bahwa tidak ada konsensus di lapangan untuk terminologi tersebut. Impian saya adalah bahwa suatu hari WHO menghasilkan daftar definisi yang mudah dipahami, masuk akal secara intuitif dan di mana perdebatan akhirnya dapat berakhir.


Jika Anda mengatakan bahwa bias tidak pernah berkurang, bagaimana Anda membenarkan definisi ini? 'Penaksir asimtotik tidak bias adalah penaksir yang tidak bias karena ukuran sampel cenderung tak hingga.
Biostat

Saya setuju dengan @jthetzel, saya tidak yakin saya cukup mengerti pertanyaan Anda. Perkiraan yang tidak bias adalah dimana tidak ada bias dan di mana Anda dapat mengandalkan ukuran sampel Anda, bersandar dan biarkan statistik melakukan pekerjaan (... dan ya, itu mungkin tidak pernah terjadi dalam kenyataan di mana Anda selalu memiliki beberapa jenis bias ). Saya mencoba untuk membuatnya tetap sederhana: bias bagi saya selalu merupakan kesalahan sistematis tetapi seperti yang saya katakan - ada banyak buku tentang masalah ini dan sayangnya banyak yang ditulis oleh orang-orang yang nyaris tidak memahami statistik. Tanyakan pada seorang ahli epidemiologi tentang efek modifikasi - banyak (kebanyakan?) Menganggapnya sebagai semacam sihir ...
Max Gordon

4

Terminologi dapat bervariasi dari satu bidang ke bidang lainnya. Namun, menggunakan istilah yang didefinisikan dalam komentar di bawah:

Apakah ada perbedaan di antara persyaratan berikut atau mereka sama?

Tidak, ketiganya setara dengan 'kesalahan sistematis'.

Bisakah kesalahan ini dikurangi ketika seseorang menambah ukuran sampel?

Tidak, meningkatkan ukuran sampel mengurangi kesalahan acak, bukan kesalahan sistematis.

Komentar

Istilah-istilah ini diambil dari bidang epidemiologi, khususnya dari Rothman dan rekan diskusi tentang kesalahan dalam bab 9 dan 10 dari Epidemiologi Modern .

Untuk meringkas:

Tujuan dari penyelidik adalah untuk memberikan perkiraan yang akurat dari beberapa ukuran (misalnya rata-rata, risiko relatif, rasio bahaya, dan lain-lain) dalam suatu populasi. Estimasi yang akurat adalah estimasi yang valid dan tepat . Estimasi yang valid akan memiliki estimasi titik (mis. Rerata, risiko relatif, rasio bahaya, dan lain-lain) yang dekat dengan nilai sebenarnya dalam populasi. Estimasi yang tepat akan memiliki tingkat kepercayaan yang sempit di sekitar estimasi titik. Selain itu, perkiraan dapat valid secara internal, relatif terhadap populasi penelitian, dan valid eksternal, relatif terhadap populasi umum.

Penyimpangan dari akurasi disebabkan oleh kesalahan . Ada dua jenis utama kesalahan: kesalahan sistemik dan kesalahan acak .

Kesalahan sistemik, sering disebut sebagai bias, menghasilkan estimasi yang tidak valid. Kesalahan sistemik termasuk kesalahan karena faktor perancu, bias seleksi, dan bias informasi. Perancu umumnya dapat diperbaiki dengan teknik seperti stratifikasi atau regresi. Seleksi dan bias informasi secara tradisional diabaikan atau hanya dinilai secara kualitatif dalam analisis, mungkin karena tidak terbiasa dengan analisis bias yang tepat. Namun, metodologi untuk analisis bias qunatitatif memang ada (misalnya Lash TL dan AK Fink (2003) ).

Kesalahan acak menghasilkan estimasi yang tidak tepat. Kesalahan acak termasuk kesalahan pengambilan sampel dan kesalahan pengukuran acak, antara lain. Metode untuk meningkatkan presisi termasuk meningkatkan ukuran studi, meningkatkan efisiensi studi, dan analisis statistik optimalisasi presisi seperti pengumpulan dan regresi.

Memperbarui

Untuk menggambarkan mengapa peningkatan ukuran sampel tidak mengurangi kesalahan sistematis dengan analogi papan dart (disalin dari posting CV ini ):

Analogi papan seluncur

Tidak peduli berapa banyak anak panah yang dilemparkan ke papan, perkiraan titik tidak akan bergeser ke mata sapi jantan sejati ketika ada 'bias tinggi'. Di sini 'bias' setara dengan 'kesalahan sistematis', dan 'varians' setara dengan 'kesalahan acak'.


Jika Anda mengatakan bahwa bias tidak pernah berkurang, bagaimana Anda membenarkan definisi ini? 'Penaksir asimtotik tidak bias adalah penaksir yang tidak bias karena ukuran sampel cenderung tak hingga.
Biostat

@ biostat: Estimator yang tidak bias tidak mengandung kesalahan sistematis, tetapi bisa mengandung kesalahan acak. Dengan demikian ketika ukuran sampel meningkat, varians berkurang, dan estimator bertemu pada nilai sebenarnya dari parameter dalam populasi. Penduga yang bias akan mengandung kesalahan sistematis dan tidak akan menyatu pada nilai sebenarnya dari parameter dalam populasi (kecuali beberapa bias dalam penduga terjadi untuk membatalkan satu sama lain).
jthetzel

@ biostat: Mungkin cara lain untuk memikirkannya: 1) distribusi probabilitas penaksir yang asimptotik mungkin menyertakan nilai sebenarnya pada ukuran sampel kecil, di antara nilai-nilai lain, tetapi akan menyatu pada nilai selain nilai sebenarnya karena ukuran sampel cenderung tak terhingga . 2) Distribusi probabilitas penduga yang asymptotically bias mungkin menyertakan nilai sebenarnya pada ukuran sampel yang kecil, di antara nilai-nilai lain, tetapi akan menyatu pada nilai sebenarnya karena ukuran sampel cenderung tak terbatas.
jthetzel

Lalu Bias dan Systematic Error tidak sama? karena di sini bias dapat memiliki kesalahan acak seperti yang Anda katakan? Apa yang akan Anda pikirkan?
Biostat

@biostat: Seperti disebutkan di atas, terminologi dapat bervariasi dari satu bidang ke bidang Saya mendefinisikan bias sebagai kesalahan sistematis. Anda tampaknya mendefinisikan bias sebagai kesalahan. Dalam epidemiologi, bias adalah kesalahan sistematis, setidaknya bagi mereka yang mengikuti terminologi buku teks kanonik Rothman. Mungkin Anda dapat menambahkan konteks ke pertanyaan awal Anda untuk mengarahkan respons ke arah yang sesuai.
jthetzel

1

Kutipan power point ini memiliki beberapa info untuk melengkapi apa yang telah diberikan jthetzel dan Max Gordon. Mereka berorientasi pada data survei, dan mereka tidak ketat atau formal, tetapi jika Anda menginginkan jawaban seperti itu, Anda mungkin akan mencari di buku teks tentang teori pengukuran atau metode survei.


2
Sementara kita berada di sini, inilah satu set slide dari Greenland.
jthetzel
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.