Secara deskriptif, saya akan menawarkan "sampel data disensor jika beberapa pengamatan di dalamnya mengambil, atau merupakan, nilai ekstrim sampel tetapi nilai sebenarnya berada di luar rentang sampel yang diamati". Tapi ini sangat mudah.
Jadi pertama mari kita bahas bagaimana kita dapat menyimpulkan bahwa set data disensor, yang secara alami akan mengarahkan kita untuk membahas kasus-kasus yang disajikan dalam pertanyaan.
Misalkan kita diberi set data berikut dari variabel acak diskrit , yang hanya kita ketahui adalah bahwa itu non-negatif:X
{0,1,1,2,2,2,2,2,2,2}
Bisakah kita mengatakan bahwa kumpulan data disensor? Kita berhak berpikir bahwa itu mungkin, tetapi tidak harus demikian:
1) mungkin memiliki rentang { 0 , 1 , 2 } dan distribusi probabilitas { 0,1 , 0,1 , 0,8 } . Jika memang demikian, tampaknya tidak ada sensor di sini, hanya sampel "yang diantisipasi" dari variabel acak seperti itu, dengan dukungan terikat dan distribusi sangat asimetris. X{0,1,2}{0.1,0.1,0.8}
2) Tapi mungkin kasus yang memiliki rentang { 0 , 1 , . . . , 9 } dengan distribusi probabilitas seragam { 0,1 , 0,1 , . . .0 .1 }X{0,1,...,9}{0.1,0.1,...0.1} , dalam hal ini sampel data kami kemungkinan besar disensor.
Bagaimana kita tahu? Kami tidak dapat, kecuali jika kami memiliki pengetahuan atau informasi sebelumnya , yang akan memungkinkan kami untuk berdebat mendukung satu atau kasus lainnya. Apakah ketiga kasus yang disajikan dalam pertanyaan mewakili pengetahuan sebelumnya tentang efek penyensoran? Ayo lihat:
Kasus A) menggambarkan situasi di mana untuk beberapa pengamatan kami hanya memiliki informasi kualitatif seperti "sangat besar", "sangat kecil" dll, yang mengarahkan kami untuk memberikan nilai ekstrim pada pengamatan. Perhatikan bahwa tidak mengetahui nilai realisasi yang sebenarnya tidak membenarkan pemberian nilai ekstrem. Jadi kita harus memiliki beberapa informasi yang menyatakan bahwa untuk pengamatan ini, nilainya melebihi atau di bawah semua yang diamati. Dalam hal ini, kisaran aktual dari variabel acak tidak diketahui, tetapi informasi kualitatif kami memungkinkan kami untuk membuat sampel yang disensor (ini adalah diskusi lain mengapa kami tidak hanya meninggalkan pengamatan yang kami tidak memiliki nilai realisasi aktual) ).
Kasus B) adalah bukan kasus menyensor, jika saya mengerti benar, melainkan kasus sampel terkontaminasi: kami apriori informasi memberitahu kita bahwa nilai maksimum dari variabel acak tidak dapat melebihi (karena katakanlah kepada hukum fisik atau hukum sosial - anggap ini adalah nilai data dari sistem penilaian yang hanya menggunakan nilai 1 , 2 , 3 ). Tetapi kami telah mengamati juga nilai 4 dan nilai 5 . Bagaimana ini bisa terjadi? Kesalahan dalam pencatatan data. Tetapi dalam kasus seperti itu, kita tidak tahu pasti bahwa angka 4 dan 5 harus semuanya 331,2,345453(sebenarnya, melihat keyboard samping dari komputer, lebih mungkin bahwa adalah 1 dan 5 adalah 2 !). Dengan "mengoreksi" dengan cara apa pun sampel, kami tidak membuatnya menjadi yang disensor, karena variabel acak tidak seharusnya berkisar dalam rentang yang direkam di tempat pertama (sehingga tidak ada probabilitas benar ditugaskan untuk nilai 4 dan 5 ). 415245
Kasus C) mengacu pada sampel bersama, di mana kami memiliki variabel dependen dan prediktor. Di sini, kita dapat memiliki sampel di mana nilai-nilai variabel dependen terkonsentrasi pada satu atau kedua ekstrem, karena struktur fenomena yang diteliti: Dalam contoh biasa "jam kerja", orang yang menganggur tidak bekerja tetapi mereka akan memiliki berhasil (pikirkan baik-baik: apakah kasus ini benar-benar berada di bawah "definisi" deskriptif di awal jawaban ini?). Jadi termasuk mereka dalam regresi dengan jam yang dicatat "nol" membuat bias. Untuk ekstrem lainnya, jumlah jam maksimum yang bekerja mungkin dianggap dapat mencapai, katakanlah 16/ hari, dan mungkin ada karyawan yang mau bekerja begitu banyak untuk upah yang diberikan. Tetapi kerangka hukum tidak mengizinkannya dan karenanya kami tidak mengamati "jam kerja" tersebut. Di sini, kami mencoba untuk memperkirakan " fungsi pasokan tenaga kerja yang dimaksudkan " - dan sehubungan dengan variabel ini sampel dicirikan sebagai tersensor.
Tetapi jika kita menyatakan bahwa apa yang ingin kita lakukan adalah memperkirakan "fungsi pasokan tenaga kerja diberikan fenomena pengangguran dan kerangka kerja hukum", sampel tidak akan disensor, karena itu akan mencerminkan efek dari dua aspek ini, sesuatu yang kita inginkan itu harus dilakukan.
Jadi kita melihat bahwa mengkarakterisasi sampel data sebagai yang disensor
a) dapat berasal dari situasi yang berbeda dan
b) memerlukan beberapa perawatan -
biarkan saja fakta bahwa hal itu dapat dikacaukan dengan kasus pemotongan .