Saya akan berasumsi bahwa variabel "kategoris" sebenarnya adalah variabel ordinal; kalau tidak, tidak masuk akal untuk memperlakukannya sebagai yang berkelanjutan, kecuali itu adalah variabel biner (kode 0/1) seperti yang ditunjukkan oleh @Rob. Kemudian, saya akan mengatakan bahwa masalahnya bukan cara kita memperlakukan variabel, meskipun banyak model untuk analisis data kategorikal telah dikembangkan sejauh ini - lihat misalnya, Analisis data kategorikal terurut: Tinjauan umum dan survei terbaru perkembangan dari Liu dan Agresti--, dari skala pengukuran yang mendasari kami menganggap. Respons saya akan fokus pada poin kedua ini, meskipun saya akan membahas secara singkat penugasan skor numerik untuk kategori atau level variabel.
Dengan menggunakan pengodean ulang numerik sederhana dari suatu variabel ordinal, Anda mengasumsikan bahwa variabel tersebut memiliki properti interval (dalam arti klasifikasi yang diberikan oleh Stevens, 1946). Dari perspektif teori pengukuran (dalam psikologi), ini mungkin sering menjadi asumsi yang terlalu kuat, tetapi untuk studi dasar (yaitu di mana satu item digunakan untuk mengekspresikan pendapat seseorang tentang kegiatan sehari-hari dengan kata-kata yang jelas) setiap skor monoton harus memberikan hasil yang sebanding . Cochran (1954) sudah menunjuk itu
setiap set skor memberikan
tes yang valid , asalkan skor tersebut dibangun tanpa berkonsultasi dengan hasil percobaan. Jika himpunan skor buruk, dalam hal itu mendistorsi skala numerik yang benar-benar mendasari klasifikasi yang diurutkan, tes tidak akan peka. Oleh karena itu, skor harus mewujudkan wawasan terbaik yang tersedia tentang cara klasifikasi dibuat dan digunakan. (hal. 436)
(Banyak terima kasih kepada @whuber karena mengingatkan saya tentang hal ini di seluruh salah satu komentarnya, yang membuat saya membaca kembali buku Agresti, dari mana kutipan ini berasal.)
Sebenarnya, beberapa tes mengobati variabel secara implisit seperti Interval skala: misalnya, statistik untuk menguji tren linear (sebagai alternatif untuk kemerdekaan sederhana) didasarkan pada pendekatan korelasional ( M 2 = ( n - 1 ) r 2 , Agresti, 2002, hlm. 87).M.2M.2= ( n - 1 ) r2
Nah, Anda juga dapat memutuskan untuk mengkode ulang variabel Anda pada rentang yang tidak teratur, atau mengagregasi beberapa levelnya, tetapi dalam hal ini ketidakseimbangan yang kuat antara kategori yang direkodekan dapat mengubah tes statistik, misalnya tes tren yang disebutkan di atas. Alternatif yang bagus untuk menetapkan jarak antar kategori sudah diusulkan oleh @Jeromy, yaitu penskalaan optimal.
Sekarang, mari kita bahas poin kedua yang saya buat, yaitu model pengukuran yang mendasarinya. Saya selalu ragu menambahkan tag "psychometrics" ketika saya melihat pertanyaan seperti ini, karena konstruksi dan analisis skala pengukuran berada di bawah Teori Psikometrik (Nunnally dan Bernstein, 1994, untuk tinjauan umum yang rapi). Saya tidak akan membahas semua model yang sebenarnya menuju di bawah Teori Respons Item , dan saya dengan senang hati merujuk pembaca yang tertarik ke saya. Tutorial Partchev, Sebuah panduan visual untuk teori respons item, untuk pengantar lembut untuk IRT, dan untuk referensi (5-8) yang tercantum di akhir untuk kemungkinan taksonomi IRT. Sangat singkat, idenya adalah bahwa alih-alih menetapkan jarak yang sewenang-wenang antara kategori variabel, Anda mengasumsikan skala laten dan memperkirakan lokasi mereka pada kontinum itu, bersama dengan kemampuan atau kewajiban individu. Sebuah contoh sederhana bernilai banyak notasi matematis, jadi mari kita pertimbangkan item berikut (berasal dari EORTC QLQ-C30 yang berhubungan dengan kualitas hidup kuesioner kesehatan):
Apakah anda khawatir
yang dikodekan pada skala empat poin, mulai dari "Tidak sama sekali" hingga "Sangat banyak". Skor mentah dihitung dengan menetapkan skor 1 hingga 4. Skor pada item yang memiliki skala yang sama kemudian dapat ditambahkan bersama untuk menghasilkan skor skala yang disebut, yang menunjukkan peringkat seseorang berdasarkan konstruk yang mendasarinya (di sini, komponen kesehatan mental ). Skor skala yang dijumlahkan seperti itu sangat praktis karena memberi skor kemudahan (untuk praktisi atau perawat), tetapi mereka tidak lebih dari skala diskrit (diperintahkan).
Kita juga dapat mempertimbangkan bahwa probabilitas untuk mengesahkan kategori respons yang diberikan mematuhi semacam model logistik, seperti dijelaskan dalam tutorial I. Partchev, yang disebutkan di atas. Pada dasarnya, idenya adalah sejenis model ambang (yang mengarah pada formulasi setara dalam hal model peluang proporsional atau kumulatif) dan kami memodelkan kemungkinan berada dalam satu kategori respons daripada yang sebelumnya atau peluang mencetak di atas suatu kategori tertentu, tergantung pada lokasi subyek pada sifat laten. Selain itu, kami dapat memberlakukan bahwa kategori respons ditempatkan dengan jarak yang sama pada skala laten (ini adalah model Skala Penilaian) - yang merupakan cara yang kami lakukan dengan menetapkan skor numerik yang berjarak secara berkala - atau tidak (ini adalah model Kredit Sebagian) .
Jelas, kami tidak menambahkan terlalu banyak ke Teori Tes Klasik, di mana variabel ordinal diperlakukan sebagai yang numerik. Namun, kami memperkenalkan model probabilistik, di mana kami mengasumsikan skala kontinu (dengan properti interval) dan di mana kesalahan pengukuran spesifik dapat dipertanggungjawabkan, dan kami dapat memasukkan skor faktorial ini dalam model regresi apa pun.
Referensi
- SS Stevens. Pada teori skala pengukuran. Sains , 103 : 677-680, 1946.
- χ2
- J Nunnally dan I Bernstein. Teori Psikometri . McGraw-Hill, 1994
- Alan Agresti. Analisis Data Kategorikal . Wiley, 1990.
- CR Rao dan S Sinharay, editor. Buku Pegangan Statistik, Vol. 26: Psikometri . Elsevier Science BV, Belanda, 2007.
- A Boomsma, MAJ van Duijn, dan TAB Snijders. Esai tentang Teori Respons Item . Springer, 2001.
- D Thissen dan L Steinberg. Taksonomi model respons barang. Psychometrika , 51 (4) : 567–577, 1986.
- P Mair dan R Hatzinger. Diperpanjang Rasch Modeling: ERM Paket untuk Penerapan Model IRT di R . Jurnal Perangkat Lunak Statistik , 20 (9) , 2007.