Konversi data teks ke dalam kategori. Anda dapat mencoba berbagai alternatif untuk mengetahui berapa banyak informasi yang harus dikandung oleh kategori, tetapi kategori tertentu harus ada untuk setiap variabel. Sebagai contoh, saya akan mengasumsikan variabel yang berasal dari bidang teks kuesioner survei mengenai cara orang yang lebih disukai untuk mulai bekerja.
Pada awalnya, kita perlu memastikan bahwa jawaban dengan makna yang sama ditulis dengan cara yang sama dan termasuk dalam kategori yang sama (misalnya "dengan sepeda", "bersepeda", "dengan sepeda" semua memiliki arti yang sama). Kemudian Anda dapat mencoba menggabungkan lebih jauh ke dalam kategori yang kurang terperinci (misalnya menggabungkan "trem", "metro" dan "bus" menjadi "Sarana transportasi umum") atau bahkan lebih (mis. "Berjalan", "Jogging", "Bersepeda" menjadi " Aktivitas fisik ") tergantung pada apa yang ingin Anda cari tahu.
Anda bahkan dapat meletakkan beberapa kombinasi berbeda dalam dataset Anda dan kemudian langkah selanjutnya akan menentukan yang mana yang akan digunakan untuk analisis. Dalam kasus di mana data teks dapat "diterjemahkan" dalam variabel terurut pastikan Anda melakukan ini (misalnya jika Anda memiliki "kecil, sedang, tinggi" ubahlah menjadi "1,2,3").
Principal Component Analysis
atauNon-Negative Matrix Factorization
akan mengurangi jumlah variabel, memperkaya data jarang, dan mengubah semua variabel menjadi kuantitatif. Selain itu, mengevaluasi kualitas model reduksi dimensi, penulis pertanyaan dapat memperkirakan kegunaan variabel tekstual.