Saya menghabiskan tiga hari mencoba-coba tm
setelah membaca kertas konsep oleh seorang teman di mana ia menjelajahi corpus teks dengan UCINET, menunjukkan awan teks, grafik jaringan dua mode dan Dekomposisi Nilai Tunggal (dengan grafik, menggunakan Stata). Saya berlari di bawah sejumlah besar masalah: pada Mac OS X, ada masalah dengan Java di belakang perpustakaan seperti Snowball (stemming) atau Rgraphviz (grafik).
Bisakah seseorang menunjukkan bukan paket - saya telah melihat tm
, wordfish
dan wordscores
, dan tahu tentang NLTK - tetapi penelitian, jika mungkin dengan kode, pada data tekstual, yang berhasil menggunakan tm
atau sesuatu yang lain untuk menganalisis data seperti debat parlemen atau dokumen legislatif? Sepertinya saya tidak dapat menemukan banyak tentang masalah ini, dan bahkan lebih sedikit kode untuk dipelajari.
Proyek saya sendiri adalah debat parlemen dua bulan, dengan variabel-variabel ini diinformasikan dalam file CSV: sesi parlemen, pembicara, kelompok parlemen, teks intervensi lisan. Saya mencari perbedaan antara penutur dan terutama antara kelompok-kelompok parlemen dalam penggunaan istilah yang jarang dan tidak terlalu jarang, misalnya "pembicaraan keamanan" melawan pembicaraan "kebebasan sipil".