Saya mencoba membandingkan secara visual bagaimana tiga publikasi berita yang berbeda membahas topik yang berbeda (ditentukan melalui model topik LDA). Saya memiliki dua metode terkait untuk melakukannya, tetapi telah menerima banyak umpan balik dari kolega bahwa ini tidak terlalu intuitif. Saya berharap seseorang di luar sana memiliki ide yang lebih baik untuk memvisualisasikan ini.
Dalam grafik pertama, saya menunjukkan proporsi setiap topik dalam setiap publikasi, seperti:
Ini sangat mudah dan intuitif untuk hampir semua orang yang saya ajak bicara. Namun, sulit untuk melihat perbedaan antara publikasi. Surat kabar mana yang lebih banyak membahas topik?
Untuk mendapatkan ini, saya membuat grafik perbedaan antara publikasi dengan proporsi tertinggi dan tertinggi kedua topik, diwarnai oleh publikasi dengan tertinggi. Seperti ini:
Jadi, bar besar untuk sepak bola, misalnya, benar-benar jarak antara bahasa Inggris al-Ahram dan Daily News Mesir (# 2 dalam liputan sepak bola), dan warnanya merah karena Al-Ahram adalah # 1. Demikian pula, uji coba berwarna hijau karena Mesir Independen memiliki proporsi tertinggi, dan ukuran bilah adalah jarak antara Mesir Independen dan Berita Harian Mesir (# 2 lagi).
Fakta bahwa saya harus menjelaskan bahwa semua dalam dua paragraf adalah tanda yang cukup yakin bahwa grafik gagal dalam tes swasembada. Sulit mengatakan apa yang sebenarnya terjadi hanya dengan melihatnya.
Adakah saran umum tentang cara menyoroti publikasi dominan untuk setiap topik dengan cara yang lebih intuitif?
Sunting: Data untuk dimainkan: Ini dput
output dari R , serta file CSV .
Sunting 2: Berikut adalah versi titik awal petak, dengan diameter titik-titik sebanding dengan proporsi topik dalam korpus (yang merupakan cara topik awalnya diurutkan). Meskipun saya masih perlu men-tweak sedikit lagi, rasanya jauh lebih intuitif daripada apa yang saya lakukan sebelumnya. Terimakasih semuanya!