Pertanyaan yang diberi tag «text-mining»

Mengacu pada subset penambangan data yang berkaitan dengan mengekstraksi informasi dari data dalam bentuk teks dengan mengenali pola. Tujuan dari penggalian teks sering untuk mengklasifikasikan dokumen yang diberikan ke dalam salah satu dari sejumlah kategori secara otomatis, dan untuk meningkatkan kinerja ini secara dinamis, menjadikannya contoh pembelajaran mesin. Salah satu contoh penambangan teks jenis ini adalah filter spam yang digunakan untuk email.

2
Bagaimana cara menghitung kebingungan ketidaksepakatan dengan Alokasi Dirichlet Laten?
Saya bingung tentang cara menghitung kebingungan sampel ketidaksepakatan saat melakukan Latent Dirichlet Allocation (LDA). Makalah-makalah tentang topik itu membahasnya, membuat saya berpikir saya kehilangan sesuatu yang jelas ... Kesederhanaan dipandang sebagai ukuran kinerja yang baik untuk LDA. Idenya adalah bahwa Anda menyimpan sampel ketidaksepakatan, melatih LDA Anda pada sisa data, …

5
Klasifikasi teks skala besar
Saya ingin melakukan klasifikasi pada data teks saya. Saya punya 300 classes, 200 dokumen pelatihan per kelas (jadi 60000 documents in total) dan ini cenderung menghasilkan data dimensi yang sangat tinggi (kita mungkin melihat lebih dari 1 juta dimensi ). Saya ingin melakukan langkah-langkah berikut dalam pipa (hanya untuk memberi …

1
Saya ingin membangun indeks kejahatan dan indeks ketidakstabilan politik yang didasarkan pada berita
Saya memiliki proyek sampingan ini di mana saya merangkak situs web berita lokal di negara saya dan ingin membangun indeks kejahatan dan indeks ketidakstabilan politik. Saya sudah membahas bagian pengambilan informasi dari proyek. Rencana saya adalah melakukan: Ekstraksi topik tanpa pengawasan. Mendeteksi duplikat dekat. Klasifikasi dan tingkat insiden yang diawasi …


2
Mengapa classifier regresi ridge berfungsi cukup baik untuk klasifikasi teks?
Selama percobaan untuk klasifikasi teks, saya menemukan classifier ridge menghasilkan hasil yang secara konstan berada di atas tes di antara classifier yang lebih umum disebutkan dan diterapkan untuk tugas-tugas penambangan teks, seperti SVM, NB, kNN, dll. Meskipun, saya belum menguraikan tentang cara mengoptimalkan setiap classifier pada tugas klasifikasi teks khusus …

1
Prediksi topik menggunakan alokasi Dirichlet laten
Saya telah menggunakan LDA pada kumpulan dokumen dan menemukan beberapa topik. Output dari kode saya adalah dua matriks yang mengandung probabilitas; satu probabilitas doc-topic dan satu lainnya word-topic. Tapi saya sebenarnya tidak tahu bagaimana menggunakan hasil ini untuk memprediksi topik dokumen baru. Saya menggunakan sampling Gibbs. Adakah yang tahu bagaimana …

2
Kapan kita menggabungkan reduksi dimensi dengan pengelompokan?
Saya mencoba melakukan pengelompokan tingkat dokumen. Saya membangun matriks frekuensi istilah-dokumen dan saya mencoba mengelompokkan vektor-vektor dimensi tinggi ini menggunakan k-means. Alih-alih langsung mengelompokkan, apa yang saya lakukan adalah pertama-tama menerapkan dekomposisi vektor singular LSA (Latent Semantic Analysis) untuk mendapatkan matriks U, S, Vt, memilih ambang yang sesuai menggunakan plot …


4
Penambangan Teks: bagaimana cara mengelompokkan teks (misalnya artikel berita) dengan kecerdasan buatan?
Saya telah membangun beberapa jaringan saraf (MLP (terhubung penuh), Elman (berulang)) untuk tugas yang berbeda, seperti bermain Pong, mengklasifikasikan angka tulisan tangan dan lainnya ... Selain itu saya mencoba untuk membangun beberapa jaringan saraf convolutional pertama, misalnya untuk mengklasifikasikan catatan tulisan tangan multi-digit, tetapi saya benar-benar baru untuk menganalisis dan …



3
Model topik untuk dokumen pendek
Terinspirasi oleh pertanyaan ini , saya bertanya-tanya apakah ada pekerjaan yang telah dilakukan pada model topik untuk koleksi besar teks yang sangat pendek. Intuisi saya adalah bahwa Twitter harus menjadi inspirasi alami untuk model seperti itu. Namun, dari beberapa eksperimen terbatas, sepertinya model topik standar (LDA, dll) berkinerja sangat buruk …

2
Contoh penggalian teks dengan R (paket tm)
Saya menghabiskan tiga hari mencoba-coba tmsetelah membaca kertas konsep oleh seorang teman di mana ia menjelajahi corpus teks dengan UCINET, menunjukkan awan teks, grafik jaringan dua mode dan Dekomposisi Nilai Tunggal (dengan grafik, menggunakan Stata). Saya berlari di bawah sejumlah besar masalah: pada Mac OS X, ada masalah dengan Java …
14 r  text-mining 

2
Apa n-gram menjadi kontraproduktif?
Saat melakukan pemrosesan bahasa alami, seseorang dapat mengambil corpus dan mengevaluasi probabilitas kata berikutnya yang muncul dalam urutan n. n biasanya dipilih sebagai 2 atau 3 (bigrams dan trigram). Adakah titik yang diketahui di mana pelacakan data untuk rantai ke-n menjadi kontraproduktif, mengingat jumlah waktu yang diperlukan untuk mengklasifikasikan korpus …

1
Ekstraksi kata kunci otomatis: menggunakan persamaan cosinus sebagai fitur
Saya punya matriks istilah-dokumen , dan sekarang saya ingin mengekstraksi kata kunci untuk setiap dokumen dengan metode pembelajaran yang dilindungi (SVM, Naif Bayes, ...). Dalam model ini, saya sudah menggunakan Tf-idf, tag Pos, ...M.M.M Tapi sekarang aku bertanya-tanya tentang selanjutnya. Saya punya matriks dengan persamaan cosinus antara istilah-istilah.CCC Apakah ada …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.