Buku bagus tentang penambangan teks?


11

Hai Saya ingin tahu apakah ada beberapa buku bagus tentang penggalian dan klasifikasi teks dengan beberapa studi kasus ?. Jika tidak beberapa makalah / jurnal dapat diakses oleh publik akan melakukannya. Jika mereka menggambarkan contoh mereka dengan R lebih baik. Saya tidak mencari langkah demi langkah manual tetapi sesuatu yang menggambarkan pro dan kontra dari berbagai pendekatan penambangan teks untuk berbagai kelas masalah.

Jawaban:


5

Lihat http://lintool.github.com/MapReduceAlgorithms/MapReduce-book-final.pdf Data-Intensive Text Processing dengan MapReduce - buku ini cukup akademis tetapi mencakup sejumlah teknik pemrosesan teks yang umum digunakan dan bagaimana mereka dapat diparalelkan lebih dari dataset besar menggunakan pengurangan peta.

www.rtexttools.com Ini adalah paket R yang luar biasa yang membantu Anda menerapkan berbagai algoritma klasifikasi (termasuk beberapa metode ensemble) ke analisis teks. dan


4
Untuk membuat jawaban ini lengkap, bisakah Anda memberikan ringkasan singkat dari setiap tautan?
chl

4

Saya baru saja membaca empat buku di bidang ini:

Feldman, R. dan James Sanger, J. (2006). Buku Pegangan Penambangan Teks: Pendekatan Lanjutan dalam Menganalisis Data Tidak Terstruktur. Cambridge University Press.

Yang ini berfokus pada contoh-contoh praktis, perangkat lunak dan penambangan teks terapan. Ini memberikan beberapa contoh penggunaan praktis penambangan teks. Mungkin menarik jika Anda ingin membaca tentang aplikasi komersial alat penambangan teks.

Srivastava, AN dan Sahami, M. (2009). Penambangan Teks: Klasifikasi, Klaster, dan Aplikasi. Chapman & Hall / CRC.

Ini adalah serangkaian makalah penelitian yang digunakan sebagai contoh penggunaan berbagai alat penambangan teks. Itu agak terlalu fokus untuk tes pengantar.

Weiss, SM, Indurkhya, N., Zhang, T. dan Damerau, F. (2005). Penambangan Teks: Metode Prediktif untuk Menganalisis Informasi Tidak Terstruktur. Peloncat.

Teks yang sangat pengantar yang menjelaskan beberapa masalah umum.

Manning, C. (1999). Yayasan Pengolahan Bahasa Alam Statistik. MIT Press.

Ini adalah buku terbaik yang sudah saya baca tentang topik ini. Itu ditulis dengan baik, jelas, masuk lebih dalam ke teori tetapi dengan cara yang ramah praktik. Mulai dengan pengantar umum, tetapi kemudian mengulas beberapa metode dan algoritma yang paling umum digunakan. Jika Anda harus memilih hanya satu buku, saya akan merekomendasikan buku ini.

Anda juga dapat dengan mudah menemukan banyak buku tentang pemrosesan bahasa alami dan penggalian teks yang berfokus pada penggunaan R ( tm library) atau Python ( perpustakaan nltk ).


2

Ini mungkin tidak tepat pada poin untuk apa yang Anda cari, tetapi Menguasai Ekspresi Reguler oleh Jeffrey Friedl adalah sumber yang bagus untuk belajar bagaimana menggunakan ekspresi reguler untuk mengurai teks. Dia tidak membahas teknik-teknik pemodelan, tetapi, dipersenjatai dengan jumlah dari penerapan ekspresi reguler, Anda dapat menerapkan berbagai pendekatan pemodelan standar.


2

Satu buku yang saya kembali ke waktu dan lagi untuk ide adalah Penambangan Teks: Metode Prediktif ... oleh Sholom Weiss. Ini memiliki banyak ide untuk mendekati masalah yang menurut saya berguna karena kadang-kadang penambangan teks adalah tentang mencoba hal-hal yang berbeda - Kamus global vs lokal, jumlah fitur yang harus disimpan, dll. Saya menemukan buku ini sebagai generator ide yang bagus. Ini juga memiliki studi kasus.


Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.