Pertanyaan yang diberi tag «natural-language»

Natural Language Processing adalah seperangkat teknik dari linguistik, kecerdasan buatan, pembelajaran mesin dan statistik yang bertujuan untuk memproses dan memahami bahasa manusia.

2
Bagaimana metode .similaritas dalam SpaCy dihitung?
Tidak yakin apakah ini situs tumpukan yang tepat, tetapi begini saja. Bagaimana cara kerja metode .similiarity? Wah spanya bagus! Model tfidf-nya bisa lebih mudah, tetapi w2v dengan hanya satu baris kode ?! Dalam 10 baris tutorialnya di spaCy andrazhribernik, tunjukkan pada kami metode .similaritas yang dapat dijalankan pada token, sents, …


2
Menangkap pola awal saat menggunakan backpropagation terpotong melalui waktu (RNN / LSTM)
Katakanlah saya menggunakan RNN / LSTM untuk melakukan analisis sentimen, yang merupakan pendekatan banyak-ke-satu (lihat blog ini ). Jaringan dilatih melalui backpropagation terpotong terpotong (BPTT), di mana jaringan dibuka untuk hanya 30 langkah terakhir seperti biasa. Dalam kasus saya, masing-masing bagian teks yang ingin saya klasifikasikan jauh lebih panjang daripada …

2
Mengapa n-gram digunakan dalam identifikasi bahasa teks, bukan kata-kata?
Dalam dua perpustakaan identifikasi bahasa populer, Compact Language Detector 2 untuk C ++ dan bahasa detektor untuk java, keduanya menggunakan (berbasis karakter) n-gram untuk mengekstraksi fitur teks. Mengapa kantung kata-kata (satu kata / kamus) tidak digunakan, dan apa keuntungan dan kerugian kantung kata-kata dan n-gram? Juga, apa kegunaan lain dari …

2
Bagaimana cara menerapkan jaringan saraf pada masalah klasifikasi multi-label?
Deskripsi: Biarkan domain masalah menjadi klasifikasi dokumen di mana terdapat satu set vektor fitur, masing-masing milik 1 atau lebih kelas. Misalnya, dokumen doc_1mungkin milik Sportsdan Englishkategori. Pertanyaan: Menggunakan jaringan saraf untuk klasifikasi, apa label untuk vektor fitur? apakah itu akan menjadi vektor yang membentuk semua kelas sehingga nilai 0 diberikan …

3
Bagaimana model skip-gram Word2Vec menghasilkan vektor output?
Saya mengalami masalah dalam memahami model skip-gram dari algoritma Word2Vec. Dalam kata-kata kontinyu mudah untuk melihat bagaimana kata konteks dapat "cocok" di Neural Network, karena Anda pada dasarnya meratakannya setelah mengalikan masing-masing representasi pengodean satu-panas dengan matriks input W. Namun, dalam kasus lompatan-gram, Anda hanya mendapatkan vektor kata input dengan …

1
Algoritma penyematan kata dalam hal kinerja
Saya mencoba menanamkan sekitar 60 juta frasa ke dalam ruang vektor , lalu menghitung persamaan cosinus di antara mereka. Saya telah menggunakan sklearn's CountVectorizerdengan fungsi tokenizer yang dibuat khusus yang menghasilkan unigrams dan bigrams. Ternyata untuk mendapatkan representasi yang bermakna, saya harus mengizinkan sejumlah besar kolom, linier dalam jumlah baris. …

1
Klarifikasi Maksimalisasi Harapan
Saya menemukan tutorial yang sangat membantu mengenai algoritma EM . Contoh dan gambar dari tutorial ini sangat brilian. Pertanyaan terkait tentang menghitung probabilitas bagaimana cara kerja maksimalisasi harapan? Saya punya pertanyaan lain tentang bagaimana menghubungkan teori yang dijelaskan dalam tutorial ke contoh. Selama langkah-E, EM memilih fungsi yang menurunkan batas …

1
Apa pro dan kontra dari penerapan informasi timbal balik secara langsung pada matriks kata cooccurrence sebelum SVD?
Salah satu cara untuk menghasilkan embeddings kata adalah sebagai berikut ( mirror ): Dapatkan kopral, misalnya "Saya menikmati terbang. Saya suka NLP. Saya suka belajar dalam-dalam." Bangun kata cooccurrence matrix dari itu: Lakukan SVD pada , dan pertahankan kolom pertama U.XXXkkk Setiap baris submatrix akan menjadi kata embedding dari kata …

2
Pertanyaan tentang Continuous Bag of Words
Saya mengalami kesulitan memahami kalimat ini: Arsitektur yang diusulkan pertama mirip dengan NNLM feedforward, di mana lapisan tersembunyi non-linear dihapus dan lapisan proyeksi dibagi untuk semua kata (bukan hanya matriks proyeksi); dengan demikian, semua kata diproyeksikan ke posisi yang sama (vektornya dirata-ratakan). Apa lapisan proyeksi vs matriks proyeksi? Apa artinya …

2
Menangani kata-kata yang tidak dikenal dalam tugas pemodelan bahasa menggunakan LSTM
Untuk tugas pemrosesan bahasa alami (NLP) seseorang sering menggunakan vektor word2vec sebagai embedding kata-kata. Namun, mungkin ada banyak kata yang tidak dikenal yang tidak ditangkap oleh vektor word2vec hanya karena kata-kata ini tidak cukup sering terlihat dalam data pelatihan (banyak implementasi menggunakan jumlah minimum sebelum menambahkan kata ke dalam kosakata). …


1
Memahami penggunaan logaritma dalam logaritma TF-IDF
Saya sedang membaca: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition Tapi sepertinya saya tidak bisa mengerti persis mengapa formula itu dibuat seperti itu. Apa yang saya Pahami: iDF pada tingkat tertentu harus mengukur seberapa sering suatu istilah S muncul di setiap dokumen, menurun nilainya ketika istilah itu muncul lebih sering. Dari perspektif itu saya D F( …

3
Mengenai menggunakan model bigram (N-gram) untuk membangun vektor fitur untuk dokumen teks
Pendekatan tradisional konstruksi fitur untuk penambangan teks adalah pendekatan bag-of-words, dan dapat ditingkatkan menggunakan tf-idf untuk mengatur vektor fitur yang menjadi ciri dokumen teks yang diberikan. Saat ini, saya mencoba menggunakan model bahasa bi-gram atau (N-gram) untuk membangun vektor fitur, tetapi tidak cukup tahu bagaimana melakukannya? Bisakah kita cukup mengikuti …

2
Bagaimana saya bisa mengelompokkan string berdasarkan tema umum?
Saya mencoba mengelompokkan, misalnya, string tentang pemrograman dengan string lain tentang pemrograman, string tentang fisika dengan string lain tentang fisika, dll., Untuk berbagai topik. Terlepas dari aspek linguistik teoretis yang menyolok dari masalah, saya mencari untuk benar-benar melakukan ini menggunakan pemrograman / perangkat lunak. Ikhtisar: Diberikan sejumlah besar string, bagaimana …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.