Statistik dan Big Data natural-language

2

Bingung dan lintas-entropi untuk model n-gram

Mencoba memahami hubungan antara entropi-silang dan kebingungan. Secara umum untuk model M , Perplexity (M) = 2 ^ entropy (M) . Apakah hubungan ini berlaku untuk semua n-gram yang berbeda, yaitu unigram, bigram, dll.?

10 natural-language entropy perplexity

1

Apakah interpretasi sparsity ini akurat?

Menurut dokumentasi removeSparseTermsfungsi dari tmpaket, inilah yang diperlukan sparsity: A term-document matrix where those terms from x are removed which have at least a sparse percentage of empty (i.e., terms occurring 0 times in a document) elements. I.e., the resulting matrix contains only terms with a sparse factor of less …

10 r text-mining natural-language

1

Model pembelajaran dalam mana yang dapat mengklasifikasikan kategori yang tidak eksklusif satu sama lain

Contoh: Saya memiliki kalimat dalam deskripsi pekerjaan: "Java senior engineer in UK". Saya ingin menggunakan model pembelajaran yang mendalam untuk memperkirakannya sebagai 2 kategori: English dan IT jobs. Jika saya menggunakan model klasifikasi tradisional, hanya dapat memprediksi 1 label dengan softmaxfungsi di lapisan terakhir. Dengan demikian, saya dapat menggunakan 2 …

9 machine-learning deep-learning natural-language tensorflow sampling distance non-independent application regression machine-learning logistic mixed-model control-group crossover r multivariate-analysis ecology procrustes-analysis vegan regression hypothesis-testing interpretation chi-squared bootstrap r bioinformatics bayesian exponential beta-distribution bernoulli-distribution conjugate-prior distributions bayesian prior beta-distribution covariance naive-bayes smoothing laplace-smoothing distributions data-visualization regression probit penalized estimation unbiased-estimator fisher-information unbalanced-classes bayesian model-selection aic multiple-regression cross-validation regression-coefficients nonlinear-regression standardization naive-bayes trend machine-learning clustering unsupervised-learning wilcoxon-mann-whitney z-score econometrics generalized-moments method-of-moments machine-learning conv-neural-network image-processing ocr machine-learning neural-networks conv-neural-network tensorflow r logistic scoring-rules probability self-study pdf cdf classification svm resampling forecasting rms volatility-forecasting diebold-mariano neural-networks prediction-interval uncertainty

1

Mengapa menambahkan satu dalam frekuensi dokumen terbalik?

Saya buku daftar yang idf sebagai manal o g( 1 + Nnt)log(1+Nnt)log(1+\frac{N}{n_t}) : Jumlah DokumenNNN tntntn_t : Jumlah Dokumen yang mengandung istilahttt Wikipedia mencantumkan rumus ini sebagai versi dari aktual . Yang saya mengerti: berkisar dari hingga yang tampaknya intuitif. Tapi berubah dari menjadi yang tampaknya sangat aneh ... Saya …

9 text-mining natural-language smoothing

1

Memahami Dekomposisi Nilai Singular dalam konteks LSI

Pertanyaan saya umumnya pada Dekomposisi Nilai Singular (SVD), dan khususnya tentang Latent Semantic Indexing (LSI). Katakanlah, saya memiliki yang berisi frekuensi 5 kata untuk 7 dokumen.SEBUAHw o r d× do c u m e n tAword×document A_{word \times document} A = matrix(data=c(2,0,8,6,0,3,1, 1,6,0,1,7,0,1, 5,0,7,4,0,5,6, 7,0,8,5,0,8,5, 0,10,0,0,7,0,0), ncol=7, byrow=TRUE) rownames(A) <- …

9 r svd natural-language latent-semantic-indexing

1

Menggunakan alat penambangan teks / bahasa alami untuk ekonometrika

Saya tidak yakin apakah pertanyaan ini sepenuhnya sesuai di sini, jika tidak, harap hapus. Saya seorang mahasiswa pascasarjana di bidang ekonomi. Untuk proyek yang menyelidiki masalah dalam asuransi sosial, saya memiliki akses ke sejumlah besar laporan kasus administratif (> 200k) yang berkaitan dengan evaluasi kelayakan. Laporan-laporan ini dapat dihubungkan dengan …

9 machine-learning data-mining econometrics text-mining natural-language

1

Rasio kemungkinan log dalam peringkasan dokumen

Saya awalnya bertanya ini pada stack overflow dan dirujuk ke situs ini, jadi begini: Saya menerapkan beberapa metode yang tidak terawasi dari peringkasan dokumen berbasis pemilihan / ekstraksi konten dan saya bingung tentang apa yang disebut buku teks saya sebagai "rasio kemungkinan log". Buku Speech and Language Processing oleh Jurafsky …

9 natural-language text-summarization

4

Apa saja senon dalam Jaringan Saraf Tiruan?

Saya membaca makalah ini: penerjemah skype di mana mereka menggunakan CD-DNN-HMMs (Konteks bergantung pada Jaringan saraf dengan Model Hidden Markov). Saya dapat memahami ide proyek dan arsitektur yang telah mereka rancang tetapi saya tidak mengerti apa itu senones . Saya telah mencari definisi tetapi saya belum menemukan apa pun —Kami …

9 neural-networks deep-learning terminology natural-language hidden-markov-model

1

Representasi vektor input vs representasi vektor output di word2vec

Dalam CBOW dan skip-gram model word2vec, bagaimana cara memilih vektor kata dari (input word matrix) vs. memilih vektor kata dari (output word matrix) berdampak pada kualitas vektor kata yang dihasilkan?WWWW′W′W' CBOW: Lewati-gram:

9 neural-networks natural-language word2vec word-embeddings

1

Bagaimana menangani perubahan panjang vektor input dengan jaringan saraf

Saya ingin melatih jaringan saraf dengan urutan karakter sebagai vektor input. Contoh pembelajaran memiliki panjang yang berbeda dan untuk alasan ini saya tidak tahu bagaimana cara mewakili mereka. Katakanlah saya memiliki dua contoh urutan, di sini nama: john doe maurice delanoe Contoh pertama adalah panjang 8, kedua panjang 15. Apakah …

9 machine-learning neural-networks feature-selection natural-language

1

Perbedaan antara Naive Bayes vs Recurrent Neural Network (LSTM)

Saya ingin melakukan analisis sentimen pada teks, telah melalui beberapa artikel, beberapa dari mereka menggunakan "Naif Bayes" dan lainnya adalah "Jaringan Syaraf Berulang (LSTM)" , di sisi lain saya telah melihat perpustakaan python untuk analisis sentimen yang adalah nltk. Ini menggunakan "Naif Bayes" adakah yang bisa menjelaskan apa perbedaan antara …

8 machine-learning neural-networks python natural-language

1

Interval kepercayaan saat menggunakan teorema Bayes

Saya menghitung beberapa probabilitas bersyarat, dan interval kepercayaan 95% yang terkait. Untuk banyak kasus saya, saya memiliki jumlah xkeberhasilan langsung dari npercobaan (dari tabel kontingensi), sehingga saya dapat menggunakan interval kepercayaan Binomial, seperti yang disediakan oleh binom.confint(x, n, method='exact')in R. Namun dalam kasus lain, saya tidak memiliki data seperti itu, …

8 r bayesian confidence-interval conditional-probability hidden-markov-model segmentation hypothesis-testing statistical-significance multiple-comparisons multiple-regression r regression survey sample finite-population pca model-selection dataset partitioning clustering time-series least-squares regression standard-error causality r time-series outliers missing-data machine-learning svm hypothesis-testing discrete-data r data-visualization survey likert finance regression pca feature-selection stepwise-regression underdetermined svm natural-language

1

Pemodelan bahasa: mengapa menambahkan hingga 1 begitu penting?

Dalam banyak aplikasi pemrosesan bahasa alami seperti koreksi ejaan, terjemahan mesin, dan pengenalan suara, kami menggunakan model bahasa. Model bahasa biasanya dibuat dengan menghitung seberapa sering urutan kata-kata (n-gram) terjadi dalam korpus besar dan menormalkan hitungan untuk menciptakan probabilitas. Untuk menghitung n-gram yang tidak terlihat, kami menggunakan metode penghalusan (lihat …

8 distributions modeling natural-language language-models

Pertanyaan yang diberi tag «natural-language»