Ilmu Data similarity

5

Apa sajakah cara standar untuk menghitung jarak antar dokumen?

Ketika saya mengatakan "dokumen", saya memikirkan halaman web seperti artikel Wikipedia dan cerita berita. Saya lebih suka jawaban yang memberikan metrik jarak vanila atau metrik jarak semantik canggih, dengan preferensi yang lebih kuat untuk yang terakhir.

34 machine-learning data-mining nlp text-mining similarity

4

Aplikasi dan perbedaan untuk kesamaan Jaccard dan Kesamaan Cosine

Kesamaan Jaccard dan kesamaan cosinus adalah dua pengukuran yang sangat umum sambil membandingkan kesamaan item. Namun, saya tidak begitu jelas dalam situasi apa yang mana yang lebih disukai daripada yang lain. Dapatkah seseorang membantu memperjelas perbedaan dari dua pengukuran ini (perbedaan dalam konsep atau prinsip, bukan definisi atau perhitungan) dan …

27 similarity

5

Algoritma praktis terbaik untuk kesamaan kalimat

Saya memiliki dua kalimat, S1 dan S2, keduanya memiliki jumlah kata (biasanya) di bawah 15. Apa algoritma (pembelajaran mesin) yang praktis dan paling berguna, yang mungkin mudah diimplementasikan (jaringan saraf ok, kecuali arsitekturnya serumit Google Inception, dll.). Saya mencari algoritma yang akan bekerja dengan baik tanpa terlalu banyak waktu. Apakah …

18 nlp clustering word2vec similarity

4

Pengelompokan berdasarkan skor kesamaan

Asumsikan bahwa kita memiliki satu set elemen E dan kesamaan ( tidak jarak ) fungsi sim (ei, ej) antara dua elemen ei, ej ∈ E . Bagaimana kita (secara efisien) mengelompokkan elemen-elemen E , menggunakan sim ? k -berarti, misalnya, membutuhkan k yang diberikan , Canopy Clustering membutuhkan dua nilai …

17 clustering algorithms similarity

5

membuat peta panas seaborn lebih besar

Saya membuat corr()df dari df asli. The corr()df keluar 70 X 70 dan tidak mungkin untuk memvisualisasikan heatmap tersebut ... sns.heatmap(df). Jika saya mencoba untuk menampilkan corr = df.corr(), tabel tidak cocok dengan layar dan saya bisa melihat semua korelasinya. Apakah ini cara untuk mencetak keseluruhan dfterlepas dari ukurannya atau …

16 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

5

Prediksi kesamaan kalimat

Saya mencari untuk memecahkan masalah berikut: Saya memiliki satu set kalimat sebagai dataset saya, dan saya ingin dapat mengetikkan kalimat baru, dan menemukan kalimat yang paling mirip dengan yang ada di dataset. Contohnya akan terlihat seperti: Kalimat baru: " I opened a new mailbox" Prediksi berdasarkan dataset: Sentence | Similarity …

15 python nlp scikit-learn similarity text

4

Alternatif untuk TF-IDF dan Cosine Similarity ketika membandingkan dokumen dengan format berbeda

Saya telah mengerjakan proyek kecil pribadi yang membutuhkan keterampilan kerja pengguna dan menyarankan karier yang paling ideal bagi mereka berdasarkan keterampilan itu. Saya menggunakan database daftar pekerjaan untuk mencapai ini. Saat ini, kodenya berfungsi sebagai berikut: 1) Memproses teks dari setiap daftar pekerjaan untuk mengekstrak keterampilan yang disebutkan dalam daftar …

12 nlp text-mining similarity cosine-distance

1

MinHashing vs SimHashing

Misalkan saya memiliki lima set yang ingin saya klaster. Saya mengerti bahwa teknik SimHashing dijelaskan di sini: https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/ dapat menghasilkan tiga cluster ( {A}, {B,C,D}dan {E}), misalnya, jika hasilnya adalah: A -> h01 B -> h02 C -> h02 D -> h02 E -> h03 Demikian pula, teknik MinHashing yang …

12 clustering similarity

3

Model ruang vektor cosinus tf-idf untuk menemukan dokumen serupa

Memiliki kumpulan lebih dari jutaan dokumen Untuk dokumen yang diberikan ingin mencari dokumen serupa menggunakan cosinus seperti dalam model ruang vektor d1⋅d2/(||d1||||d2||)d1⋅d2/(||d1||||d2||)d_1 \cdot d_2 / ( ||d_1|| ||d_2|| ) Semua tf telah dinormalisasi menggunakan frekuensi augmented, untuk mencegah bias terhadap dokumen yang lebih panjang seperti dalam tf-idf ini : tf(t,d)=0.5+0.5f(t,d)max{f(t,d):t∈d}tf(t,d)=0.5+0.5f(t,d)max{f(t,d):t∈d}tf(t,d)=0.5+0.5\frac{f(t,d)}{\mathrm{max}\{f(t,d): …

10 text-mining similarity

2

Ekstrak string kanonik dari daftar string berisik

Saya memiliki ribuan daftar string, dan setiap daftar memiliki sekitar 10 string. Sebagian besar string dalam daftar yang diberikan sangat mirip, meskipun beberapa string (jarang) sama sekali tidak terkait dengan yang lain dan beberapa string berisi kata-kata yang tidak relevan. Mereka dapat dianggap sebagai variasi berisik dari string kanonik. Saya …

10 nlp similarity information-retrieval

3

Bagaimana cara melakukan batch product dalam Tensorflow?

Saya memiliki dua tensor a:[batch_size, dim] b:[batch_size, dim]. Saya ingin melakukan produk dalam untuk setiap pasangan dalam batch, menghasilkan c:[batch_size, 1], di mana c[i,0]=a[i,:].T*b[i,:]. Bagaimana?

10 tensorflow scikit-learn svm cross-validation feature-selection bayesian machine-learning decision-trees parameter-estimation neural-network convnet neural-network regularization visualization machine-learning similarity python pandas indexing r data-cleaning machine-learning predictive-modeling data-cleaning recommender-system python sequential-pattern-mining software-recommendation r visualization gaussian distribution machine-learning data-mining bigdata apache-hadoop predictive-modeling logistic-regression sampling machine-learning regression feature-selection mongodb neural-network inception machine-learning classification dataset databases logistic-regression deep-learning backpropagation classification data-mining multilabel-classification text-mining data-cleaning unsupervised-learning anomaly-detection python r python pandas

2

Kapan harus memilih regresi linier atau Pohon Keputusan atau regresi Hutan Acak? [Tutup]

Ditutup . Pertanyaan ini perlu lebih fokus . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga berfokus pada satu masalah hanya dengan mengedit posting ini . Ditutup 4 tahun yang lalu . Saya sedang mengerjakan suatu proyek dan saya mengalami kesulitan dalam menentukan algoritma mana yang …

10 machine-learning algorithms random-forest linear-regression decision-trees machine-learning predictive-modeling forecast r clustering similarity data-mining dataset statistics text-mining text-mining data-cleaning data-wrangling machine-learning classification algorithms xgboost data-mining dataset dataset regression graphs svm unbalanced-classes cross-validation optimization hyperparameter genetic-algorithms visualization predictive-modeling correlation machine-learning predictive-modeling apache-spark statistics normalization apache-spark map-reduce r correlation confusion-matrix r data-cleaning classification terminology dataset image-classification machine-learning regression apache-spark machine-learning data-mining nlp parsing machine-learning dimensionality-reduction visualization clustering multiclass-classification evaluation unsupervised-learning machine-learning machine-learning data-mining supervised-learning unsupervised-learning machine-learning data-mining classification statistics predictive-modeling data-mining clustering python pandas machine-learning dataset data-cleaning data bigdata software-recommendation

2

Memperbaiki ketidakkonsistenan data

Saya mencoba menganalisis beberapa data yang saya miliki tetapi ada banyak ketidakkonsistenan dalam data saya. Saya memiliki tabel SQL yang saya coba analisis. Tabel tersebut adalah tabel universitas dengan struktur sebagai berikut: name:string, city:string, state:string, country:string Nama selalu ada namun kota, negara bagian, negara dapat hilang. Masalah utama saya adalah …

8 data-cleaning similarity distance

3

Bagaimana menemukan kesamaan antara berbagai faktor dalam suatu dataset

pengantar Katakanlah saya memiliki kumpulan data pengamatan yang berbeda dari orang yang berbeda dan saya ingin mengelompokkan orang untuk mengetahui orang yang paling dekat dengan yang lain. Saya juga ingin memiliki ukuran untuk mengetahui seberapa dekat mereka satu sama lain dan mengetahui signifikansi statistik. Data eat_rate drink_rate sleep_rate play_rate name …

8 machine-learning r similarity correlation

3

Skor kesamaan matriks string

Saya memiliki banyak dokumen, yang memuat banyak pasangan nilai kunci di dalamnya. Kunci mungkin tidak unik sehingga mungkin ada beberapa kunci dari jenis yang sama dengan nilai yang berbeda. Saya ingin membandingkan kesamaan kunci antara 2 dokumen. Lebih khusus kesamaan string dari nilai-nilai ini. Saya berpikir untuk menggunakan sesuatu seperti …

8 algorithms similarity

Pertanyaan yang diberi tag «similarity»