Statistik dan Big Data

T&J untuk orang-orang yang tertarik dalam statistik, pembelajaran mesin, analisis data, penambangan data, dan visualisasi data


5
LDA vs word2vec
Saya mencoba memahami apa persamaan antara Alokasi Dirichlet Laten dan word2vec untuk menghitung kesamaan kata. Seperti yang saya pahami, LDA memetakan kata ke vektor probabilitas dari topik laten , sementara word2vec memetakannya ke vektor bilangan real (terkait dengan penguraian nilai singular dari informasi timbal balik yang saling berhadapan, lihat O. …

5
Apakah meminimalkan kesalahan kuadrat setara dengan meminimalkan kesalahan absolut? Mengapa kesalahan kuadrat lebih populer daripada yang terakhir?
Ketika kami melakukan regresi linier agar sesuai dengan banyak titik data , pendekatan klasik meminimalkan kesalahan kuadrat. Saya sudah lama bingung dengan pertanyaan yang akan meminimalkan kesalahan kuadrat menghasilkan hasil yang sama dengan meminimalkan kesalahan absolut ? Jika tidak, mengapa meminimalkan kesalahan kuadrat lebih baik? Adakah alasan lain selain "fungsi …

4
Mereplikasi opsi "kuat" Stata di R
Saya telah mencoba untuk mereplikasi hasil opsi Stata robustdi R. Saya telah menggunakan rlmperintah dari paket MASS dan juga perintah lmrobdari paket "robustbase". Dalam kedua kasus hasilnya sangat berbeda dari opsi "kuat" di Stata. Adakah yang bisa menyarankan sesuatu dalam konteks ini? Berikut adalah hasil yang saya peroleh ketika saya …

3
Apakah standardisasi diperlukan sebelum menyesuaikan regresi logistik?
Pertanyaan saya adalah apakah kita perlu menstandarkan set data untuk memastikan semua variabel memiliki skala yang sama, antara [0,1], sebelum menyesuaikan regresi logistik. Rumusnya adalah: xsaya- mnt ( xsaya)maks ( xsaya) - min ( xsaya)xi−min(xi)max(xi)−min(xi)\frac{x_i-\min(x_i)}{\max(x_i)-\min(x_i)} Kumpulan data saya memiliki 2 variabel, mereka menggambarkan hal yang sama untuk dua saluran, tetapi …

3
Justifikasi empiris untuk aturan satu kesalahan standar saat menggunakan cross-validation
Apakah ada studi empiris yang membenarkan penggunaan satu aturan kesalahan standar yang mendukung kekikiran? Jelas itu tergantung pada proses data-data, tetapi apa pun yang menganalisis kumpulan data besar akan menjadi bacaan yang sangat menarik. "Satu aturan kesalahan standar" diterapkan ketika memilih model melalui cross-validation (atau lebih umum melalui prosedur berbasis …

1
Peringkat dalam R - urutan menurun [ditutup]
Saya mencari untuk memberi peringkat data yang, dalam beberapa kasus, nilai yang lebih besar memiliki peringkat 1. Saya relatif baru untuk R, tetapi saya tidak melihat bagaimana saya dapat menyesuaikan pengaturan ini dalam fungsi peringkat. x <- c(23,45,12,67,34,89) rank(x) menghasilkan: [1] 2 4 1 5 3 6 ketika saya menginginkannya: …
39 r 





3
Mengapa Pohon Keputusan tidak mahal secara komputasi?
Dalam Pengantar Pembelajaran Statistik dengan Aplikasi dalam R , penulis menulis bahwa pemasangan pohon keputusan sangat cepat, tetapi ini tidak masuk akal bagi saya. Algoritma harus melalui setiap fitur dan mempartisi dengan segala cara untuk menemukan pemisahan optimal. Untuk fitur numerik dengan pengamatan, ini dapat menghasilkan partisi untuk setiap fitur.nnnnnn …
38 cart 

6
Mengapa saya mendapatkan pohon keputusan akurasi 100%?
Saya mendapatkan akurasi 100% untuk pohon keputusan saya. Apa yang saya lakukan salah? Ini kode saya: import pandas as pd import json import numpy as np import sklearn import matplotlib.pyplot as plt data = np.loadtxt("/Users/Nadjla/Downloads/allInteractionsnum.csv", delimiter=',') x = data[0:14] y = data[-1] from sklearn.cross_validation import train_test_split x_train = x[0:2635] x_test …



Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.