Statistik dan Big Data

T&J untuk orang-orang yang tertarik dalam statistik, pembelajaran mesin, analisis data, penambangan data, dan visualisasi data


7
Saat melakukan beberapa regresi, kapan Anda harus memusatkan variabel prediktor Anda & kapan Anda harus membakukannya?
Dalam beberapa literatur, saya telah membaca bahwa regresi dengan berbagai variabel penjelas, jika dalam unit yang berbeda, perlu distandarisasi. (Standarisasi terdiri dari pengurangan mean dan pembagian dengan deviasi standar.) Dalam kasus lain apa saya perlu melakukan standarisasi data? Apakah ada kasus di mana saya hanya harus memusatkan data saya (yaitu, …



11
Bagaimana cara memahami derajat kebebasan?
Dari Wikipedia , ada tiga interpretasi tentang derajat kebebasan suatu statistik: Dalam statistik, jumlah derajat kebebasan adalah jumlah nilai dalam penghitungan akhir suatu statistik yang bebas bervariasi . Perkiraan parameter statistik dapat didasarkan pada jumlah informasi atau data yang berbeda. Jumlah potongan informasi independen yang masuk ke dalam estimasi parameter …


16
Apa arti dari nilai p dan nilai t dalam uji statistik?
Setelah mengambil kursus statistik dan kemudian mencoba membantu sesama siswa, saya perhatikan satu mata pelajaran yang menginspirasi banyak banging kepala kantor adalah menafsirkan hasil tes hipotesis statistik. Tampaknya siswa dengan mudah belajar bagaimana melakukan perhitungan yang diperlukan oleh tes yang diberikan tetapi terbiasa menafsirkan hasil. Banyak alat yang terkomputerisasi melaporkan …


8
Mengapa jarak Euclidean bukan metrik yang baik dalam dimensi tinggi?
Saya membaca bahwa 'jarak Euclidean bukan jarak yang baik dalam dimensi tinggi'. Saya kira pernyataan ini ada hubungannya dengan kutukan dimensi, tetapi apa sebenarnya? Selain itu, apa itu 'dimensi tinggi'? Saya telah menerapkan pengelompokan hierarkis menggunakan jarak Euclidean dengan 100 fitur. Hingga berapa banyak fitur yang aman untuk menggunakan metrik …


2
Interpretasi output R's lm ()
Halaman bantuan di R menganggap saya tahu apa arti angka-angka itu, tetapi saya tidak tahu. Saya mencoba untuk benar-benar memahami setiap angka di sini. Saya hanya akan memposting output dan mengomentari apa yang saya temukan. Mungkin ada (akan) kesalahan, karena saya hanya akan menulis apa yang saya asumsikan. Terutama saya …

6
Apakah
Saya membaca beberapa catatan kuliah oleh Cosma Shalizi (khususnya, bagian 2.1.1 dari kuliah kedua ), dan diingatkan bahwa Anda bisa mendapatkan sangat rendah bahkan ketika Anda memiliki model yang sepenuhnya linier.R2R2R^2 Mengutip contoh Shalizi: misalkan Anda memiliki model , di mana dikenal. Kemudian dan jumlah varian yang dijelaskan adalah ^ …



12
Mengapa 95% Confidence Interval (CI) tidak menyiratkan peluang 95% mengandung mean?
Tampaknya melalui berbagai pertanyaan terkait di sini, terdapat konsensus bahwa bagian "95%" dari apa yang kita sebut "interval kepercayaan 95%" mengacu pada fakta bahwa jika kita harus secara tepat mereplikasi prosedur pengambilan sampel dan perhitungan CI kita berkali-kali. , 95% dari CI yang dihitung demikian akan mengandung rata-rata populasi. Tampaknya …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.